无法确定多个用户的开源推理的硬件要求(云或本地)

问题描述 投票:0回答:1

我正在尝试预算建立一个基于 llm 的 RAG 应用程序,该应用程序将为用户提供动态大小(从 100 到 2000 的任何内容)。

我能够计算出托管某个 llm[1] 的 GPU 要求,假设半精度的 LLAMA 700 亿将需要 168 GB。但我无法弄清楚如何计算单个用户的令牌速度,然后计算多个并发用户的令牌速度以及如何寻找合适的硬件。

我该如何解决这个问题?

感谢您花时间阅读本文。 [1]:https://www.substratus.ai/blog/calculate-gpu-memory-for-llm

python-3.x large-language-model transformer-model inference llama
1个回答
0
投票

根据经验 - 事情没那么简单。您需要考虑:

  1. 用于推理的引擎(TGI?纯变压器?llama-cpp)
  2. 卡类型(真的重要是H100还是L40S还是A100)
  3. 批量大小
  4. 这是一个类似聊天机器人的体验还是你需要离线处理?
  5. 您想要处理的最大上下文是多少?

在此基础上,您需要运行一些基准测试并对其进行概括

© www.soinside.com 2019 - 2024. All rights reserved.