无法确定多个用户的开源推理的硬件要求（云或本地）

问题描述投票：0回答：1

我正在尝试预算建立一个基于 llm 的 RAG 应用程序，该应用程序将为用户提供动态大小（从 100 到 2000 的任何内容）。

我能够计算出托管某个 llm[1] 的 GPU 要求，假设半精度的 LLAMA 700 亿将需要 168 GB。但我无法弄清楚如何计算单个用户的令牌速度，然后计算多个并发用户的令牌速度以及如何寻找合适的硬件。

我该如何解决这个问题？

感谢您花时间阅读本文。 [1]：https://www.substratus.ai/blog/calculate-gpu-memory-for-llm

python-3.x large-language-model transformer-model inference llama

1个回答

0
投票

根据经验 - 事情没那么简单。您需要考虑：

用于推理的引擎（TGI？纯变压器？llama-cpp）
卡类型（真的重要是H100还是L40S还是A100）
批量大小
这是一个类似聊天机器人的体验还是你需要离线处理？
您想要处理的最大上下文是多少？

在此基础上，您需要运行一些基准测试并对其进行概括

最新问题

© www.soinside.com 2019 - 2025. All rights reserved.