我正在尝试预算建立一个基于 llm 的 RAG 应用程序,该应用程序将为用户提供动态大小(从 100 到 2000 的任何内容)。
我能够计算出托管某个 llm[1] 的 GPU 要求,假设半精度的 LLAMA 700 亿将需要 168 GB。但我无法弄清楚如何计算单个用户的令牌速度,然后计算多个并发用户的令牌速度以及如何寻找合适的硬件。
我该如何解决这个问题?
感谢您花时间阅读本文。 [1]:https://www.substratus.ai/blog/calculate-gpu-memory-for-llm
根据经验 - 事情没那么简单。您需要考虑:
在此基础上,您需要运行一些基准测试并对其进行概括