骆驼的批量推理

Question

我正在使用 llama3.1:8b 根据给定上下文回答问题。迭代执行 20,000 次需要太多时间。有单GPU的批处理解决方案吗？

我通过 ollama.chat 使用它，生成一代大约需要 25 秒。我想用相同的模型来加快流程。

Answer 1

如果你使用Python，你可以尝试

multiprocessing.Pool

向你的Ollama发送并发请求，但不要忘记提前设置与Ollama服务的并发配置相关的环境变量(

OLLAMA_NUM_PARALLEL

,

OLLAMA_MAX_QUEUE

）。