骆驼的批量推理

问题描述 投票:0回答:1

我正在使用 llama3.1:8b 根据给定上下文回答问题。迭代执行 20,000 次需要太多时间。有单GPU的批处理解决方案吗?

我通过 ollama.chat 使用它,生成一代大约需要 25 秒。我想用相同的模型来加快流程。

multiprocessing batch-processing llama ollama
1个回答
0
投票

如果你使用Python,你可以尝试

multiprocessing.Pool
向你的Ollama发送并发请求,但不要忘记提前设置与Ollama服务的并发配置相关的环境变量(
OLLAMA_NUM_PARALLEL
,
OLLAMA_MAX_QUEUE 
)。

© www.soinside.com 2019 - 2024. All rights reserved.