我正在使用 llama3.1:8b 根据给定上下文回答问题。迭代执行 20,000 次需要太多时间。有单GPU的批处理解决方案吗?
我通过 ollama.chat 使用它,生成一代大约需要 25 秒。我想用相同的模型来加快流程。
如果你使用Python,你可以尝试
multiprocessing.Pool
OLLAMA_NUM_PARALLEL
OLLAMA_MAX_QUEUE