如何让HuggingFace LLM运行得更快

问题描述投票：0回答：1

我正在使用LLM作为我项目的一部分，我使用的模型是Llama 3.1 8B with fp16，我尝试在colab笔记本中测试模型的性能，这里是参数，它被设置为这些参数的最常见设置型号。

model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model)

pipeline = transformers.pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
max_length=1000,
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id
)

问题是，当我尝试为我的问题获取生成的文本时，它需要很长时间才能运行，大约 11 分钟用户提示“生命是什么？”，而当我使用矢量存储时，它要慢得多，这是我正在构建的应用程序花费了太多时间，而且我在外面找不到任何解决方案，而且我对这个领域也是新手。

我正在使用colab的T4 15 GB GPU，我认为对于这个模型来说这几乎足够了......

我希望它运行得快，至少在 2 分钟内......

performance large-language-model

1个回答

0
投票

如果您想在产品中使用 llm，可能最好通过 lmdeploy 或 vllm 等工具来提供服务。这些工具部署 llms 非常高效，并且它们可以响应并行请求，具体取决于您的硬件。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.