如何让HuggingFace LLM运行得更快

问题描述 投票:0回答:1

我正在使用LLM作为我项目的一部分,我使用的模型是Llama 3.1 8B with fp16,我尝试在colab笔记本中测试模型的性能,这里是参数,它被设置为这些参数的最常见设置型号。

model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model)

pipeline = transformers.pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
max_length=1000,
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id
)

问题是,当我尝试为我的问题获取生成的文本时,它需要很长时间才能运行,大约 11 分钟用户提示“生命是什么?”,而当我使用矢量存储时,它要慢得多,这是我正在构建的应用程序花费了太多时间,而且我在外面找不到任何解决方案,而且我对这个领域也是新手。

我正在使用colab的T4 15 GB GPU,我认为对于这个模型来说这几乎足够了......

我希望它运行得快,至少在 2 分钟内......

performance large-language-model
1个回答
0
投票

如果您想在产品中使用 llm,可能最好通过 lmdeploy 或 vllm 等工具来提供服务。 这些工具部署 llms 非常高效,并且它们可以响应并行请求,具体取决于您的硬件。

© www.soinside.com 2019 - 2024. All rights reserved.