HuggingFace 上的推理 Api(无服务器)端点

问题描述 投票:0回答:1

HuggingFace 上的推理系统的 Serversless API 似乎遇到了加载大型模型的问题,提示模型太大。为了解决这个问题,我尝试使用bitsandbytes包来量化模型,然后上传它。推理端点现在可见;但是,当我尝试与其交互时,我收到以下错误消息:

未找到位和字节的包元数据。

此错误消息是否表明端点无法使用量化模型,或者是否有办法在 Hugging Face 基础设施中安装 bitsandbytes 包?

serverless huggingface-transformers endpoint
1个回答
0
投票

如果您正在寻找替代方案,这里有关于无服务器 GPU 产品/即用即付方式的技术深入探讨。 这包括围绕 Llama2 7Bn 等模型的冷启动、性能一致性、可扩展性和成本效益的基准以及跨不同提供商的稳定扩散 - https://www.inferless.com/learn/the-state-of-serverless- GPU-第 2 部分 可以节省数月的评估时间。一定要读一读。 P.S:我来自 Inferless。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.