为什么 BF16 模型在 Mac M 系列芯片上的推理速度比 F16 模型慢?

问题描述 投票:0回答:1

我阅读了https://github.com/huggingface/smollm/tree/main/smol_tools镜像1):

所有模型均量化为 16 位浮点 (F16),以实现高效推理。训练是在 BF16 上完成的,但在我们的测试中,这种格式在 Mac M 系列芯片上的推理速度较慢。

为什么 BF16 模型在 Mac M 系列芯片上的推理速度比 F16 模型慢?

macos performance neural-network inference half-precision-float
1个回答
0
投票

来自https://redd.it/1glx8ul

bf16需要avx512指令集(Tacx79

knowledge.alteryx.com所述:

Apple Silicon(M1、M2)芯片采用ARM架构,不支持AVX指令

与 F16 不同,F16 已经存在了更长的时间

© www.soinside.com 2019 - 2024. All rights reserved.