在 SDPBackend 的 pytorch 文档中,有一些枚举可与上下文管理器一起使用,
错误:尝试确定后端时发生错误。
数学:缩放点积注意力的数学后端。
FLASH_ATTENTION:用于缩放点积注意力的 Flash 注意力后端。
EFFICIENT_ATTENTION:用于缩放点积注意力的高效注意力后端。
CUDNN_ATTENTION:用于缩放点积注意力的 cuDNN 后端。
它们是什么意思以及有何不同?
EFFICIENT ATTENTION 后端到底是什么?另一个是我在没有 GPU 的机器上检查了 torch.backends.cuda.flash_sdp_enabled() ,这是真的,但闪存注意力不是只适用于 GPU 并且它基于使用 GPU 缓存内存吗?高效注意力只是闪现注意力2吗?