avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

将 SSE/AVX 寄存器左移和右移 32 位,同时移入零

我想将 SSE/AVX 寄存器左移或右移 32 位的倍数,同时移入零。 让我更准确地说明我感兴趣的轮班。对于 SSE,我想做以下轮班......

回答 3 投票 0

如何在llm.c项目中进一步优化矩阵乘法?

我正在使用 llm.c 项目的矩阵乘法实现,特别是来自此文件。 提供了两种实现方式: matmul_forward_cpu:基本矩阵乘法...

回答 1 投票 0

为什么简单的代码在现代编译器中不能使用 SSE 和 AVX 自动向量化?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

comis / vucomis 中的“i”代表什么?

目前我正在阅读CSAPP 3d版,我发现说明有点冗长(在我看来)就像vucommiss一样,所以我搜索了说明的全名以帮助记忆。 我找到了

回答 1 投票 0

是否值得费心对齐 AVX-256 内存存储?

根据英特尔® 64 和 IA-32 架构优化参考手册,B.4 节(“英特尔® 微架构代号 Sandy Bridge 的性能调优技术”),亚秒...

回答 1 投票 0

使用 SIMD 并行化 4x4 行主矩阵的矩阵乘法

我目前在尝试并行化 4x4 矩阵乘法算法时面临着极其困难的时期。我正在尝试创建一个库以在学校的最小光线追踪器项目中使用,所以我正在尝试...

回答 1 投票 0

VMOVDQA 和 VMOVAPS 之间的区别?

我阅读了 ISA 参考资料,很清楚这两条指令在加载值的类型上有所不同(整数与单精度浮点数)。我不明白的是,负载的影响是......

回答 1 投票 0

与 SSE 相比,AVX 没有获得性能提升

我正在尝试利用处理器的SIMD功能。然而,在矢量化的情况下,我观察到与

回答 1 投票 0

在批量四元数向量乘法中使用 AVX512 相对于 SSE 的性能增益较小

我使用 SIMD 指令实现了四元数向量乘法函数,并针对 AVX512、AVX2 和 SSE 进行了条件编译。虽然我预计性能会显着提高...

回答 1 投票 0

AVX2 代码,用于在 8 个 4 字节目标中查找 4 字节字符串的第一个最长匹配项

我需要最快的(即无分支、最小化微指令)相当于此代码的 AVX2 代码: 上一个长度 = 0 对于 i=0..7: len = matches_bytes(目标[i], src) 如果 len > prevlen: 上一个长度 = 长度 确实...

回答 1 投票 0

AVX2 代码用于在 8 个 4 字节目标中查找 4 字节字符串的最长匹配

我需要最快的(即无分支、最小化微指令)相当于此代码的 AVX2 代码: 上一个长度 = 0 对于 i=0..7: len = matches_bytes(目标[i], src) 如果 len > prevlen: 上一个长度 = 长度 确实...

回答 1 投票 0

如何使用 AVX 执行并行加法,并将进位(溢出)反馈到同一元素(PE 校验和)?

我想使用 AVX SIMD 执行 8 个 16 位值的并行加法。需要溢出加法,即“带进位加法”,就像使用旧的“adc”x86 助记符执行的那样。 我

回答 2 投票 0

如何使用AVX执行带进位(溢出)的并行加法?

我想使用 AVX SIMD 执行 8 个 16 位值的并行加法。需要溢出加法,即“带进位加法”,就像使用旧的“adc”x86 助记符执行的那样。 我

回答 1 投票 0

如何在Neon中实现int16查表?

我想在Neon中实现像shuffle_epi16这样的指令函数。 在 AVX2 中,我通过将 int16 拆分为两个 int8 和 shuffle_epi8 两次而不是 unpack_epi8 将它们合并到最终的 in...

回答 1 投票 0

AVX 中成对和组件之间的转换

我正在为 AVX/AVX2 编写一个双精度算术库。我遇到的问题之一是非 Simd 和 Simd 版本具有不同的内存布局。 // 成对的 结构 Float64x2 { ...

回答 1 投票 0

未知类型名称 __m256 - AVX 的英特尔内在函数无法识别?

我正在尝试测试一些英特尔内部函数,看看它们是如何工作的。因此,我创建了一个函数来为我执行此操作,这是代码: 无效 test_intel_256() { __m256 资源,vec1,vec2; __M256_MM_SET_PS(

回答 2 投票 0

AVX MaskLoad/MaskStore 性能

通常,当在可能无法按寄存器大小完全划分的大型数据数组上编写类似 SIMD 的函数时,您可以使用 SIMD 进行批量处理,然后使用类似标量执行最后一点...

回答 1 投票 0

处理 AVX-512 32 位块减法中的借位传播

我正在开发一个项目,需要在 C 中使用 AVX-512 减去分割成 32 位块的大整数。我当前的实现可以执行减法,但我在处理时遇到麻烦...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.