avx 相关问题

Advanced Vector Extensions（AVX）是针对Intel和AMD微处理器的x86指令集架构的扩展。

我有一个自定义的 golang (1.23.0) 程序集，它执行 AVX512 操作以加速非常常见的代码路径。该函数检查一组玩家是否持有扑克手

go assembly avx avx512

回答 1 投票 0

shuffling 的 api 仅支持 byte 和 sbyte // // 概括： // __m256i _mm256_shuffle_epi8 (__m256i a, __m256i b) // // VPSHUFB ymm, ymm, ymm/m256 // // 参数： ...

c# avx avx2

回答 2 投票 0

AVX(2)/SIMD 方式获取/设置（至 1）256 位寄存器中的单个位

当前但hacky的方法是这样的： __m256i 位集（__m256i 源，uint8_t 索引）{ uint8_t pos_in_64 = 索引 % 64; uint8_t位置=索引/64； uint64_t 位掩码 = 1ULL << pos_i...

c++ performance bit-manipulation simd avx

回答 1 投票 0

如何理解这个AVX添加两个_m256i变量？

这是代码： #包括 #包括 #包括 #包括 __m256i foo(); __m256i foo2(); int main() { __m256i vec1 = foo();

c++ vector avx avx2 avx512

回答 1 投票 0

SIMD 中将模式与位掩码进行比较的最快算法是什么？

我想在SIMD中优化以下代码拍：[1,2,3,4] 数据：[1,1,3,3] mask: [1, 0, 1, 1] # 1表示相等，0表示可选/不关心结果：[1,1,1,0] 天真的算法...

rust simd avx neon bitmask

回答 1 投票 0

gcc 11.4 openmp 似乎没有生成 AVX2 指令。根据之前的 stackoverflow，我做错了什么？

我在 popos 上使用 gcc 11.4 我尝试过的命令： g++ -fopenmp-simd -O2 -S simd_reduction.cpp g++ -fopenmp-simd -O2 -mavx2 -march=native -S simd_reduction.cpp 代码： #包括佛罗里达...

c++ gcc openmp simd avx

回答 1 投票 0

模拟 AVX512 VPCOMPRESSB 字节打包，无需 AVX512_VBMI2

我已经用 0-63 的字节整数数组填充了 zmm 寄存器。这些数字充当矩阵的索引。非零元素表示矩阵中包含数据的行。并非所有行

x86-64 simd avx avx512

回答 1 投票 0

模拟 AVX512 VPCOMPESSB 字节打包，无需 AVX512_VBMI2

我已经用 0-63 的字节整数数组填充了 zmm 寄存器。这些数字充当矩阵的索引。非零元素表示矩阵中包含数据的行。并非所有行

x86-64 simd avx avx512

回答 1 投票 0

将 SSE/AVX 寄存器左移和右移 32 位，同时移入零

我想将 SSE/AVX 寄存器左移或右移 32 位的倍数，同时移入零。让我更准确地说明我感兴趣的轮班。对于 SSE，我想做以下轮班......

x86 sse simd avx avx2

回答 3 投票 0

如何在llm.c项目中进一步优化矩阵乘法？

我正在使用 llm.c 项目的矩阵乘法实现，特别是来自此文件。提供了两种实现方式： matmul_forward_cpu：基本矩阵乘法...

c optimization matrix-multiplication avx neon

回答 1 投票 0

为什么简单的代码在现代编译器中不能使用 SSE 和 AVX 自动向量化？

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数，如下所示：无效计算（const float *a，

c optimization sse avx auto-vectorization

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX？

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数，如下所示：无效计算（const float *a，

c optimization vectorization sse avx

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX？

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数，如下所示：无效计算（const float *a，

c optimization vectorization sse avx

回答 1 投票 0

comis / vucomis 中的“i”代表什么？

目前我正在阅读CSAPP 3d版，我发现说明有点冗长（在我看来）就像vucommiss一样，所以我搜索了说明的全名以帮助记忆。我找到了

assembly x86 sse avx instructions

回答 1 投票 0

是否值得费心对齐 AVX-256 内存存储？

根据英特尔® 64 和 IA-32 架构优化参考手册，B.4 节（“英特尔® 微架构代号 Sandy Bridge 的性能调优技术”），亚秒...

performance assembly x86-64 memory-alignment avx

回答 1 投票 0

使用 SIMD 并行化 4x4 行主矩阵的矩阵乘法

我目前在尝试并行化 4x4 矩阵乘法算法时面临着极其困难的时期。我正在尝试创建一个库以在学校的最小光线追踪器项目中使用，所以我正在尝试...

c matrix-multiplication intrinsics avx

回答 1 投票 0

VMOVDQA 和 VMOVAPS 之间的区别？

我阅读了 ISA 参考资料，很清楚这两条指令在加载值的类型上有所不同（整数与单精度浮点数）。我不明白的是，负载的影响是......

assembly x86 sse avx

回答 1 投票 0

与 SSE 相比，AVX 没有获得性能提升

我正在尝试利用处理器的SIMD功能。然而，在矢量化的情况下，我观察到与

vectorization simd sse avx microprocessors

回答 1 投票 0

在批量四元数向量乘法中使用 AVX512 相对于 SSE 的性能增益较小

我使用 SIMD 指令实现了四元数向量乘法函数，并针对 AVX512、AVX2 和 SSE 进行了条件编译。虽然我预计性能会显着提高...

c++ simd sse avx avx512

回答 1 投票 0

AVX2 代码，用于在 8 个 4 字节目标中查找 4 字节字符串的第一个最长匹配项

我需要最快的（即无分支、最小化微指令）相当于此代码的 AVX2 代码：上一个长度 = 0 对于 i=0..7： len = matches_bytes(目标[i], src) 如果 len > prevlen：上一个长度 = 长度确实...

intel simd avx avx2

回答 1 投票 0

avx 相关问题

最新问题