avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

AVX2 整数混洗与字节以外的类型?

shuffling 的 api 仅支持 byte 和 sbyte // // 概括: // __m256i _mm256_shuffle_epi8 (__m256i a, __m256i b) // // VPSHUFB ymm, ymm, ymm/m256 // // 参数: ...

回答 2 投票 0

AVX(2)/SIMD 方式获取/设置(至 1)256 位寄存器中的单个位

当前但hacky的方法是这样的: __m256i 位集(__m256i 源,uint8_t 索引){ uint8_t pos_in_64 = 索引 % 64; uint8_t位置=索引/64; uint64_t 位掩码 = 1ULL << pos_i...

回答 1 投票 0

如何理解这个AVX添加两个_m256i变量?

这是代码: #包括 #包括 #包括 #包括 __m256i foo(); __m256i foo2(); int main() { __m256i vec1 = foo();

回答 1 投票 0

SIMD 中将模式与位掩码进行比较的最快算法是什么?

我想在SIMD中优化以下代码 拍:[1,2,3,4] 数据:[1,1,3,3] mask: [1, 0, 1, 1] # 1表示相等,0表示可选/不关心 结果:[1,1,1,0] 天真的算法...

回答 1 投票 0

gcc 11.4 openmp 似乎没有生成 AVX2 指令。根据之前的 stackoverflow,我做错了什么?

我在 popos 上使用 gcc 11.4 我尝试过的命令: g++ -fopenmp-simd -O2 -S simd_reduction.cpp g++ -fopenmp-simd -O2 -mavx2 -march=native -S simd_reduction.cpp 代码: #包括 佛罗里达...

回答 1 投票 0

模拟 AVX512 VPCOMPRESSB 字节打包,无需 AVX512_VBMI2

我已经用 0-63 的字节整数数组填充了 zmm 寄存器。 这些数字充当矩阵的索引。 非零元素表示矩阵中包含数据的行。 并非所有行

回答 1 投票 0

模拟 AVX512 VPCOMPESSB 字节打包,无需 AVX512_VBMI2

我已经用 0-63 的字节整数数组填充了 zmm 寄存器。 这些数字充当矩阵的索引。 非零元素表示矩阵中包含数据的行。 并非所有行

回答 1 投票 0

将 SSE/AVX 寄存器左移和右移 32 位,同时移入零

我想将 SSE/AVX 寄存器左移或右移 32 位的倍数,同时移入零。 让我更准确地说明我感兴趣的轮班。对于 SSE,我想做以下轮班......

回答 3 投票 0

如何在llm.c项目中进一步优化矩阵乘法?

我正在使用 llm.c 项目的矩阵乘法实现,特别是来自此文件。 提供了两种实现方式: matmul_forward_cpu:基本矩阵乘法...

回答 1 投票 0

为什么简单的代码在现代编译器中不能使用 SSE 和 AVX 自动向量化?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

comis / vucomis 中的“i”代表什么?

目前我正在阅读CSAPP 3d版,我发现说明有点冗长(在我看来)就像vucommiss一样,所以我搜索了说明的全名以帮助记忆。 我找到了

回答 1 投票 0

是否值得费心对齐 AVX-256 内存存储?

根据英特尔® 64 和 IA-32 架构优化参考手册,B.4 节(“英特尔® 微架构代号 Sandy Bridge 的性能调优技术”),亚秒...

回答 1 投票 0

使用 SIMD 并行化 4x4 行主矩阵的矩阵乘法

我目前在尝试并行化 4x4 矩阵乘法算法时面临着极其困难的时期。我正在尝试创建一个库以在学校的最小光线追踪器项目中使用,所以我正在尝试...

回答 1 投票 0

VMOVDQA 和 VMOVAPS 之间的区别?

我阅读了 ISA 参考资料,很清楚这两条指令在加载值的类型上有所不同(整数与单精度浮点数)。我不明白的是,负载的影响是......

回答 1 投票 0

与 SSE 相比,AVX 没有获得性能提升

我正在尝试利用处理器的SIMD功能。然而,在矢量化的情况下,我观察到与

回答 1 投票 0

在批量四元数向量乘法中使用 AVX512 相对于 SSE 的性能增益较小

我使用 SIMD 指令实现了四元数向量乘法函数,并针对 AVX512、AVX2 和 SSE 进行了条件编译。虽然我预计性能会显着提高...

回答 1 投票 0

AVX2 代码,用于在 8 个 4 字节目标中查找 4 字节字符串的第一个最长匹配项

我需要最快的(即无分支、最小化微指令)相当于此代码的 AVX2 代码: 上一个长度 = 0 对于 i=0..7: len = matches_bytes(目标[i], src) 如果 len > prevlen: 上一个长度 = 长度 确实...

回答 1 投票 0

AVX2 代码用于在 8 个 4 字节目标中查找 4 字节字符串的最长匹配

我需要最快的(即无分支、最小化微指令)相当于此代码的 AVX2 代码: 上一个长度 = 0 对于 i=0..7: len = matches_bytes(目标[i], src) 如果 len > prevlen: 上一个长度 = 长度 确实...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.