simd 相关问题

单指令，多数据（SIMD）是使每个指令在小块或数据元素矢量上操作的概念。 CPU矢量指令集包括：x86 SSE和AVX，ARM NEON和PowerPC AltiVec。为了有效地使用SIMD指令，数据需要采用数组结构形式，并且应该在更长的流中发生。天真的“SIMD优化”代码通常比原始代码运行速度慢。

DARTSIMD扩展（INT32X4，FLOAT32X4）发疯：AOT缓慢，手臂上的不同结果和Intel

dart：typed_data

flutter dart optimization cpu-architecture simd

回答 0 投票 0

-golang和c带有Simd指令

我是Golang的新手，我正在对Golang和Cgo进行一些实验。我想看看Golang是否可以通过在简单测试中使用SIMD操作的C程序中受益，但是我看到的是

go simd cgo

回答 1 投票 0

如何在单个操作中执行两个单独的4位整数对，并在C/C ++中进行单个添加

c++ c simd

回答 1 投票 0

如何添加四个整数，并与C/C ++添加一个添加

c++ c simd

回答 1 投票 0

因此，我具有用于矩阵乘法的SSE3实现： /** *循环未包装以进行性能 * @注意与非SIMD乘法相反 */ 内联void

c++ matrix simd sse matmul

回答 1 投票 0

为什么_mm256_unpacklo“跳”一个双词，在文档中在哪里说？

#include 我发现_mm256_unpacklo_epi32指令有点有趣，并且无法真正将其与文档相关联。指令执行以下操作： #include <immintrin.h> #include <iostream> int main() { __m256i a = _mm256_set_epi32(8, 7, 6, 5, 4, 3, 2, 1); __m256i b = _mm256_set_epi32(16, 15, 14, 13, 12, 11, 10, 9); __m256i c = _mm256_unpacklo_epi32(a, b); int* values = (int*)&c; for (size_t i = 0; i < 8 - 1; i++) { std::cout << values[i] << ", "; } std::cout << values[7] << std::endl; } 输出为： 1, 9, 2, 10, 5, 13, 6, 14 对我来说，它似乎是两个源值中的第二低单词“跳”。这样做的原因是什么？是否有一条指令将源向量的较低128位向量交织在一起？这种行为对我似乎并不有用。我也不能与文档进行调和：https：//www.intel.com/content/www/us/en/en/docs/cpp-compiler/developer-guide-guide-guide-guide-guide-guide-2021-10/mmm256-unpacklo--unpacklo-- EPI8-16-32-64.HTML。在哪里说第二个最低的双字被忽略了？您链接的文档是如此短，如果您还不知道“高级数据元素被忽略了什么”，则没有用。不是输入的前128位。 SSE SHUFFLES的AVX2版本是两个车道中的两个128位散装。没有数据在128位边界上移动。即它们是“车道上”的散装，例如avx1__m256i。 vpermilps读取每个128位输入的低64位。 https：//www.intel.com/content/www/us/en/en/docs/intrinsics-guide/index.html#techs=mmx，sse_all，sse_all，每128位的64位资料来源： vpunpackldq AVX2具有一些车道交叉的散装，例如DEFINE INTERLEAVE_DWORDS(src1[127:0], src2[127:0]) { dst[31:0] := src1[31:0] dst[63:32] := src2[31:0] dst[95:64] := src1[63:32] dst[127:96] := src2[63:32] RETURN dst[127:0] } dst[127:0] := INTERLEAVE_DWORDS(a[127:0], b[127:0]) dst[255:128] := INTERLEAVE_DWORDS(a[255:128], b[255:128]) dst[MAX:256] := 0 （一个矢量内的dwords）和vpermd（2输入128位粒度，即时控制），但没有一个粒度小于128-的2输入的人少量。为此，您需要AVX-512vperm2i128（带有shuffle-Control载体）。指令具有相同的限制，因此，如果您要打开零包装有时，您实际上并不需要在向量中以特定顺序的数据，例如如果您要稍后再洗牌。然后，通过零奇数/偶数为零，或者对于2个将奇数元素混合/偶数元素混合的向量可以以可用的方式混合数据。或者只是打开lo / hi-确实以不同的顺序将所有元素都变成向量。如果您确实需要从中期望的结果，则可能需要128位的lo/hi和vpermt2d：：pack这是一个结果，这是一个结果，所以很烂。当然，如果需要2个包括您所有输入的结果的向量，则使用256位拆包和vinserti128将拆卸输出的高2车道结合在一起，因此4个总散装（unvackhi/lo，vinserti128，vperm2i128））获取 __m256i a, b; __m128i lo = _mm_unpacklo_epi32(_mm256_castsi256_si128(a), _mm256_castsi256_si128(b)); __m128i hi = _mm_unpackhi_epi32(_mm256_castsi256_si128(a), _mm256_castsi256_si128(b)); __m256i c = _mm256_set_m128i(hi, lo); // or _mm256_inserti128_si256(_mm256_castsi128_si256(lo), hi, 1); 和_mm256_permute2x128_si256(hi, lo, constant)。因此，它的“仅”是AVX-512c而不是3x的两倍。 d是严格的ub口化，并且在GCC和/或Clang中可能会错误地编译。不要那样做。 PRINTA __M128I变量

c++ simd intrinsics avx2

回答 1 投票 0

是SIMD和VLIW指令同样的事情吗？

x86 cpu-architecture simd instruction-set vliw

回答 2 投票 0

supsopose i在

如果不是，可以依靠这种行为吗？（当一个GO中加载3倍时，这很有用。）

c++ segmentation-fault simd

回答 0 投票 0

手臂上的每个字节的高点，对于64个字节，例如Avx512 vpmovb2m？

__builtin_IA32_CVTB2MASK512（）是用于VPMOVB2M K，ZMM的GNU C内置。 INTEL的内在instel是_mm512_movepi8_mask。它从每个字节中提取最重要的位，产生整数...

c arm simd arm64 neon

回答 1 投票 0

最终掩盖了AVX2中的一点的方法？

，例如，使用输入YMM向量X和位索引，我想要一个仅保留的输出向量，而其他所有内容都归零。使用AVX512 K寄存器，我可以写下以下内容，但是AVX2 ...

c x86 simd avx avx2

回答 3 投票 0

提供支持AVX2支持F16C的所有处理器？

可以肯定地假设所有支持AVX2的机器也支持F16C说明？目前，我还没有遇到任何没有这样做的机器。谢谢

x86 x86-64 simd avx2 half-precision-float

回答 1 投票 0

提供支持AVX2支持F16C的所有处理器？

x86 x86-64 simd avx2 half-precision-float

回答 1 投票 0

如何正确地将_mm_hadd_epi32转换为等效的C ++代码（WASM_SIMD128.H）使用Emscripten？

webassembly simd sse emscripten

回答 1 投票 0

如何在 Rust 中自动向量化 (SIMD) 模乘法

我正在尝试优化具有模乘法的代码，以使用 SIMD 自动矢量化。也就是说，我不想使用任何库，编译器应该完成这项工作。这是小验证...

rust simd micro-optimization auto-vectorization

回答 1 投票 0

从 C++23 实验 simd 中存储和检索数字会给出随机结果

我写了一小段代码来测试这个问题。这是我的代码： #包括命名空间 stdx = std::experimental; 使用 vfloat4 = stdx::fixed_size_simd 我写了一小段代码来测试这个问题。这是我的代码： #include <experimental/simd> namespace stdx = std::experimental; using vfloat4 = stdx::fixed_size_simd<float, 4>; using vint4 = stdx::fixed_size_simd<int, 4>; inline void print_vint4(vint4 vi4) { printf("%i %i %i %i\n", vi4[0], vi4[1], vi4[2], vi4[3]); } int main() { vint4 _v = 4; printf(">> %i\n", _v[0]); printf(">> %i\n", _v[0]); print_vint4(_v); return 1; } 这就是它打印的内容： >> 1233123648 >> 1233123664 1233123568 1233123552 1233123536 1233123520 即使两个相同的 printf 函数也会打印不同的数字。每次运行应用程序时，数字都不同（有时是正数，有时是负数）。此外，当我使用 vfloat4 而不是 vint4 （以及 printf 的适当格式）时，所有打印的数字都为零。我真的不知道从哪里开始调试这个问题，而且我看不出是什么原因造成的。（我知道这段代码是实验性的和低级的，所以我想我应该包含一些规范，以防需要）编译器：GCC 14.2.0（在MSYS2中运行）操作系统：Windows 10，64位 CPU：英特尔 i5，第 12 代，x86_64 std::experimental::simd::operator\[\]返回一个reference类型，该类型实现将代理对象定义为smid对象的各个元素这是一种与 printf 不兼容的类型，因此当您告诉它将其视为 int 时，您将得到 printf 尝试将引用对象转换为 int 的任何操作。如果您手动将每个元素转换为 int 之类的 inline void print_vint4(vint4 vi4) { printf("%i %i %i %i\n", (int)vi4[0], (int)vi4[1], (int)vi4[2], (int)vi4[3]); } int main() { vint4 _v = 4; printf(">> %i\n", (int)_v[0]); printf(">> %i\n", (int)_v[0]); print_vint4(_v); return 1; } 然后就会输出代码 >> 4 >> 4 4 4 4 4 如本现场示例所示。另一种选择是不使用 printf 而是使用 cout

c++ simd c++23 c++-experimental

回答 1 投票 0

反转 FloatVector（1/每个元素）

在java中有一个API叫做VectorApi。它使得在单个 cpu 周期内对整个 float[] 数组进行算术运算成为可能。例如： FloatVector fv = FloatVector.fromArray(物种...

java simd

回答 1 投票 0

如何避免if语句？因为编译器无法将其优化为 simd

在vs2012中，编译器可以自动将for循环优化为SIMD汇编语句。但是当if语句在for循环中时，编译器无法对其进行优化，一样： for(int i=0; i<

c if-statement visual-studio-2012 simd

回答 2 投票 0

AVX2：获取每秒int32

我有一个 8 个 int32 值的 AVX2 向量 (__m256i)。它看起来像这样： [0,a,0,b,0,c,0,d] a、b、c 和 d 是非零正 int32 值。向量中的其他 4 个元素为零。现在我想...