avx 相关问题

Advanced Vector Extensions（AVX）是针对Intel和AMD微处理器的x86指令集架构的扩展。

为float和AVX __m256复制-nan，复制后显示0

我有以下两种情况，对我来说应该是相似的，但显然不是。这是行不通的，尽管这样做会更理想：static union {__m256 trueMask8; float trueMask [8]; ...

c++ copy vectorization simd avx

回答 1 投票 1

将NT存储区的64字节内存复制到一条完整的缓存行与2条连续的部分缓存行

我正在阅读有关写入组合内存的英特尔优化手册，并编写了基准测试以了解其工作原理。这些是我运行基准测试的2个函数：memcopy.h：void ...

c performance assembly x86 avx

回答 1 投票 7

在一个高速缓存行和两个连续的高速缓存行中复制64字节的内存

我正在阅读有关写入组合内存的英特尔优化手册，并编写了基准测试以了解其工作原理。这些是我运行基准测试的2个函数：memcopy.h：void ...

c performance assembly x86 avx

回答 1 投票 7

[我试图清除classifier.py文件，但出现这些错误，有人可以帮我清除这些错误吗？

（tensorflow）C：\ Users \ pratap \ youcode> python classify.py -i test-pos使用TensorFlow后端。 2020-01-08 11：06：52.990112：我tensorflow / core / platform / cpu_feature_guard.cc：145]这个TensorFlow二进制文件是...

tensorflow avx avx2

回答 1 投票 0

如何在编译时禁用glibc中的AVX512和/或AVX2？

最近我已升级到glibc 2.27，它显然支持新的CPU扩展，例如AVX2和AVX512。字符串函数（memcpy，memcmp等）现在正在使用这些指令。不幸的是...

linux simd glibc avx

回答 1 投票 3

Intel在明显重叠的内存区域上存储指令

我必须将YMM寄存器中的低3个double存储到大小为3的未对齐double数组中（也就是说，无法写入第4个元素）。但是有点顽皮，我想知道AVX内在的...

c++ intrinsics avx

回答 1 投票 1

Windows上来自VS C ++的非法指令

我有一个C ++应用程序，对于某些Windows 7用户，它在启动时崩溃。我无法在自己的计算机上重现该错误，但是使用Breakpad生成了一个.dmp文件，该文件显示代码为...

c++ assembly visual-c++ avx illegal-instruction

回答 1 投票 0

在AVX / SSE中是否有可能获得多个正弦？

我正在尝试编写C ++程序，该程序将启动我在x64汇编器中编写的功能。我想稍微加快速度（并使用CPU功能），所以我选择使用向量运算。 ...

windows x86-64 sse avx

回答 3 投票 2

AVX2和AVX-512有什么区别？

就SIMD和并行化而言，AVX2和AVX-512有什么区别？他们是同一件事还是不同？我只是看到double8用于AVX-512，而double4用于AVX2？我...

opencl simd avx

回答 1 投票 0

Intel汇编程序与Intrinsics，AVX

我有一个简单的向量-矢量加法算法（c = a + b * lambda），它使用AVX指令以intel汇编语言编写。这是我的代码：;;;;;;;;;;;;;;;;;;;;; ;;;;;;;;;;;;;;;;; ...

c++ performance compiler-optimization intrinsics avx

回答 1 投票 2

使用AVX2指令左移128位数字的位数

我正在尝试在AVX2中向左旋转128位数字。由于没有直接的方法可以执行此操作，因此我尝试使用左移和右移来完成任务。这是...的摘要。] >>

c++ simd intrinsics avx avx2

回答 1 投票 0

如何进一步优化矩阵乘法的性能？

我正在尝试优化在单核上运行的矩阵乘法代码。我如何进一步改善循环展开FMA / SSE的性能？我也很好奇为什么......>

c performance matrix-multiplication simd avx

回答 2 投票 1

如何以编程方式检查CPU上是否启用了mul mul add（FMA）指令？

我想使用FMA内部指令_mm256_fmadd_pd（a，b，c），但是我的代码必须在启用或未启用FMA的不同计算机上运行。我不能使用编译时标志。所以我会...

c++ windows x86 intrinsics avx

回答 2 投票 1

使用AVX的分矩阵乘法

我已经编写了以下C函数，用于使用平铺/分块和AVX向量将两个NxN矩阵相乘以加快计算速度。现在，尽管我尝试时遇到细分错误...

c performance matrix-multiplication simd avx

回答 1 投票 0

C ++ AVX2内在函数非标准大小

我正在尝试在C ++中使用AVX2内在函数。我正在使用打包到__m256中的花车。有8个浮点数可以容纳在寄存器中。但是，如果我的浮子数少于8个，比如说我有5个，会发生什么情况？...

c++ simd intrinsics avx avx2

回答 1 投票 3

AVX2收集指令用法详细信息

我正在尝试了解AVX2 intel内在函数的收集功能。根据官方文档链接，函数定义为__m256i _mm256_i32gather_epi32（int const * base_addr，...

c++ c intrinsics avx avx2

回答 1 投票 1

使用AVX-2的[32-1024位定点矢量算法

对于mandelbrot生成器，当您放大时，我想使用定点算法，范围从32到1024位。现在，由于缺少带进位和执行加法功能，因此正常情况下，SSE或AVX在这里没有帮助...

biginteger avx fixed-point avx2

回答 1 投票 0

AVX2向量中每个元素的前导零位计数

对于AVX512，存在固有的_mm256_lzcnt_epi32，该函数返回一个矢量，对于8个32位元素中的每一个，该矢量都包含输入矢量元素中前导零位的数量。是...

bit-manipulation simd avx avx2 avx512

回答 2 投票 1

带有YMM寄存器的AVX中STRLEN功能的指令

我正在使用AVX（而不是AVX2）创建strlen函数...通过AVX可以访问（YMM）寄存器，但是有一个问题...我了解strlen函数的指令是：...] >

assembly avx avx2

回答 1 投票 0

SIMD：更通用的随机播放功能

我认为对于int32_t，SIMD混洗功能不是真正的混洗，在这种情况下，左右部分将分别进行混洗。我想要一个真正的随机播放功能，如下所示：假定我们有__m256i和...

c++ intel simd intrinsics avx

回答 1 投票 0

avx 相关问题

最新问题