avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

AVX2和AVX-512有什么区别?

就SIMD和并行化而言,AVX2和AVX-512有什么区别?他们是同一件事还是不同?我只是看到double8用于AVX-512,而double4用于AVX2?我...

回答 1 投票 0

Intel汇编程序与Intrinsics,AVX

我有一个简单的向量-矢量加法算法(c = a + b * lambda),它使用AVX指令以intel汇编语言编写。这是我的代码:;;;;;;;;;;;;;;;;;;;;; ;;;;;;;;;;;;;;;;; ...

回答 1 投票 2

使用AVX2指令左移128位数字的位数

我正在尝试在AVX2中向左旋转128位数字。由于没有直接的方法可以执行此操作,因此我尝试使用左移和右移来完成任务。这是...的摘要。] >>

回答 1 投票 0

如何进一步优化矩阵乘法的性能?

我正在尝试优化在单核上运行的矩阵乘法代码。我如何进一步改善循环展开FMA / SSE的性能?我也很好奇为什么......>

回答 2 投票 1

如何以编程方式检查CPU上是否启用了mul mul add(FMA)指令?

我想使用FMA内部指令_mm256_fmadd_pd(a,b,c),但是我的代码必须在启用或未启用FMA的不同计算机上运行。我不能使用编译时标志。所以我会...

回答 2 投票 1

使用AVX的分矩阵乘法

我已经编写了以下C函数,用于使用平铺/分块和AVX向量将两个NxN矩阵相乘以加快计算速度。现在,尽管我尝试时遇到细分错误...

回答 1 投票 0

C ++ AVX2内在函数非标准大小

我正在尝试在C ++中使用AVX2内在函数。我正在使用打包到__m256中的花车。有8个浮点数可以容纳在寄存器中。但是,如果我的浮子数少于8个,比如说我有5个,会发生什么情况?...

回答 1 投票 3

AVX2收集指令用法详细信息

我正在尝试了解AVX2 intel内在函数的收集功能。根据官方文档链接,函数定义为__m256i _mm256_i32gather_epi32(int const * base_addr,...

回答 1 投票 1

使用AVX-2的[32-1024位定点矢量算法

对于mandelbrot生成器,当您放大时,我想使用定点算法,范围从32到1024位。现在,由于缺少带进位和执行加法功能,因此正常情况下,SSE或AVX在这里没有帮助...

回答 1 投票 0

AVX2向量中每个元素的前导零位计数

对于AVX512,存在固有的_mm256_lzcnt_epi32,该函数返回一个矢量,对于8个32位元素中的每一个,该矢量都包含输入矢量元素中前导零位的数量。是...

回答 2 投票 1

带有YMM寄存器的AVX中STRLEN功能的指令

我正在使用AVX(而不是AVX2)创建strlen函数...通过AVX可以访问(YMM)寄存器,但是有一个问题...我了解strlen函数的指令是:...] >

回答 1 投票 0

SIMD:更通用的随机播放功能

我认为对于int32_t,SIMD混洗功能不是真正的混洗,在这种情况下,左右部分将分别进行混洗。我想要一个真正的随机播放功能,如下所示:假定我们有__m256i和...

回答 1 投票 0

无法从Intel i7 930 CPU上的源代码编译TensorFlow; GTS-250 GPU

我是TF的新手,由于我的台式机没有支持AVX指令的CPU或GPU,因此希望从源代码进行编译。我的系统具有Intel i7 930处理器(nehalem家族的Bloomfield)...

回答 1 投票 0

SSE / AVX是否提供确定结果是否舍入的方法?

x87 FPU状态字中C1位的目的之一是显示是否将不精确的结果四舍五入。 SSE / AVX是否为标量操作提供任何此类指示?我没有...

回答 1 投票 4

如何在Java中使用Intel AVX?

如何使用Java中的Intel AVX向量指令集?这是一个简单的问题,但答案似乎很难找到。

回答 5 投票 6

AVX2 SIMD Instrinsics 16位到8位反之亦然

我有一个c ++(或类似c的)函数,在该函数之下我尝试向量化。该函数是图像合成的多种变体之一,它采用具有色度444的Y,U或V图像平面...

回答 1 投票 4

当行大小大于矢量宽度时,SIMD转置

您会找到很多很好的答案,用于转置随SIMD指令集的自然大小而下降的矩阵,特别是在一行的大小不超过矢量宽度的情况下。 ...

回答 2 投票 1

向量矩阵乘法,浮点向量,二进制矩阵

我想将大小为N的浮点向量与大小为NxM的矩阵相乘。矩阵是二进制矩阵(仅包含零和1),并且相对稀疏:非零值的密度在1%到5%之间...

回答 1 投票 0

为什么使用SIMD指令时,这个简单的C ++ SIMD基准测试运行速度较慢?

[我正在考虑编写SIMD向量数学库,因此,作为一个快速基准测试,我编写了一个程序,该程序执行1亿个(按4个浮点数)矢量逐元素乘法,并将它们加到累加的总数中。...]] >

回答 1 投票 0

SIMD,SSE,AVX-掩码8由未签名的字符浮起来?

如何通过无符号char变量中的位屏蔽__m256变量中的8个浮点数? (编译期间未知)__m256 flts = _mm256_set1_ps(5.0f); unsigned char = 0b10010111; // ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.