avx 相关问题

Advanced Vector Extensions（AVX）是针对Intel和AMD微处理器的x86指令集架构的扩展。

C++优化矩阵乘法微内核L1缓存使用

我的任务是实现一个优化的矩阵乘法微内核，它从以下代码片段开始在 C++ 中计算 C = A*B。我有一些反直觉的行为......

c++ optimization matrix-multiplication avx cpu-cache

回答 0 投票 0

如何修复支持 avx 的 Clion 错误

我在 Mac 中使用 Clion，通过 Clang 编译器编写 C++ 代码。我知道我的 CPU 支持 AVX1.0。但是，我认为在这个简单的代码中编译 AVX 内容存在问题。错误是：

c++ clang clion avx

回答 1 投票 0

如何在汇编中加载128位数据到ymm寄存器？

我想加载128位数据到ymm寄存器。我在 ymm 寄存器中需要这样的 256 位数据。 0000000000000000-0000000000000000-08AE038400570064-0005000A1E810BB8 所以我喜欢下面； vmovdqa ymm0, xmm...

assembly x86 avx avx2

回答 0 投票 0

属性错误：模块'tensorflow'没有属性'compat'。

由于我的CPU不支持AVX指令，而且我想安装一个较新版本的Tensorflow（>= 2.0），我从https:/github.comfo40225......为我的Python版本安装了一个tensorflow轮子。

python tensorflow avx python-wheel

回答 1 投票 0

在不同架构的集群上应该指定哪些AVX和march？

我目前正在尝试使用英特尔编译器编译软件，以便在HPC集群上使用。登录节点，也就是我编译和准备计算的地方，使用的是Intel Xeon Gold 6148处理器， ...。

c compiler-optimization hpc avx icc

回答 1 投票 0

使用AVXAVX2固有的对齐和不对齐的内存访问。

根据Intel的《软件开发者手册》（sec.14.9），AVX放宽了内存访问的对齐要求。如果在处理指令中直接加载数据，如vaddps ymm0,ymm0,......。

gcc avx avx2

回答 2 投票 12

我如何确定处理器拥有多少个AVX寄存器？

当前，我正在开发使用AVX寄存器进行积分计数的函数。我想知道我的计算机上是否足够。如何找到？

c++ cpu-registers avx

回答 1 投票 0

我如何确定处理器拥有多少AVX寄存器？

当前，我正在开发使用AVX寄存器进行积分计数的函数。我想知道我的计算机上是否足够。如何找到？

c++ cpu-registers avx

回答 1 投票 0

使用AVX收集半浮点值

使用AVX / AVX2内部函数，我可以使用_mm256_i32gather_epi32（）_mm256_i32gather_ps（）来收集1,2或4个字节整数或4个字节浮点数的8个值的集合，但目前，我有一个情况，我...] >

intrinsics avx avx2 half-precision-float

回答 1 投票 2

通过使用AVX内在函数重写来提高性能

我有一个简单的数学库，可以链接到在模拟器硬件（32位RTOS）上运行的项目中，并且编译器工具链基于GCC 5.5的变体。主要项目代码在...

c math gcc compiler-optimization avx

回答 1 投票 0

__ mm256_load_ps在调试模式下使用Google /基准引起分段错误

以下代码可以在发布和调试模式下运行。 #include constexpr int n_batch = 10240; constexpr int n = n_batch * 8; #pragma pack（32）float a [n];浮点b [n];浮动c [...

c++ segmentation-fault simd avx google-benchmark

回答 1 投票 0

将SSE与AVX128混合以使用较短的指令？

根据我收集到的所有信息，将SSE和128位（E）VEX编码的指令混合使用不会对性能造成任何影响。这表明可以将两者混合使用。这可能是...

assembly x86 sse avx micro-optimization

回答 1 投票 1

AVX2中的8位移位操作，移位为零

是否有任何方法可以在AVX2中重建_mm_slli_si128指令以将__mm256i寄存器移位x个字节？ _mm256_slli_si256似乎只是在a [127：0]和a [255：128] .....

c sse simd avx avx2

回答 2 投票 12

使用simd在双精度数组中查找nan

[这个问题非常类似于：用于浮点相等比较的SIMD指令（NaN == NaN），尽管该问题集中在128位向量上，并要求识别+ ...

c nan sse simd avx

回答 1 投票 1

使用SIMD指令的平行二项式系数

背景我最近一直在使用一些旧代码（〜1998年）并重写其中一些代码以提高性能。以前在状态的基本数据结构中，我将元素存储在多个数组中，...

c++ simd intrinsics avx binomial-coefficients

回答 1 投票 2

在英特尔内部函数（AVX）中使用混合指令

我对AVX _mm256_blend_pd函数有疑问。我想在大量使用_mm256_blendv_pd函数的地方优化代码。不幸的是，这具有很高的延迟和较低的...

c++ c intrinsics avx immediate-operand

回答 1 投票 1

为什么gcc -O3处理avx256的内在函数与gcc -O0和clang不同？

我想设置两个整数向量，并将它们与SIMD进行比较，然后稍后将此掩码用于打包浮点的混合操作。我产生了以下代码：#include #include＆...

c gcc simd intrinsics avx

回答 1 投票 3

使用多版本时的编译时AVX检测

我有针对两种不同体系结构编译的相当大的函数：__attribute__（（target（“ arch = broadwell”）））void doStuff（）{doStuffImpl（）} __attribute__（（target（“ arch = nocona”）））void。 ..

gcc simd avx

回答 1 投票 1

PCIE 64字节单脉冲串事务

我想在PCIe上执行64字节事务。我正在使用Intel i7第9代CPU。通过使其成为WC区域，我能够对PCIe设备内存进行64字节的写事务，并像这样写入数据：...

x86 intel avx pci pci-e

回答 1 投票 0

如何为虚幻引擎4启用/ arch：AVX

我正在尝试为Unreal Engine 4设置AVX支持。据我所知，它默认情况下使用SSE2，它是NMake自己的，所以没有Visual Studio属性页可供访问并向其添加弓形。 ...

c++ visual-studio-2017 unreal-engine4 avx visual-studio-2017-build-tools

回答 1 投票 0

avx 相关问题

最新问题