avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

C++优化矩阵乘法微内核L1缓存使用

我的任务是实现一个优化的矩阵乘法微内核,它从以下代码片段开始在 C++ 中计算 C = A*B。我有一些反直觉的行为......

回答 0 投票 0

如何修复支持 avx 的 Clion 错误

我在 Mac 中使用 Clion,通过 Clang 编译器编写 C++ 代码。我知道我的 CPU 支持 AVX1.0。但是,我认为在这个简单的代码中编译 AVX 内容存在问题。错误是:

回答 1 投票 0

如何在汇编中加载128位数据到ymm寄存器?

我想加载128位数据到ymm寄存器。 我在 ymm 寄存器中需要这样的 256 位数据。 0000000000000000-0000000000000000-08AE038400570064-0005000A1E810BB8 所以我喜欢下面; vmovdqa ymm0, xmm...

回答 0 投票 0

属性错误:模块'tensorflow'没有属性'compat'。

由于我的CPU不支持AVX指令,而且我想安装一个较新版本的Tensorflow(>= 2.0),我从https:/github.comfo40225......为我的Python版本安装了一个tensorflow轮子。

回答 1 投票 0

在不同架构的集群上应该指定哪些AVX和march?

我目前正在尝试使用英特尔编译器编译软件,以便在HPC集群上使用。登录节点,也就是我编译和准备计算的地方,使用的是Intel Xeon Gold 6148处理器, ...。

回答 1 投票 0

使用AVXAVX2固有的对齐和不对齐的内存访问。

根据Intel的《软件开发者手册》(sec.14.9),AVX放宽了内存访问的对齐要求。如果在处理指令中直接加载数据,如vaddps ymm0,ymm0,......。

回答 2 投票 12

我如何确定处理器拥有多少个AVX寄存器?

当前,我正在开发使用AVX寄存器进行积分计数的函数。我想知道我的计算机上是否足够。如何找到?

回答 1 投票 0

我如何确定处理器拥有多少AVX寄存器?

当前,我正在开发使用AVX寄存器进行积分计数的函数。我想知道我的计算机上是否足够。如何找到?

回答 1 投票 0

使用AVX收集半浮点值

使用AVX / AVX2内部函数,我可以使用_mm256_i32gather_epi32()_mm256_i32gather_ps()来收集1,2或4个字节整数或4个字节浮点数的8个值的集合,但目前,我有一个情况,我...] >

回答 1 投票 2

通过使用AVX内在函数重写来提高性能

我有一个简单的数学库,可以链接到在模拟器硬件(32位RTOS)上运行的项目中,并且编译器工具链基于GCC 5.5的变体。主要项目代码在...

回答 1 投票 0

__ mm256_load_ps在调试模式下使用Google /基准引起分段错误

以下代码可以在发布和调试模式下运行。 #include constexpr int n_batch = 10240; constexpr int n = n_batch * 8; #pragma pack(32)float a [n];浮点b [n];浮动c [...

回答 1 投票 0

将SSE与AVX128混合以使用较短的指令?

根据我收集到的所有信息,将SSE和128位(E)VEX编码的指令混合使用不会对性能造成任何影响。这表明可以将两者混合使用。这可能是...

回答 1 投票 1

AVX2中的8位移位操作,移位为零

是否有任何方法可以在AVX2中重建_mm_slli_si128指令以将__mm256i寄存器移位x个字节? _mm256_slli_si256似乎只是在a [127:0]和a [255:128] .....

回答 2 投票 12

使用simd在双精度数组中查找nan

[这个问题非常类似于:用于浮点相等比较的SIMD指令(NaN == NaN),尽管该问题集中在128位向量上,并要求识别+ ...

回答 1 投票 1

使用SIMD指令的平行二项式系数

背景我最近一直在使用一些旧代码(〜1998年)并重写其中一些代码以提高性能。以前在状态的基本数据结构中,我将元素存储在多个数组中,...

回答 1 投票 2

在英特尔内部函数(AVX)中使用混合指令

我对AVX _mm256_blend_pd函数有疑问。我想在大量使用_mm256_blendv_pd函数的地方优化代码。不幸的是,这具有很高的延迟和较低的...

回答 1 投票 1

为什么gcc -O3处理avx256的内在函数与gcc -O0和clang不同?

我想设置两个整数向量,并将它们与SIMD进行比较,然后稍后将此掩码用于打包浮点的混合操作。我产生了以下代码:#include #include&...

回答 1 投票 3

使用多版本时的编译时AVX检测

我有针对两种不同体系结构编译的相当大的函数:__attribute__((target(“ arch = broadwell”)))void doStuff(){doStuffImpl()} __attribute__((target(“ arch = nocona”)))void。 ..

回答 1 投票 1

PCIE 64字节单脉冲串事务

我想在PCIe上执行64字节事务。我正在使用Intel i7第9代CPU。通过使其成为WC区域,我能够对PCIe设备内存进行64字节的写事务,并像这样写入数据:...

回答 1 投票 0

如何为虚幻引擎4启用/ arch:AVX

我正在尝试为Unreal Engine 4设置AVX支持。据我所知,它默认情况下使用SSE2,它是NMake自己的,所以没有Visual Studio属性页可供访问并向其添加弓形。 ...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.