avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

我如何交换256位AVX(YMM)寄存器中的低128位和高128位

我正在移植SSE SIMD代码以使用256位AVX扩展,并且似乎找不到任何可以混合/混洗/移动高128位和低128位的指令。支持故事:什么...

回答 2 投票 19

使用未对齐的缓冲区矢量化:使用VMASKMOVPS:从未对齐计数生成掩码吗?还是根本不使用该insn

用于x86-64的带有-O3 -mavx -mtune = haswell的gcc 5.3使代码出奇的庞大,无法处理代码的可能未对齐的输入,例如://编译器输入的便捷简单示例//我不是...

回答 2 投票 11

将向量以不匹配的大小加载到AVX2寄存器中

假设我有一个double的C ++ std向量,应该将其加载到AVX2寄存器中。只需使用_mm256_load_pd(&vector1 [0])命令即可完成。向量可以具有任何大小,并且...

回答 3 投票 1

为什么AVX与SSE2相比不能进一步提高性能?

我是SSE2和AVX领域的新手。我编写以下代码来测试SSE2和AVX的性能。 #include #include #include #include ]]

回答 2 投票 0

ln(x)对于AVX的实现,m256

是否有用于__m256类型,用于AVX的自然对数快速实现的源代码?有fmath,但仅适用于__m128

回答 1 投票 1

Ubuntu-如何确定CPU应用程序当前是否正在使用AVX或SSE?

我目前在许多具有GPU的服务器上运行BOINC。这些服务器同时运行GPU和CPU BOINC应用程序。由于AVX和SSE在CPU应用程序中使用时会降低CPU频率,因此我必须是...

回答 2 投票 -1

openmp的并行为什么不能用于矢量化色彩空间转换?

我已经向量化了色彩空间转换算法(RGB到YCbCr)。当我不使用线程(#pragma omp parallel)时,一切似乎都很好。但是当我尝试使用线程时,它无法改善...

回答 1 投票 1

如何改进Mersenne Twister和AVX / SSE?

今天,我已经开始了一个旨在优化随机数生成的项目。我想使用Mersenne Twister PRNG擦拭几个硬盘驱动器,但是不幸的是,我只能...

回答 1 投票 -1

使用AVX内在函数在__m512i中求和8位整数

AVX512为我们提供了将__mm512向量中的所有单元格求和的内在函数。但是,它们的某些对应项缺失:尚无_mm512_reduce_add_epi8。 _mm512_reduce_add_ps //水平...

回答 1 投票 0

AVX2和AVX512的加速

我正在尝试可视化合并AVX2和AVX512的加速#include #include #include #include #include ...

回答 1 投票 0

使用AVX将压缩的64位整数转换为压缩的8位整数的有效解决方案

我正在寻找一种将打包的64位整数饱和为8位整数的解决方案。看了_mm256_cvtepi64_epi8,但它并未饱和,但会截断,这会导致不必要的输出。我的...

回答 1 投票 0

vzeroall零寄存器ymm16到ymm31吗?

vzeroall的文档似乎不一致。散文说:该指令将所有XMM或YMM寄存器的内容清零。但是,下面的伪代码表示在64位模式下...

回答 1 投票 6

为float和AVX __m256复制-nan,复制后显示0

我有以下两种情况,对我来说应该是相似的,但显然不是。这是行不通的,尽管这样做会更理想:static union {__m256 trueMask8; float trueMask [8]; ...

回答 1 投票 1

将NT存储区的64字节内存复制到一条完整的缓存行与2条连续的部分缓存行

我正在阅读有关写入组合内存的英特尔优化手册,并编写了基准测试以了解其工作原理。这些是我运行基准测试的2个函数:memcopy.h:void ...

回答 1 投票 7

在一个高速缓存行和两个连续的高速缓存行中复制64字节的内存

我正在阅读有关写入组合内存的英特尔优化手册,并编写了基准测试以了解其工作原理。这些是我运行基准测试的2个函数:memcopy.h:void ...

回答 1 投票 7

[我试图清除classifier.py文件,但出现这些错误,有人可以帮我清除这些错误吗?

(tensorflow)C:\ Users \ pratap \ youcode> python classify.py -i test-pos使用TensorFlow后端。 2020-01-08 11:06:52.990112:我tensorflow / core / platform / cpu_feature_guard.cc:145]这个TensorFlow二进制文件是...

回答 1 投票 0

如何在编译时禁用glibc中的AVX512和/或AVX2?

最近我已升级到glibc 2.27,它显然支持新的CPU扩展,例如AVX2和AVX512。字符串函数(memcpy,memcmp等)现在正在使用这些指令。不幸的是...

回答 1 投票 3

Intel在明显重叠的内存区域上存储指令

我必须将YMM寄存器中的低3个double存储到大小为3的未对齐double数组中(也就是说,无法写入第4个元素)。但是有点顽皮,我想知道AVX内在的...

回答 1 投票 1

Windows上来自VS C ++的非法指令

我有一个C ++应用程序,对于某些Windows 7用户,它在启动时崩溃。我无法在自己的计算机上重现该错误,但是使用Breakpad生成了一个.dmp文件,该文件显示代码为...

回答 1 投票 0

在AVX / SSE中是否有可能获得多个正弦?

我正在尝试编写C ++程序,该程序将启动我在x64汇编器中编写的功能。我想稍微加快速度(并使用CPU功能),所以我选择使用向量运算。 ...

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.