avx 相关问题

Advanced Vector Extensions(AVX)是针对Intel和AMD微处理器的x86指令集架构的扩展。

未解析的外部符号__mm256_setr_epi64x

我用g ++编写并调试了一些AVX代码,现在我试图让它与MSVC一起工作,但我一直收到错误LNK2019:未解析的外部符号__mm256_setr_epi64x在...中引用

回答 2 投票 5

使用SSE / AVX / AVX2检查__m128i的所有字节是否匹配单个字节

我正在寻找计算以下函数的有效方法:输入:__ m128i数据,uint8_t in;输出:布尔值,指示数据中是否有任何字节。我实际上是用它们来实现...

回答 1 投票 0

AVX __m256i用于带符号的32位元素的整数除法

我试图在AVX机器中进行SIMD分区并获得编译错误。这是我的代码:__ m256i help; int arr [8]; int arr2 [8]; help = _mm256_load_si256((__ m256i *)arr); ...

回答 1 投票 1

不能使用AVX内在,因为我的函数编译时不支持'xsave'

我想使用AVX内在,如:__ m256 factor_min = _mm256_set1_ps(1.329227);但我得到以下编译错误:Always_inline函数'_mm256_set1_ps'需要目标功能'xsave',但是......

回答 2 投票 4

现代CPU中的小分支

像Kaby Lake这样的现代CPU如何处理小分支? (在下面的代码中是跳转到标签LBB1_67)。据我所知,分支不会有害,因为跳跃不如16字节......

回答 1 投票 7

使用带有火花的intel AVX

我们有一个带有intel AVX 512 CPU的新集群。我们没有结果就该主题进行了研究。我们想知道一个spark作业是否能够与AVX本地运行以对DataFrame进行处理...

回答 2 投票 1

AVX和浮点之间有什么关系,为什么AVX用于FP计算?

我最近在维基百科上学习FP和AVX(https://en.wikipedia.org/wiki/Advanced_Vector_Extensions#Applications)我读到AVX用于FP计算。我无法弄清楚为什么......

回答 2 投票 0

SIMD:累积相邻对

我正在学习如何使用SIMD内在函数和自动向量化。幸运的是,我有一个有用的项目,我正在努力,似乎非常适合SIMD,但对于像我这样的新手来说仍然很棘手。我......

回答 1 投票 3

cygwin上的AVX加载指令失败

当我在我的机器上运行代码时,程序会出现分段错误。 #包括 #包括 static inline __m256i load_vector(__ m256i const * addr){__ m256i ...

回答 1 投票 2

计算8个AVX单精度浮点矢量的8个水平和

我有8个AVX向量,每个向量包含8个浮点数(总共64个浮点数),我想将每个向量中的元素加在一起(基本上执行8个水平求和)。现在,我使用以下代码:...

回答 2 投票 8

英特尔向量指令将以32位int打包的8个4位值零扩展到__m256i?

正如问题所说,我有一个普通的int,它是8个打包值,每个4位,我想将其零扩展到256位向量寄存器。这可能与sse / avx / avx2有关吗?

回答 2 投票 3

使用变量使用_mm256_extract_epi32()内在函数索引simd向量

我正在使用AVX内在_mm256_extract_epi32()。我不完全确定我是否正确使用它,因为gcc不喜欢我的代码,而clang编译并运行它没有问题。 ...

回答 2 投票 5

内联汇编导致分段错误(核心转储)

我正在尝试将英特尔内在函数转换为内联汇编。代码将计算4x4矩阵。 A和B的大小分别为4×kc和kc×4。这是完整的......

回答 1 投票 0

什么是do_cos_slow.isra?

我写了一个简单的代码来测试教授。 double bar_compute(double d){double t = std :: abs(d); t + = std :: sqrt(d); t + = std :: cos(d);返回; } //做一些计算n次......

回答 1 投票 2

使用AVX内在函数对__mm512中的8位整数求和

AVX512为我们提供了内在函数来对__mm512向量中的所有单元求和。然而,他们的一些同行失踪了:还没有_mm512_reduce_add_epi8。 _mm512_reduce_add_ps //水平......

回答 1 投票 0

C ++:如何使用AVX进行初始化来防止默认构造函数

请考虑以下内容:// foo.h class Foo {public:int x = 2; int y = 3; void DoSomething_SSE(); void DoSomething_AVX(); //(生成隐式默认构造函数...

回答 3 投票 3

AVX512中的128位跨通道操作能提供更好的性能吗?

在为AVX256,AVX512和一天AVX1024设计前瞻性算法时,考虑到大SIMD宽度的完全通用置换的潜在实现复杂性/成本,我想知道...

回答 1 投票 7

如果没有Skylake上的VZEROUPPER,为什么这个SSE代码会慢6倍?

我一直试图找出应用程序中的性能问题,并最终将其缩小到一个非常奇怪的问题。以下代码在Skylake CPU上运行速度慢了6倍(i5 -...

回答 2 投票 29

我的矢量化xorshift +不是很随机

我有以下代码(维基百科的xorshift128 +代码修改为使用矢量类型):#include #包括 __v8si rand_si(){static auto s0 = __v4du {4,...

回答 3 投票 2

获取__m256变量中非零的第一个元素的索引

__m256 dst = _mm256_cmp_ps(value1,value2,_CMP_LE_OQ);如果dst是[0,0,0,-nan,0,0,0,-nan];我希望能够知道第一个-nan索引,在这种情况下为3而不进行8次迭代的for循环。 ...

回答 1 投票 14

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.