avx 相关问题

Advanced Vector Extensions（AVX）是针对Intel和AMD微处理器的x86指令集架构的扩展。

未解析的外部符号__mm256_setr_epi64x

我用g ++编写并调试了一些AVX代码，现在我试图让它与MSVC一起工作，但我一直收到错误LNK2019：未解析的外部符号__mm256_setr_epi64x在...中引用

c++ visual-studio-2012 intrinsics avx msvc12

回答 2 投票 5

使用SSE / AVX / AVX2检查__m128i的所有字节是否匹配单个字节

我正在寻找计算以下函数的有效方法：输入：__ m128i数据，uint8_t in;输出：布尔值，指示数据中是否有任何字节。我实际上是用它们来实现...

sse simd avx avx2

回答 1 投票 0

AVX __m256i用于带符号的32位元素的整数除法

我试图在AVX机器中进行SIMD分区并获得编译错误。这是我的代码：__ m256i help; int arr [8]; int arr2 [8]; help = _mm256_load_si256（（__ m256i *）arr）; ...

c++ simd intrinsics avx

回答 1 投票 1

不能使用AVX内在，因为我的函数编译时不支持'xsave'

我想使用AVX内在，如：__ m256 factor_min = _mm256_set1_ps（1.329227）;但我得到以下编译错误：Always_inline函数'_mm256_set1_ps'需要目标功能'xsave'，但是......

xcode macos avx

回答 2 投票 4

现代CPU中的小分支

像Kaby Lake这样的现代CPU如何处理小分支？（在下面的代码中是跳转到标签LBB1_67）。据我所知，分支不会有害，因为跳跃不如16字节......

performance x86-64 cpu-architecture avx branch-prediction

回答 1 投票 7

使用带有火花的intel AVX

我们有一个带有intel AVX 512 CPU的新集群。我们没有结果就该主题进行了研究。我们想知道一个spark作业是否能够与AVX本地运行以对DataFrame进行处理...

scala apache-spark jvm avx avx512

回答 2 投票 1

AVX和浮点之间有什么关系，为什么AVX用于FP计算？

我最近在维基百科上学习FP和AVX（https://en.wikipedia.org/wiki/Advanced_Vector_Extensions#Applications）我读到AVX用于FP计算。我无法弄清楚为什么......

x86 avx avx2 fpu

回答 2 投票 0

SIMD：累积相邻对

我正在学习如何使用SIMD内在函数和自动向量化。幸运的是，我有一个有用的项目，我正在努力，似乎非常适合SIMD，但对于像我这样的新手来说仍然很棘手。我......

c++ sse simd intrinsics avx

回答 1 投票 3

cygwin上的AVX加载指令失败

当我在我的机器上运行代码时，程序会出现分段错误。＃包括＃包括 static inline __m256i load_vector（__ m256i const * addr）{__ m256i ...

c gcc cygwin x86-64 avx

回答 1 投票 2

计算8个AVX单精度浮点矢量的8个水平和

我有8个AVX向量，每个向量包含8个浮点数（总共64个浮点数），我想将每个向量中的元素加在一起（基本上执行8个水平求和）。现在，我使用以下代码：...

optimization intrinsics avx low-level

回答 2 投票 8

英特尔向量指令将以32位int打包的8个4位值零扩展到__m256i？

正如问题所说，我有一个普通的int，它是8个打包值，每个4位，我想将其零扩展到256位向量寄存器。这可能与sse / avx / avx2有关吗？

sse avx avx2

回答 2 投票 3

使用变量使用_mm256_extract_epi32（）内在函数索引simd向量

我正在使用AVX内在_mm256_extract_epi32（）。我不完全确定我是否正确使用它，因为gcc不喜欢我的代码，而clang编译并运行它没有问题。 ...

simd intrinsics avx avx2

回答 2 投票 5

内联汇编导致分段错误（核心转储）

我正在尝试将英特尔内在函数转换为内联汇编。代码将计算4x4矩阵。 A和B的大小分别为4×kc和kc×4。这是完整的......

x86 simd inline-assembly intrinsics avx

回答 1 投票 0

什么是do_cos_slow.isra？

我写了一个简单的代码来测试教授。 double bar_compute（double d）{double t = std :: abs（d）; t + = std :: sqrt（d）; t + = std :: cos（d）;返回; } //做一些计算n次......

glibc avx perf cos

回答 1 投票 2

使用AVX内在函数对__mm512中的8位整数求和

AVX512为我们提供了内在函数来对__mm512向量中的所有单元求和。然而，他们的一些同行失踪了：还没有_mm512_reduce_add_epi8。 _mm512_reduce_add_ps //水平......

c x86 simd intrinsics avx

回答 1 投票 0

C ++：如何使用AVX进行初始化来防止默认构造函数

请考虑以下内容：// foo.h class Foo {public：int x = 2; int y = 3; void DoSomething_SSE（）; void DoSomething_AVX（）; //（生成隐式默认构造函数...

c++ constructor x86 sse avx

回答 3 投票 3

AVX512中的128位跨通道操作能提供更好的性能吗？

在为AVX256，AVX512和一天AVX1024设计前瞻性算法时，考虑到大SIMD宽度的完全通用置换的潜在实现复杂性/成本，我想知道...

performance x86 intel avx avx512

回答 1 投票 7

如果没有Skylake上的VZEROUPPER，为什么这个SSE代码会慢6倍？

我一直试图找出应用程序中的性能问题，并最终将其缩小到一个非常奇怪的问题。以下代码在Skylake CPU上运行速度慢了6倍（i5 -...

performance x86 intel sse avx

回答 2 投票 29

我的矢量化xorshift +不是很随机

我有以下代码（维基百科的xorshift128 +代码修改为使用矢量类型）：＃include ＃包括 __v8si rand_si（）{static auto s0 = __v4du {4，...

c++ sse avx

回答 3 投票 2

获取__m256变量中非零的第一个元素的索引

__m256 dst = _mm256_cmp_ps（value1，value2，_CMP_LE_OQ）;如果dst是[0,0,0，-nan，0,0,0，-nan];我希望能够知道第一个-nan索引，在这种情况下为3而不进行8次迭代的for循环。 ...

c++ c sse simd avx

回答 1 投票 14

avx 相关问题

最新问题