sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

_mm_set1_ps和_mm_set_ps1有什么区别?

这些功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢...

回答 1 投票 3

_ mm_set1_ps和_mm_set_ps1有什么区别?

功能之间有什么区别吗?如果没有,为什么? __m128 __mm_set1_ps(浮点a)__m128 __mm_set_ps1(浮点a)英特尔Intrinsics Guide网站上的两个描述均相同。谢谢。

回答 1 投票 2

将XMM寄存器设置为重复字节模式(广播一个恒定字节)

[我知道我们可以执行以下操作将字符移动到xmm寄存器:movaps xmm1,xword [.__ 0x20]对齐16 .__ 0x20 db 0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20 ,0x20,0x20,0x20,0x20,...

回答 1 投票 0

sse2将字符移动到xmm,并重复到结尾

我知道我们可以执行以下操作将字符移动到xmm寄存器:movaps xmm1,xword [.__ 0x20]对齐16 .__ 0x20 db 0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20,0x20 ,0x20,0x20,0x20,0x20,...

回答 1 投票 0

我们如何对数组的先前单元使用SSE内部算法运算?

我有此代码,我尝试使用SSE2 Intrinsics运行。浮动* a,* b; __m128 * va,* vb;浮点数k0 = 0.5,k1 = 0.5,k2 = 0.5,k3 = 0.5,k5 = 0.5,k6 = 0.5,k7 = 0.5,k8 = 0.5;浮点数k4 = 5.0; int i,...

回答 1 投票 -1

使用SSE的矩阵向量和矩阵矩阵乘法

我需要编写矩阵向量和矩阵矩阵乘法函数,但是我无法将头围在SSE命令周围。矩阵和向量的维数始终是4的倍数。我管理过...

回答 1 投票 1

我们可以在堆内存上使用非时间mov指令吗?

在Agner Fog的“使用汇编语言优化子例程-11.8高速缓存控制指令中,”他说:“当在回写中发生高速缓存未命中时,内存写比读取要昂贵。] >>

回答 1 投票 1

用内在函数初始化__m128i常数的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0

用内在函数初始化__m128i的最快方法?

[当前,我有一个__m128i变量,我们将其称为X。我想将其与一个恒定的128bit值进行异或,然后将该值保存回X。因此,对于某些恒定的C,基本上是X ^ =C。我是...

回答 1 投票 0



将数据从内存中移动(可以是任意长度)到XMM

我对程序集(NASM)知之甚少,我想使用SSE4.2执行字符串操作(是否存在子字符串)。因此,我了解了PCMPESTRI,PCMPISTRM的工作原理。我被卡在中间,即数据...

回答 1 投票 0

使用AVX CPU指令:没有“ / arch:AVX”的情况下性能较差]]

我的C ++代码使用SSE,现在我想对其进行改进以支持AVX。因此,我检测到AVX何时可用,并调用使用AVX命令的函数。我使用Win7 SP1 + VS2010 SP1和一个...

回答 2 投票 49

使用未对齐的缓冲区矢量化:使用VMASKMOVPS:从未对齐计数生成掩码吗?还是根本不使用该insn

用于x86-64的带有-O3 -mavx -mtune = haswell的gcc 5.3使代码出奇的庞大,无法处理代码的可能未对齐的输入,例如://编译器输入的便捷简单示例//我不是...

回答 2 投票 11

为什么AVX与SSE2相比不能进一步提高性能?

我是SSE2和AVX领域的新手。我编写以下代码来测试SSE2和AVX的性能。 #include #include #include #include ]]

回答 2 投票 0

“ pcmpeqb”的等待时间-内存与xmm寄存器的关系

我有这2个选项:选项1:循环:... movdqu xmm0,[rax] pcmpeqb xmm0,[.zero_table] ... ...对齐16 .zero_table:DQ 0,0选项2:pxor xmm1, xmm1循环:... movdqu ...

回答 1 投票 0

x86-64组件XMM1寄存器丢失其值

所以我正在处理这种汇编代码片段,但遇到一个奇怪的问题:XMM1寄存器在执行过程中似乎失去了它的值,即使我不认为我使用了任何...

回答 1 投票 2

x86-64从堆栈段错误中存储和删除浮点值

因此,我认为我应该使用简单的辅助函数来在堆栈和XMM寄存器之间移动数据,但是我再次遇到了段错误。应该如何正确地做到这一点?下面是我当前的代码,......>

回答 1 投票 0

Ubuntu-如何确定CPU应用程序当前是否正在使用AVX或SSE?

我目前在许多具有GPU的服务器上运行BOINC。这些服务器同时运行GPU和CPU BOINC应用程序。由于AVX和SSE在CPU应用程序中使用时会降低CPU频率,因此我必须是...

回答 2 投票 -1

现代编译器如何使用mmx / 3dnow / sse指令?

我一直在阅读x86指令集扩展,它们似乎仅在某些非常特定的情况下才有用(例如,SSE3中的HADDPD-(Horizo ntal-Add-Packed-Double)。这些需要一定的...

回答 5 投票 20

© www.soinside.com 2019 - 2024. All rights reserved.