sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

使用SSE内在函数对x,y,z浮点数组进行矢量化处理,计算长度和差值

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

使用SSE内在函数优化浮点数x,y,z数组以计算长度和差的循环

我正在尝试将一个循环转换为SSE内在函数。我似乎取得了相当不错的进步,这意味着我朝着正确的方向前进,但是我似乎已经做了一些...

回答 1 投票 0

如何在Visual Studio的内联汇编中获取变量的地址

我正在Visual Studio环境中学习内联汇编程序。因此,我正在实现一个简单的点积函数,但似乎无法找到返回浮点结果的正确方法。浮点(vec3&a,...

回答 1 投票 0

-msse,-msse2,-mssse3,-msse4 rtc ..的cflgs sse选项之间有什么区别?以及如何确定?

对于GCC CFLAGS选项:-msse,-msse2,-mssse3,-msse4,-msse4.1,-msse4.2。它们是专有用途还是可以一起使用?我的理解是选择要设置的内容...

回答 1 投票 18

为什么数组大小增加时性能会增加?

我想学习SIMD编程。现在,我的代码中有了一些有趣的时刻。我只想衡量代码的工作时间。我尝试对具有特定大小的数组应用一些基本函数。 ...

回答 1 投票 1

有没有一种方法可以用gcc自动生成MMX指令(不是SSE)

看来gcc会很乐意自动将简单的示例向量化,并发出SSE指令。有什么方法只能发出MMX指令吗?例如,如果我在Godbolt上尝试以下示例:int ...

回答 1 投票 2

仍然得到“您的CPU支持该TensorFlow二进制文件未编译为使用的指令:”,同时使用-march = native

我已经尝试编译Tensorflow 2.0,以获得诸如avx之类的额外cpu指令的好处,但无济于事。我已经阅读了如何使用SSE4.2和AVX指令编译Tensorflow?但我是...

回答 1 投票 1

是否有simd指令/本征/内建元素的部分移位?

一个最小的示例会更有益:说我有一个排序的8个整数= {10,20,30,40,50,60,70,80}(我的用例是排序的整数,但是我不确定信息很有价值...

回答 1 投票 0

MMX和XMM寄存器之间的区别?

我目前正在学习Intel x86处理器上的汇编编程。有人可以告诉我,MMX和XMM寄存器有什么区别?我对......>

回答 1 投票 13

加速浮点数5x5矩阵*使用SSE的向量乘法

我需要每秒进行240000次矩阵向量乘法。矩阵为5x5,并且始终相同,而向量在每次迭代时都会变化。数据类型为float。我在想...

回答 8 投票 12

* _ dpbusd_epi32或* _maddubs_epi16在ARM上是否等效?

我希望将一些x86内在代码移植到ARM,但我一直在努力寻找正确的资源。在开发x86代码时,我主要使用该网站作为文档:https://software.intel.com / ...

回答 1 投票 1

NEON中的_mm_hadd_ps等于什么?

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON:void Matrix :: TransformPoint(const float vec [4],const Matrix&matTrans,float out [4]){...

回答 2 投票 1

_ mm_set_epi8的等效于汇编,除最后一个参数外,所有参数都为零

我正在编写一个用于通过大学课程的程序,该程序应该比较C ++和SIMD函数以及汇编函数的效率。现在,我设法做得很好,...

回答 1 投票 2

等效于_mm_set_epi8的带参数的参数

我正在编写一个程序以通过大学的科目考试,该程序应比较C ++和SIMD函数与汇编函数的效率。现在,我设法做得很好,...

回答 1 投票 1

X86:如何将xmm0的下半部分设置为0,而又不影响上半部分?

我使用xmm0具有128位的系统。我想将[63 ... 0]设置为零,而不会影响[127 ... 64]。我使用:MOV RAX,0xFFFFFFFFFFFFFFFF MOVQ xmm2,RAX PSHUFD xmm2,xmm2、0b00001111 PAND xmm1,xmm2 ...

回答 1 投票 3

用于Quadwords的Intel 64 / IA32压缩水平添加?

我正在为Quadwords寻找类似PHADDD的说明。 PHADDQ不存在,是否有这样的指令?

回答 1 投票 0

在AVX / SSE中是否有可能获得多个正弦?

我正在尝试编写C ++程序,该程序将启动我在x64汇编器中编写的功能。我想稍微加快速度(并使用CPU功能),所以我选择使用向量运算。 ...

回答 3 投票 2

如何使用SSE将__m128i寄存器乘以浮点因子?

我在将两个寄存器相乘时遇到问题(或者只是将寄存器乘以浮点常量)。一个寄存器是__m128i类型,包含一个从16个像素开始的RGBA像素颜色通道(具有16个像素的数组...

回答 1 投票 0

for循环的MMX SSE扩展名

我有GCC 9.2编译器。如果我使用MMX或SSE / AVX扩展名,则将使您的代码并行运行,因此速度会更快。如何告诉编译器使用此指令,我有一个我想要的代码段...

回答 1 投票 0

C#-如何使用向量SSE操作将图像像素数据的字节数组转换为灰度

我在将存储在byte []数组中的图像数据转换为灰度时遇到问题。我想使用矢量SIMD操作,因为将来需要编写ASM和C ++ DLL文件来测量操作...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.