sse 相关问题

SSE(Streaming SIMD Extensions)是许多类似命名的x86指令集向量扩展中的第一个。此时,SSE通常更常用于x86向量指令,而不是没有SSE2,SSE3等的SSE引用。

“奇数大小的对齐向量上的“安全” SIMD运算符?

假设我有一些16字节的对齐结构,只包装3xFloat32数组:#[repr(C,align(16))] pub struct Vector(pub [f32; 3]);现在,我想将其划分为两个实例,例如:use ...

回答 1 投票 2

FASM对齐32的部分对齐不充分

我使用FASM,这是我的程序格式ELF64节'.text'可执行公共函数func:vmovaps ymm0,YWORD [.table] xor rax,rax ret align 32 ....

回答 1 投票 2

我AOS的理解VS SoA的优势/劣势是否正确?

我最近一直在阅读关于AOS VS SoA的结构设计和面向数据的设计。这是很奇怪很难找到任何信息,以及什么我发现,似乎承担更大的...

回答 1 投票 11

如何优化的C代码与SSE-内在为32×32打包=> 64位乘法,和拆包那些结果的两半(伽罗瓦域)

我一直挣扎在我开发一个应用程序的网络编码性能的同时(见Optimzing SSE代码,提高了编码,编码和OpenCL网络的性能...

回答 2 投票 8

如何转换的24bit RGB使用AVX2为32位?

我有SSSE3做到了这一点,现在我不知道这可能是与AVX2做有更好的表现?我与一个零字节的填充24位RGB,使用来自24位快速阵列的代码 - >的32位阵列...

回答 2 投票 1

如何使用_mm_extract_epi8功能? [重复]

我使用_mm_extract_epi8(__m128i一,const int的的imm8)功能,它具有const int的参数。当我编译此C ++代码,得到以下错误信息:错误C2057预期不变...

回答 2 投票 0

用型(浮球)中等作品(浮点常量和)夯实INT转换像(浮动)诠释呢?

VS2019,发布,X86。模板 漂浮的get()const的{INT F = _mm_extract_ps(FMM,I);返回(浮动常量&)F; }当使用return(浮动&)F;编译器使用extractps M32,......

回答 4 投票 6

什么是执行使用SIMD指令的任意128/256/512位重排列最快的方法?

我想执行单位,对位的,和半字节(4位)上的CPU寄存器宽度128,256或512位的(XMM,YMM或个zmm)的任意排列;这应该是尽可能快。 ...

回答 1 投票 11

我tensorflow /核心/平台/ cpu_feature_guard.cc:137]你的CPU支持,这TensorFlow二进制编译时不使用说明:SSE4.1 SSE4.2 [复制]

我在基于CPU的系统中安装了tensorflow使用命令:PIP安装tensorflow == 安装完成后没有任何错误和一些初步核查的一部分,我能...

回答 1 投票 0

自动向量化排指令

我试图让编译器生成通过自动矢量化(V)pshufd指令(或同等学历)。这是令人惊讶的困难。例如,假设的4个UINT32值的向量,所述...

回答 1 投票 2

为什么我的SSE代码比本地C ++代码慢?

首先,我是新来的SSE。我决定加快我的代码,但现在看来,它的工作原理比较慢,然后我的本地代码。这是一个例子,计算平方和。在我的英特尔i7-6700HQ,...

回答 2 投票 0

ostream的崩溃使用上排列堆内存?

这里是一个虚拟的代码我有,就用“庞大”的值堆测试对准内存分配的:#include #包括 #包括 常量双ln2per12 =的std :: ...

回答 1 投票 -2

快速计数两个阵列之间相等的字节数[重复]

我写的函数int compare_16bytes(__ m128i LHS,__m128i右),以比较使用SSE指令两个16字节的数字:该函数返回多少字节执行后,等于...

回答 4 投票 11

如何混合32位整数?或者:为什么没有_mm256混合_epi32?

我正在使用AVX2 x86 256位SIMD扩展。我想做一个32位整数组件if-then-else指令。在英特尔文档中,这样的指令称为vblend。英特尔......

回答 1 投票 2

loadu和load之间有什么区别?

什么更有效,为什么?特别是_mm_loadu_si128与C中的_mm_load_si128相比。(编者注:或者这是标记的程序集,可能他们的意思是手写的asm中的movdqu与movdqa。哪个......

回答 1 投票 0

为什么Windows x64调用约定不使用XMM寄存器传递超过4个整数args?

(Microsoft)x64调用约定规定:参数在寄存器RCX,RDX,R8和R9中传递。如果参数是float / double,则它们在XMM0L,XMM1L,XMM2L和XMM3L中传递。 ...

回答 2 投票 4

SSE跨平台指令集

我想在VS2017中用SSE指令编写数学函数。我可以尝试一下:__ m128 addWithIntrinsics(__ m128 a,__ m128 b){__ m128 r = _mm_add_ps(a,b);返回r; } __m128 ......

回答 1 投票 1

使用SSE / AVX / AVX2检查__m128i的所有字节是否匹配单个字节

我正在寻找计算以下函数的有效方法:输入:__ m128i数据,uint8_t in;输出:布尔值,指示数据中是否有任何字节。我实际上是用它们来实现...

回答 1 投票 0

将3D数学转换为SSE或其他SIMD需要多少加速?

我在我的应用程序中广泛使用3D数学。通过将矢量/矩阵库转换为SSE,AltiVec或类似的SIMD代码,我可以实现多少加速?

回答 7 投票 10

SIMD:累积相邻对

我正在学习如何使用SIMD内在函数和自动向量化。幸运的是,我有一个有用的项目,我正在努力,似乎非常适合SIMD,但对于像我这样的新手来说仍然很棘手。我......

回答 1 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.