neon 相关问题

NEON是ARM处理器的矢量处理指令集。

在clangAArch64上用NEON本征扩展int32x2_t到int32x4_t时,如何用NEON本征扩展新通道?

ARM爱好者们,我想用NEON代码将2个s32缩小并饱和到2个s16,然后将它们打包在一个GPR中。我需要符合一定的API,所以请不要在这里讨论效率或设计:) 这里是...

回答 1 投票 2

为什么根据时钟周期数和核心频率测得的NEON内联汇编代码运行时间与预期时间不一致?

我用ARM NEON内联汇编实现了示例代码(代码没有意义)。有(大约,我使用了ARMv7的信息,这是ARMv8的信息,但我不希望这个数字会更高)......

回答 1 投票 -3

为什么ARM NEON代码比原生C代码慢?

我在ARM NEON(ARM8-A架构)中实现了去量化操作。但我面临一个奇怪的问题,ARM NEON版本(11毫秒)比C版本(4.75毫秒)慢。

回答 1 投票 0

NEON本体中 "最大 "与 "最大数量 "的关系

NEON本质描述中的 "最大 "和 "最大数 "有什么区别?如(来自https:/developer.arm.comarchitecturesinstruction-setssimd-isasneonintrinsics) ...

回答 1 投票 0

ARM-v8 NEON:是否有指令将单个普通寄存器跨NEON寄存器的多个通道分割?

我是ARM-v8(AArch64)的新手,在ARM-v7中只做了一点NEON编码(但是我对A32和正常A64的ok(*)非常满意)。最终,我想做的就是计算频率...

回答 3 投票 0

如何使用VLDn指令在NEON中实现4路解交织负载

供参考,我正在看http://infocenter.arm.com/help/topic/com.arm.doc.dui0489c/DUI0489C_arm_assembler_reference.pdf的4-65部分,我正在努力理解参考指南,但是我是...

回答 1 投票 1

ARMv8 Advanced SIMD:“操作数2的无效寻址模式-'st1 {V1.D} [0],[x20,640]'”

我正在尝试从V寄存器到X寄存器中保存的地址将64位存储到内存,但出现错误,“操作数2的寻址方式无效-`st1 {V1.D} [0],[ x20,640]”。来自ARMv8 ...

回答 1 投票 0

VNNI指令的NEON仿真

Cascade Lake Intel CPU中有新的AVX-512 VNNI指令,可以加快CPU上神经网络的推断。我将它们集成到Simd库中以加速Synet(一个小的框架...

回答 1 投票 1


有没有一种方法可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?

是否可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值?例如,而不是像int32x2_t做a,b,c,d,e,f; ..........其他一些...

回答 1 投票 0

使用ARM Neon内部函数从64位访问32位

如何使用ARM Neon Intrinsics从64位带符号整数访问低32位或高32位?另外,我想将提取的数据分配给另一个32位变量。有可能吗?

回答 2 投票 0

在简单的添加任务中使用ARM NEON速度较慢

我试图编写一个简单的NEON代码,但是发现它比常规的C ++实现要慢。代码如下:float A [] = {1,2,3,4};浮点B [] = {2,3,4,5}; float32x4_t v1; float32x4_t ...

回答 1 投票 0

NEON中的_mm_hadd_ps等于什么?

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON:void Matrix :: TransformPoint(const float vec [4],const Matrix&matTrans,float out [4]){...

回答 2 投票 1

ARM64 Neon-在所有uint8x8x4_t上存储一个相同的uint8x8_t

有一个uint8x8_t,例如[100,100,100,100,200,200,200,200]上面的uint8x8_t如何用一个指令/内在函数存储在一个uint8x8x4_t上?目前,我们使用uint8x8x4_t.val [0] ...

回答 1 投票 0

Makefile:致命错误:NE10.h:没有这样的文件或目录

[当前正在尝试制作Makefile并遇到此错误:致命错误:NE10.h:没有这样的文件或目录#include“ NE10.h” ^ ~~~~~~~编译终止我正在寻找此原因(.. 。

回答 1 投票 0

Clang ++ / g ++不在Aarch64上向量化代码

我有一个带四核Cortex-A57的SBC,并正在尝试使用编译器自动矢量化技术对Neon进行试验。在Ubuntu 18.04上同时使用clang ++(5.0.1-4)和g ++(7.4.0),下面非常简单的代码...

回答 1 投票 0

ARM NEON的SSE _mm_movemask_epi8等效方法

我决定继续进行快速弯道优化,并坚持使用_mm_movemask_epi8 SSE指令。如何使用uint8x16_t输入为ARM Neon重写它?

回答 4 投票 5

使用ARM64中的ARM Neon Intrinsic进行64位双精度值的算术运算

我正在尝试使用ARM Neon实现一个简单的64位双重加法操作。我遇到过这个问题,但答案中没有使用ARM内在函数的示例实现。所以......

回答 1 投票 0

GCC; arm64; aarch64;无法识别的命令行选项'-mfpu = neon'

我有编译错误:无法识别的命令行选项'-mfpu = neon'*当尝试使用-mfpu = neon标志进行编译时。实际上,我试过的任何'mfpu'选项都失败了。但是在文档中......

回答 2 投票 11

这个矩阵乘法码的ARMv7到ARMv8 NEON端口是什么?

// http://infocenter.arm.com/help/topic/com.arm.doc.dai0425/DAI0425_migrating_an_application_from_ARMv5_to_ARMv7_AR.pdf // p。 4-21 .macro mul_col_f32 res_q,col0_d,col1_d vmul.f32 \ res_q,q8,\ ...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.