neon 相关问题

NEON是ARM处理器的矢量处理指令集。

在clangAArch64上用NEON本征扩展int32x2_t到int32x4_t时，如何用NEON本征扩展新通道？

ARM爱好者们，我想用NEON代码将2个s32缩小并饱和到2个s16，然后将它们打包在一个GPR中。我需要符合一定的API，所以请不要在这里讨论效率或设计:) 这里是...

arm simd intrinsics arm64 neon

回答 1 投票 2

为什么根据时钟周期数和核心频率测得的NEON内联汇编代码运行时间与预期时间不一致？

我用ARM NEON内联汇编实现了示例代码（代码没有意义）。有（大约，我使用了ARMv7的信息，这是ARMv8的信息，但我不希望这个数字会更高）......

assembly arm cpu-architecture neon cpu-cycles

回答 1 投票 -3

为什么ARM NEON代码比原生C代码慢？

我在ARM NEON（ARM8-A架构）中实现了去量化操作。但我面临一个奇怪的问题，ARM NEON版本（11毫秒）比C版本（4.75毫秒）慢。

c++ c arm neon

回答 1 投票 0

NEON本体中 "最大 "与 "最大数量 "的关系

NEON本质描述中的 "最大 "和 "最大数 "有什么区别？如(来自https:/developer.arm.comarchitecturesinstruction-setssimd-isasneonintrinsics) ...

arm simd arm64 neon

回答 1 投票 0

ARM-v8 NEON：是否有指令将单个普通寄存器跨NEON寄存器的多个通道分割？

我是ARM-v8（AArch64）的新手，在ARM-v7中只做了一点NEON编码（但是我对A32和正常A64的ok（*）非常满意）。最终，我想做的就是计算频率...

arm arm64 neon

回答 3 投票 0

如何使用VLDn指令在NEON中实现4路解交织负载

供参考，我正在看http://infocenter.arm.com/help/topic/com.arm.doc.dui0489c/DUI0489C_arm_assembler_reference.pdf的4-65部分，我正在努力理解参考指南，但是我是...

assembly arm simd neon

回答 1 投票 1

ARMv8 Advanced SIMD：“操作数2的无效寻址模式-'st1 {V1.D} [0]，[x20,640]'”

我正在尝试从V寄存器到X寄存器中保存的地址将64位存储到内存，但出现错误，“操作数2的寻址方式无效-`st1 {V1.D} [0]，[ x20,640]”。来自ARMv8 ...

assembly memory arm neon armv8

回答 1 投票 0

VNNI指令的NEON仿真

Cascade Lake Intel CPU中有新的AVX-512 VNNI指令，可以加快CPU上神经网络的推断。我将它们集成到Simd库中以加速Synet（一个小的框架...

c++ simd neon simd-library synet

回答 1 投票 1

C / Renderscript / Neon本征之间的电池功耗—视频滤波器（Edgedetection）APK

android c android-ndk neon renderscript

回答 2 投票 2

有没有一种方法可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值？

是否可以使用ARM NEON Intrinsics一次为向量的多个通道设置不同的值？例如，而不是像int32x2_t做a，b，c，d，e，f； ..........其他一些...

optimization arm simd intrinsics neon

回答 1 投票 0

使用ARM Neon内部函数从64位访问32位

如何使用ARM Neon Intrinsics从64位带符号整数访问低32位或高32位？另外，我想将提取的数据分配给另一个32位变量。有可能吗？

c arm simd intrinsics neon

回答 2 投票 0

在简单的添加任务中使用ARM NEON速度较慢

我试图编写一个简单的NEON代码，但是发现它比常规的C ++实现要慢。代码如下：float A [] = {1,2,3,4};浮点B [] = {2,3,4,5}; float32x4_t v1; float32x4_t ...

arm neon

回答 1 投票 0

NEON中的_mm_hadd_ps等于什么？

我正在尝试将以下代码从SSE转换为适用于Apple的64位iOS设备的NEON：void Matrix :: TransformPoint（const float vec [4]，const Matrix＆matTrans，float out [4]）{...

c++ arm sse simd neon

回答 2 投票 1

ARM64 Neon-在所有uint8x8x4_t上存储一个相同的uint8x8_t

有一个uint8x8_t，例如[100，100，100，100，200，200，200，200]上面的uint8x8_t如何用一个指令/内在函数存储在一个uint8x8x4_t上？目前，我们使用uint8x8x4_t.val [0] ...

ios arm64 neon

回答 1 投票 0

Makefile：致命错误：NE10.h：没有这样的文件或目录

[当前正在尝试制作Makefile并遇到此错误：致命错误：NE10.h：没有这样的文件或目录#include“ NE10.h” ^ ~~~~~~~编译终止我正在寻找此原因（.. 。

makefile cmake neon

回答 1 投票 0

Clang ++ / g ++不在Aarch64上向量化代码

我有一个带四核Cortex-A57的SBC，并正在尝试使用编译器自动矢量化技术对Neon进行试验。在Ubuntu 18.04上同时使用clang ++（5.0.1-4）和g ++（7.4.0），下面非常简单的代码...

c++ arm neon

回答 1 投票 0

ARM NEON的SSE _mm_movemask_epi8等效方法

我决定继续进行快速弯道优化，并坚持使用_mm_movemask_epi8 SSE指令。如何使用uint8x16_t输入为ARM Neon重写它？

arm sse neon

回答 4 投票 5

使用ARM64中的ARM Neon Intrinsic进行64位双精度值的算术运算

我正在尝试使用ARM Neon实现一个简单的64位双重加法操作。我遇到过这个问题，但答案中没有使用ARM内在函数的示例实现。所以......

c x86 neon

回答 1 投票 0

GCC; arm64; aarch64;无法识别的命令行选项'-mfpu = neon'

我有编译错误：无法识别的命令行选项'-mfpu = neon'*当尝试使用-mfpu = neon标志进行编译时。实际上，我试过的任何'mfpu'选项都失败了。但是在文档中......

gcc arm neon arm64 linaro

回答 2 投票 11

这个矩阵乘法码的ARMv7到ARMv8 NEON端口是什么？

// http://infocenter.arm.com/help/topic/com.arm.doc.dai0425/DAI0425_migrating_an_application_from_ARMv5_to_ARMv7_AR.pdf // p。 4-21 .macro mul_col_f32 res_q，col0_d，col1_d vmul.f32 \ res_q，q8，\ ...

assembly simd neon armv8

回答 1 投票 0

neon 相关问题

最新问题