vectorization 相关问题

矢量化是指一种编程范例,其中函数一次性在整个数组上运行。这在函数调用,存储器访问,并行化和代码表达方面提供了好处。某些编程语言(如MATLAB)经过优化,可在向量化时提供最佳性能。

如何使用 Polars 以更高效的方法替换条件 for 循环?

我有一个包含多个 id、值和日期的数据集(大 T、大 N)。 随机导入 将 numpy 导入为 np 将极坐标导入为 pl 从日期时间导入日期时间,时间增量 n_rows = 1000 # 你可以

回答 1 投票 0

我可以将我的 Numpy 解决方案改进为练习吗?

我被要求使用以下一组列索引: y = np.array([3, 0, 4, 1]) 将以下矩阵中的所有元素变为 1: x = np.zeros(形状 = (4, 5)) 以 y 开头...

回答 1 投票 0

如何使用 Numpy 向量化这个表达式?

我正在尝试计算下面的数组“矩阵”。如何使用 NumPy 的向量化函数来做到这一点? x = np.array([ [2, 1, 0], [1, 1, 0], [3,2,1], [1,0,0], [2,...

回答 1 投票 0

是否有更好的方法来编写 SIMD 代码来反转变换矩阵?

我正在为光线追踪器项目编写一个数学库,因此我试图使我的繁重操作(如矩阵求逆)更加优化。经过一些研究后,我发现了这个反转的技巧......

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

为什么现代编译器不支持 SSE 和 AVX?

我最近深入研究了 x86-64 架构并探索了 SSE 和 AVX 的功能。我尝试编写一个简单的向量加法函数,如下所示: 无效计算(const float *a,

回答 1 投票 0

如何在groupby()之后正确向原始多索引DataFrame添加列?

有一个 DataFrame,其期权代码位于零级别,价格(开盘价、收盘价、最高价和最低价)位于第一级别,期权类型位于第二级别(标头结构:'Ticker'、'open/close /高...

回答 1 投票 0

如何在从 GitHub 安装的 Weaviate 中启用或添加 text2vec-transformers 模块,无需 docker 运行

我正在尝试在 Weaviate 中启用 text2vec-transformers 模块,该模块是我从 GitHub 本地安装的。我面临的问题是 --modules 标志无法识别,并且设置环境变量...

回答 1 投票 0

Adobe Illustrator:如何将光栅图像转换为矢量文件,同时保持图像质量?

解释什么是光栅图像和矢量图形图像以及如何将光栅转换为矢量图形文件 我想要有关光栅到矢量转换文件的详细知识。还给出了例子...

回答 1 投票 0

极坐标when().then(map_elements(function))总是调用函数

我有这个代码: 将极坐标导入为 pl def get_year(entry_id: str) -> str: arr = Entry_id.split('.') print(f'> 为 {entry_id} 调用函数 <') if arr[0] != 'DEBT':

回答 1 投票 0

最快的 R 相当于 MATLAB 的 reshape() 方法?

我正在将 MATLAB 脚本转换为 R,但到目前为止我很后悔,因为它目前速度较慢。我正在尝试尽可能多地使用“向量化函数”,但我对 R 还比较陌生,并且不......

回答 3 投票 0

与 SSE 相比,AVX 没有获得性能提升

我正在尝试利用处理器的SIMD功能。然而,在矢量化的情况下,我观察到与

回答 1 投票 0

scipy 中 Mann-Whitney U 测试的优化建议?

11年后我怀着极大的兴趣读到这篇文章...... 我的代码如下所示: 将 numpy 导入为 np 从 scipy.stats 导入 mannwhitneyu 从 tqdm 导入 tqdm # 基础知识 运行次数 = 10000 分数 =

回答 1 投票 0

如何将 Polars 结构体的字段从另一个字段“a”的值映射到另一个字段“b”的值?

我有一个包含这些列的 Polars 数据框。我想根据 c 中的值在 a 列中的位置,将 C 列中每个列表中的值替换为 b 列中的相应值。 ┌...

回答 1 投票 0

由于“1300”原因,循环未矢量化

我正在尝试向量化一个进行大量迭代(超过 300 000 000 次)的循环以获得一些计算时间: uint16_t* 样本 = (uint16_t*)pixmap->样本; 图像 image(pixmap->w, pixmap...

回答 3 投票 0

提高大数据集上的 Pandas 和矢量化性能

背景 我有一个 CSV 文件中的大型数据集(100-250mb),需要对人群进行分组。 分组基于另一个 CSV 文件中定义的动态规则集。 对于每个...

回答 1 投票 0

如何避免使用 pl.DataFrame.iter_rows() 并对其进行矢量化

我有两个极坐标数据框,其中包含唯一的 ID 和实用程序的名称。我正在尝试构建这两个数据帧之间的条目映射。我正在使用 Polars_fuzzy_match 进行模糊处理...

回答 1 投票 0

R dplyr 计算数据框中两个日期变量之间的天数时出现意外结果

我求助于这个小组的集体专业知识。我有一个日期计算问题,上周我经历了很多迭代并尝试了解决方案,我想我正在失去我的......

回答 1 投票 0

为什么msvc不矢量化?

我在 Windows 10 上使用 Visual Studio 2022。我的处理器:Intel(R) Core(TM) i5-8265U CPU @ 1.60GHz 1.80 GHz。 这是代码: #包括 #包括 #包括 我在 Windows 10 上使用 Visual Studio 2022。我的处理器:Intel(R) Core(TM) i5-8265U CPU @ 1.60GHz 1.80 GHz。 这是代码: #include <vector> #include <iostream> #include <time.h> using namespace std; void func(int* A, int na) { for (int k = 0; k < na; k++) for (int i = 0; i < na; i++) for (int j = 0; j < na; j++) A[j] = A[j] + 1; } int main() { int na = 5000; int* aint = new int[na]; func(aint, na); cout << aint[rand() % na]; delete[] aint; } MSVC 选项: cl /c /Zi /W3 /WX- /诊断:列 /sdl /O2 /Oi /GL /D NDEBUG /D _CONSOLE /D _UNICODE /D UNICODE /Gm- /EHsc /MD /GS /Gy /arch:AVX2 / Zc:wchar_t /Zc:forScope /Zc:inline /permissive- /Fo"x64\Release\" /Fd"x64\Release c143.pdb" /external:W3 /Gd /TP /FC /errorReport:prompt /Qvec-report :2 源码.cpp MSVC 不对 j 循环进行矢量化。由于代码 1300:“循环体包含很少或没有计算”,循环的日志未矢量化。 MSVC CPU 时间为 17 秒,由于 Intel Advisor 诊断,j 循环未矢量化。 Intel 2024 C/C++ 编译器 CPU 时间为 7 秒,由于 Intel Advisor 诊断,j-loop 通过使用 AVX2 指令进行矢量化。我是否遗漏了应该在 MSVC 选项中设置的内容,或者 MSVC 2022 在自动矢量化方面就是那么愚蠢?您能举一个 MSVC 使用自动矢量化的例子吗?对于我尝试过的所有示例,MSVC 不会矢量化。 我尝试指定不同的增强指令集,但都不起作用。 你的循环很奇怪;最好的优化是展开外部循环,这样就有一个循环可以完成 A[j] += na*na; 的任务。 如果您以这种方式编写源代码,我希望编译器能够自动矢量化。 使用当前源,Clang 会自动矢量化,无需重新排列循环,并且一次仅添加 1。 GCC 将两者混合用于独立的 func,其中 na 是运行时变量。 将 func 内联到 main 中时,GCC 不会自动矢量化,其中 na = 5000 是编译时常量。 但它交换了一些循环,因此它在内循环中执行 add edx, 4,以 sub eax, 2 / jnz 作为循环条件,以 eax=2500 作为内循环计数器开始。 它仅在中间循环中从数组加载和存储,加载提升/存储沉入内部循环。 (中间循环像源一样运行 5000 次迭代)。只有外部循环实际递增指针,因此在指针递增之间有 5000 次加载/存储同一数组元素。 (外部循环条件是一个指针与指向数组末尾一位的指针进行比较,来自 lea rdi, [rax+20000]) 在 func 的独立非内联版本中,GCC 将 k 或 i 展开 2 并在 j 上进行矢量化,而不交换任何循环,因此它在嵌套循环中执行 A[j + 0..7] += 2;,循环遍历每次通过内循环时 std::vector。 GCC 给 main 一个隐式的 __attribute__((cold)),但是当内联到 void foo() 时,我们得到与 int main() 相同的代码,所以关键的区别似乎是 na 是一个编译时常量,而不是cold 属性(减少优化和/或偏爱大小而不是速度)。 MSVC 确实使用 size_t j(使用 -O2 -arch:AVX2)进行自动矢量化,所以也许它无法证明 32 位 j 符号扩展到 64 位指针宽度? 希望 MSVC 确实知道 j < na 条件使循环绝对是非无限的,这样它就可以避免内部循环内的符号扩展。 在带有 MSVC 19.40 的 Godbolt 上 movsxd 中唯一的 func 指令位于函数顶部以进行符号扩展 na,内部循环使用 64 位 rcx 作为计数器(无缘无故) ;计数不能高于 2^31 - 1,这样 REX 前缀就会浪费代码大小)。 我链接了int版本;取消注释 size_t 行即可查看 asm。 (滚动到底部;由于包含 <iostream>,MSVC 吐出了很多东西。我还包含了 GCC 和 Clang -O2 -march=x86-64-v3,这相当于您的 MSVC 命令:使用 AVX2+FMA3+BMI1/2 进行全面优化) 其他编译器不关心 int 与 size_t j,除非在汇编中有我没有注意到的差异。

回答 1 投票 0

向量上的逻辑运算符长形式和短形式

我读了很多关于逻辑运算符的短形式和长形式之间的区别的帖子,但我需要明确的精度。 我读到: 较长的形式从左到右检查...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.