matrix-multiplication 相关问题

与矩阵乘法有关的问题,尤其是实现。数学问题应该考虑线性代数标签。

使用int8 AVX512-VNNI指令的有效方法,尤其是将数据加载到zmm寄存器

我想在 int8 数据中使用 AVX512-VNNI 指令优化矩阵乘法运算。 我了解 vpdpbusd 的工作原理,但我不知道如何有效地使用它。 详细一点,我

回答 1 投票 0

为什么我使用 numpy 进行矩阵乘法这么慢?

我正在尝试将 numpy 中两个维度相当大的矩阵相乘。 请参阅以下 3 种方法。我随机实现了 3 个矩阵来展示我的问题。第一个矩阵,即 Y1[:,:,0] 是 ...

回答 1 投票 0

PyTorch 复杂的矩阵向量乘法在 CPU 上速度很慢

我发现在 CPU 上进行复值矩阵向量乘法时 pyTorch 比 numpy 慢得多: 一些注意事项: 这对我来说在多个系统中都是如此 内存不是问题 复杂

回答 1 投票 0


简单矩阵乘法 - 替换长度错误[关闭]

我正在尝试进行一些简单的矩阵乘法,但出现此错误: 在 ans[i] <- ans[i] + vec[j] * mat[j:i] : number of items to replace is not a multiple of replacement length The

回答 1 投票 0

R 中的简单矩阵乘法 - 长度问题

我是 R 新手,正在尝试做一些简单的矩阵乘法。好像有尺寸问题。请参阅下面我的代码。 y = [30, 30, 30] 的输出,仅包含正确答案...

回答 1 投票 0

这个基准有效吗?对于中型(10000 x 10000)矩阵乘法(CPU),tinygrad 与 torch 或 numpy 相比快得不可思议

我在启用高内存的 google collab CPU 上运行了以下基准测试代码。请指出我进行基准测试的方式中的任何错误(如果有)以及为什么会有如此高性能的b...

回答 1 投票 0

这个基准有效吗? torch、numpy、tinygrad 2000 x 2000 矩阵乘法(CPU)(已编辑)

我对发布的问题表示歉意。舞台上的一个人已经指出,tinygrad 很懒,我应该实现张量来执行 matmul。所以我更新了...

回答 1 投票 0

这个基准有效吗? torch、numpy、tinygrad 10000 x 10000 矩阵乘法(CPU)

我在启用高内存的 google collab CPU 上运行了以下基准测试代码。请指出我进行基准测试的方式中的任何错误(如果有)以及为什么会有如此高性能的b...

回答 1 投票 0

CublasComputeType_t 如何影响张量核心的输入和输出数据类型?

我对使用 cublasGemmEx API 时 cublasComputeType_t 对计算的影响有点困惑。 例如我的A、B、C矩阵都是float类型。 当 cublasComputeType_t=

回答 1 投票 0

如何在llm.c项目中进一步优化矩阵乘法?

我正在使用 llm.c 项目的矩阵乘法实现,特别是来自此文件。 提供了两种实现方式: matmul_forward_cpu:基本矩阵乘法...

回答 1 投票 0

如何在C中将float转换为int,然后在执行操作后又转换回来,同时避免溢出?

我正在开展一个项目,需要在 C 语言的微控制器上实现神经网络,执行时间至关重要。我正在尝试尝试加快代码运行速度的技术,...

回答 1 投票 0

crossprod(m1, m2) 在我的机器上运行速度比 t(m1) %*% m2 慢

为什么 t(mat1) %*% mat2 比 crossprod(mat1, mat2) 运行得更快。后者的全部意义不就是它调用了更有效的低级例程吗? r$> mat1 <- array(rnorm(100 * 600), di...

回答 2 投票 0

R 的 crossprod() 在我的机器上运行速度较慢

为什么 t(mat1) %*% mat2 比 crossprod(mat1, mat2) 运行得更快。后者的全部意义不就是它调用了更有效的低级例程吗? r$> mat1 <- array(rnorm(100 * 600), di...

回答 1 投票 0

使用 SIMD 并行化 4x4 行主矩阵的矩阵乘法

我目前在尝试并行化 4x4 矩阵乘法算法时面临着极其困难的时期。我正在尝试创建一个库以在学校的最小光线追踪器项目中使用,所以我正在尝试...

回答 1 投票 0

Sharpdx Matrix4 * Vec4 与变换坐标

在尝试从头开始编写 3D 软件渲染器时,我正在实现矩阵,特别是投影矩阵,这给我带来了不小的困惑。 我已经关注了...

回答 1 投票 0

如何在Python中创建参数化矩阵并根据需要生成最终矩阵?

我处于需要使用参数化矩阵的情况。例如,假设我从两个矩阵 A 和 B 开始, A = [1 2] B = [a b] [3 4] [5 6] 这里矩阵 B 被参数化...

回答 1 投票 0

cblas_dgemm的正确用法

我编写了以下代码来简单地调用cblas_dgemm来将两个矩阵相乘。 #包括 #包括 #包括 #包括 #定义 N ...

回答 1 投票 0

稀疏矩阵的内存布局

我有一个非常具体的稀疏矩阵布局,我正在寻找存储建议。 我考虑的矩阵 是对称且正定的 由块矩阵组成(所有块都有...

回答 1 投票 0

为什么这个矩阵乘法这么慢?

我正在尝试实施一个户主三对角化例程来对小(n< 10) hermitian matrices in matlab. This is what I have so far: H = 1.0e-10 * [ 0.1386 + 0.0000i...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.