与矩阵乘法有关的问题,尤其是实现。数学问题应该考虑线性代数标签。
使用int8 AVX512-VNNI指令的有效方法,尤其是将数据加载到zmm寄存器
我想在 int8 数据中使用 AVX512-VNNI 指令优化矩阵乘法运算。 我了解 vpdpbusd 的工作原理,但我不知道如何有效地使用它。 详细一点,我
我正在尝试将 numpy 中两个维度相当大的矩阵相乘。 请参阅以下 3 种方法。我随机实现了 3 个矩阵来展示我的问题。第一个矩阵,即 Y1[:,:,0] 是 ...
我发现在 CPU 上进行复值矩阵向量乘法时 pyTorch 比 numpy 慢得多: 一些注意事项: 这对我来说在多个系统中都是如此 内存不是问题 复杂
我正在尝试进行一些简单的矩阵乘法,但出现此错误: 在 ans[i] <- ans[i] + vec[j] * mat[j:i] : number of items to replace is not a multiple of replacement length The
我是 R 新手,正在尝试做一些简单的矩阵乘法。好像有尺寸问题。请参阅下面我的代码。 y = [30, 30, 30] 的输出,仅包含正确答案...
这个基准有效吗?对于中型(10000 x 10000)矩阵乘法(CPU),tinygrad 与 torch 或 numpy 相比快得不可思议
我在启用高内存的 google collab CPU 上运行了以下基准测试代码。请指出我进行基准测试的方式中的任何错误(如果有)以及为什么会有如此高性能的b...
这个基准有效吗? torch、numpy、tinygrad 2000 x 2000 矩阵乘法(CPU)(已编辑)
我对发布的问题表示歉意。舞台上的一个人已经指出,tinygrad 很懒,我应该实现张量来执行 matmul。所以我更新了...
这个基准有效吗? torch、numpy、tinygrad 10000 x 10000 矩阵乘法(CPU)
我在启用高内存的 google collab CPU 上运行了以下基准测试代码。请指出我进行基准测试的方式中的任何错误(如果有)以及为什么会有如此高性能的b...
CublasComputeType_t 如何影响张量核心的输入和输出数据类型?
我对使用 cublasGemmEx API 时 cublasComputeType_t 对计算的影响有点困惑。 例如我的A、B、C矩阵都是float类型。 当 cublasComputeType_t=
我正在使用 llm.c 项目的矩阵乘法实现,特别是来自此文件。 提供了两种实现方式: matmul_forward_cpu:基本矩阵乘法...
如何在C中将float转换为int,然后在执行操作后又转换回来,同时避免溢出?
我正在开展一个项目,需要在 C 语言的微控制器上实现神经网络,执行时间至关重要。我正在尝试尝试加快代码运行速度的技术,...
crossprod(m1, m2) 在我的机器上运行速度比 t(m1) %*% m2 慢
为什么 t(mat1) %*% mat2 比 crossprod(mat1, mat2) 运行得更快。后者的全部意义不就是它调用了更有效的低级例程吗? r$> mat1 <- array(rnorm(100 * 600), di...
为什么 t(mat1) %*% mat2 比 crossprod(mat1, mat2) 运行得更快。后者的全部意义不就是它调用了更有效的低级例程吗? r$> mat1 <- array(rnorm(100 * 600), di...
我目前在尝试并行化 4x4 矩阵乘法算法时面临着极其困难的时期。我正在尝试创建一个库以在学校的最小光线追踪器项目中使用,所以我正在尝试...
在尝试从头开始编写 3D 软件渲染器时,我正在实现矩阵,特别是投影矩阵,这给我带来了不小的困惑。 我已经关注了...
我处于需要使用参数化矩阵的情况。例如,假设我从两个矩阵 A 和 B 开始, A = [1 2] B = [a b] [3 4] [5 6] 这里矩阵 B 被参数化...
我编写了以下代码来简单地调用cblas_dgemm来将两个矩阵相乘。 #包括 #包括 #包括 #包括 #定义 N ...
我有一个非常具体的稀疏矩阵布局,我正在寻找存储建议。 我考虑的矩阵 是对称且正定的 由块矩阵组成(所有块都有...
我正在尝试实施一个户主三对角化例程来对小(n< 10) hermitian matrices in matlab. This is what I have so far: H = 1.0e-10 * [ 0.1386 + 0.0000i...