blas 相关问题

基本线性代数子程序是用于科学计算中常用的低级矢量和矩阵运算的标准接口集。

使用 CMake 检测 BLAS/LAPACK 供应商

所以我的代码希望在不同的 BLAS/LAPACK 供应商发生时包含不同的头文件。是否有任何预定义的宏或类似的东西让我检查它?

回答 2 投票 0

为什么 blas gemm 函数系列中不允许非正向步幅?

sgemm 的 netlib 文档指出,数组步幅 LDA 和 LDB 必须 >= 1,并且足够大,以便列不会重叠。事实上,Apple 的 Accelerate/veclib 中的实现

回答 2 投票 0

如何让 np.multiply 使用多个核心?

标题已经说了。我目前正在并行化我的代码,主要瓶颈是由两个三维 ndarray 的元素乘法造成的。我的系统监视器显示只有...

回答 2 投票 0

如何从C调用CLAPACK?

我正在尝试从 C 调用 CLAPACK 函数。我下载了 CLAPACK-3.2.1(来自 http://www.netlib.org/clapack/clapack.tgz)并按照此处的说明进行操作(http://people.tgz)。 sc.fsu.edu/~%20jburkardt/c_src/

回答 2 投票 0

在 docker 容器内运行 llama-cpp-python 时没有 GPU 支持

我正在尝试按照安装文档但在 docker 容器内运行 llama cpp 的 llama 索引。 按照此存储库安装 llama_cpp_python==0.2.6。 Dockerfile # 使用

回答 1 投票 0

NumPy 内部如何处理非连续切片的矩阵乘法?

您好 Stack Overflow 社区, 我正在使用 NumPy 进行矩阵运算,我有一个关于 NumPy 如何处理矩阵乘法的问题,特别是在处理非连续 sli 时...

回答 1 投票 0

在 EMR 上使用 OpenBLAS Spark

尝试在 EMR 实例上运行 Spark 2.1.0 中的 MlLib ALS 算法时,我不断收到臭名昭著的警告: 警告 BLAS:无法从以下位置加载实现:com.github.fommil.netlib.NativeSyst...

回答 2 投票 0

Spark netlib-java BLAS

我正在尝试对无法正常工作的 apache Spark 和 netlib 设置进行故障排除,但我不知道下一步该怎么做。 这里有一些信息: Spark 1.3.1(但也尝试过1.5.1) 具有 3 个节点的 Mesos 集群 Ubuntu Tru...

回答 2 投票 0

重复单精度复矩阵向量乘法(速度和精度提高)

我将一个长时间运行的函数简化为一系列“简单”的矩阵向量乘法。矩阵没有变化,但是向量却很多。我做了一个测试

回答 1 投票 0

无法使用Meson通过MKL安装Scipy

我正在尝试使用 BLAS 的 MKL 实现安装 scipy 1.9.1,使用 pip 作为我的包管理器。对于 numpy,我可以使用以下命令执行此操作:pip install numpy --no-binary numpy。与 Sci 一起做这件事...

回答 2 投票 0

Accelerate 上单精度浮点数的 snrm2 计算不稳定

我正在尝试使用 snrm2 在 Rust 中执行单精度浮点计算。我链接到 OSX 上的 Accelerate 框架,并使用 blas crate 作为 C 桥。不管随机

回答 1 投票 0

我可以传递与 cblas_gemm(...) 中的“C”和“A”矩阵相同的矩阵指针吗?

我想用值C*B更新C。我还想用值 C*C 更新 C。 这样做安全吗?我不想给我的学生提供糟糕的代码。我目前正在复制临时结果...

回答 3 投票 0

我的 CSR 稀疏矩阵多向量 (SpMM) 乘积函数有什么问题?

我有以下 C 语言稀疏矩阵向量 (SpMV) 乘积代码(假设采用 CSR 存储格式): void dcsrmv(SparseMatrixCSR *A, 双 *x, 双 *y) { for (int i=0; im; i++) ...

回答 1 投票 0

为什么 magma_dgemm 函数不使用 V100 GPU 上的张量核心?

我在 V100 和 H100 GPU 上运行 MAGMAtesting_dgemm 代码。通过 Nsight Systems,我发现 V100 上的代码不使用张量核心,但 H100 上的代码则使用张量核心。 V100结果: H100 结果: ...

回答 1 投票 0

BLAS 中矩阵之间的逐元素乘法?

我开始在 C++(特别是 Intel MKL)中使用 BLAS 函数来创建一些旧 Matlab 代码的更快版本。 到目前为止一切顺利,但我不知道如何执行

回答 1 投票 0

DGEMM 与 f2py 的性能

我尝试通过 f2py 将 dgemm 包装在 fortran 中并比较时间。看起来 dgemm 在小维度矩阵中比 numpy-einsum 慢得多(10 倍)。 dgemm 的定时器在 fortra 里面...

回答 0 投票 0

MKL BLAS 不是多线程 zgemv

我在配备两个 AMD EPYC 7443 24 核处理器和 1007GB RAM 的计算机上运行一个非常简单的 MKL BLAS 矩阵-矩阵和矩阵-向量乘法。 代码、编译行和测试结果为

回答 0 投票 0

如何访问 Magma Routine 的结果

我正在尝试使用 magma_sgeev 例程访问一般实矩阵的特征值分解的结果。我的代码如下 - #包括 #包括 #

回答 0 投票 0

使用类型化内存视图和 BLAS 时最大化 Cython 数组操作的速度

我正在尝试最大化我的 Cython 3.0 代码的速度,该代码涉及使用多个数组操作的循环更新数组(包括矩阵向量乘法、向量向量加法和 s...

回答 1 投票 0

linker 找不到共享的 lapack 和 blas,但我正指向它

我正在尝试构建一个 .so 以便在运行时动态链接到 lapack 和 blas。构建时,链接器抱怨找不到 lapack 和 blas,但我正指向它们(我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.