cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

我是CUDA新手,请帮忙 – 性能不佳

我有Linux下的RTX 3050,原生NVidia驱动程序。同样的简单代码在 GPU 2.1GHz 上的执行速度比在 CPU 2.4GHz 上慢 10 倍。可能出了什么问题:驱动程序、编译器标志,或者这是正常的

回答 1 投票 0

张量流错误:cuFFT、cuDNN、cuBLAS 和“断言 '__n < this->size()' 失败”

我刚开始使用 TF 和 Keras,发现我无法在我的计算机上运行它们。我首先在 jupyter 笔记本中注意到这个问题,然后在 python 文件中重新创建它。 要重现的代码...

回答 1 投票 0

ILGPU:RTX 4090 不支持启用算法?

我有一台安装了 CUDA 12.5 的 RTX 4090。显卡驱动程序是最新的。 以下代码位于带有 ILGPU 和 ILGPU.Algorithms NuGet 包的 NET 8.0 C# VS 2022 项目中

回答 1 投票 0

LINK:致命错误LNK1104:无法打开文件“libcpmt.lib”

我正在设置 CUDA 开发环境,但它具有挑战性...... 我安装了 Visual Studio Professional,其中包含 x64 编译器工具、CUDA SDK 和笔记本开发驱动程序,均为 64 位。我也是你...

回答 1 投票 0

矩阵乘法中的扭曲级别减少

我正在尝试在 CUDA 中实现方阵乘法,并使用扭曲级基元优化点积的求和部分。我以前使用了一种幼稚的方法,但现在我正在尝试......

回答 1 投票 0

矩阵乘法中的扭曲级同步

我正在尝试在 CUDA 中实现方阵乘法,并使用扭曲级基元优化点积的求和部分。我以前使用了一种幼稚的方法,但现在我正在尝试......

回答 1 投票 0

nvcc for linux 使用的默认主机编译器

我在 Ubuntu 10.10 上使用 CUDA 4.0 和 GTX 570(计算能力 2.0)以及 GCC 编译器套件。据我了解,在编译期间,CUDA 编译器驱动程序 nvcc 会分割 .cu 文件...

回答 2 投票 0

CUDA中核函数的本地内存存在多久?

#包括 无效 __global__ 测试(int N){ 整数a; a=N+thredIdx.x; printf("%d %d %d %p ",blockIdx.x,threadIdx.x,a,&a); } int main(){ 整数i,N=10; 对于(我...

回答 1 投票 0

8.x 之前版本相当于 CUDA 中的 __reduce_max_sync()

cuda-memcheck 在执行以下操作的代码中检测到竞争条件: condition = /*每个线程不同*/; 共享 int 所有者[nWarps]; /* ...owner[i] 初始化为 blockDim.x+1 *...

回答 2 投票 0

CUDA 错误消息:未指定的启动失败

这是我的 CUDA 代码的一部分。但这段代码的最后一部分显示了一些错误消息。 无符号整数*mat_count; off_t *mat_position; 无符号整型*matches_count; off_t *matches_position; ...... cudaMal...

回答 3 投票 0

流句柄为 NULL 的“cuWhateverAsync”调用普遍等同于“cuWhatever”调用吗?

CUDA 驱动程序 API 有多个带有“异步”变体的调用,例如cuMemcpy2D 和 cuMemcpy2DAsync,“异步”变体采用流句柄 - 并且有...

回答 1 投票 0

使用 nullptr 流的异步调用普遍等同于非异步调用吗?

CUDA 驱动程序 API 有多个异步变体调用,例如cuMemcpy2D 和 cuMemcpy2DAsync,其中异步变体采用流句柄 - 还有更多这样的变体。 是...

回答 1 投票 0

为什么 NSight Compute “缺少”我的程序的内核启动?

我正在使用 NSight Compute 来分析启动一些 CUDA 内核的程序。我确信它们已经启动了;但是当我按下 NSight Compute 中的“播放”按钮时,尽管 ha...

回答 1 投票 0

Nsight Compute 中的指令统计字段是什么意思?它们与经过的周期有什么关系?

在我的例子中,执行指令是什么意思?按照字面意思,就是执行了多少条指令 但它与总使用时间有何关系(74.35ms,

回答 1 投票 0

将数据从CPU传递到GPU,而不显式地将其作为参数传递

是否可以将数据从CPU传递到GPU而不显式地将其作为参数传递? 我不想将它作为参数传递,主要是出于语法糖的原因 - 我有大约 20 个常量

回答 4 投票 0

指定 NVCC 用于编译主机代码的编译器

运行nvcc时,它始终使用Visual C++编译器(cl.exe)。我怎样才能让它使用GCC编译器? 将 CC 环境变量设置为 gcc 并不能解决问题。我也找不到任何选择...

回答 1 投票 0

编译/链接 CUDA 和 CPP 源文件

我正在开发一个使用 C++ 源代码和 CUDA 的示例程序。 这是我的四个源文件中的基本内容。 matrixmul.cu(主要 CUDA 源代码): #包括<...

回答 1 投票 0

使用 nVIDIA 编译器生成共享库供我的 GNU 编译器链接时出现运行时错误

我想使用 nVIDIA 编译器生成一个共享库供我的 GNU 编译器链接。一切都很顺利,直到运行时。以下是详细内容。谢谢! 主要.cpp: #包括 你...

回答 1 投票 0

CublasComputeType_t 如何影响张量核心的输入和输出数据类型?

我对使用 cublasGemmEx API 时 cublasComputeType_t 对计算的影响有点困惑。 例如我的A、B、C矩阵都是float类型。 当 cublasComputeType_t=

回答 1 投票 0

如何更新设备端类上的变量?

我定义了一个数组类,我想将其保存在设备上。我有一个工厂方法来返回该类的设备实例。 类 MyArray{ 私人的: int* data_ = nullptr; 尺寸_t 宽度_ =...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.