CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
我有Linux下的RTX 3050,原生NVidia驱动程序。同样的简单代码在 GPU 2.1GHz 上的执行速度比在 CPU 2.4GHz 上慢 10 倍。可能出了什么问题:驱动程序、编译器标志,或者这是正常的
张量流错误:cuFFT、cuDNN、cuBLAS 和“断言 '__n < this->size()' 失败”
我刚开始使用 TF 和 Keras,发现我无法在我的计算机上运行它们。我首先在 jupyter 笔记本中注意到这个问题,然后在 python 文件中重新创建它。 要重现的代码...
我有一台安装了 CUDA 12.5 的 RTX 4090。显卡驱动程序是最新的。 以下代码位于带有 ILGPU 和 ILGPU.Algorithms NuGet 包的 NET 8.0 C# VS 2022 项目中
LINK:致命错误LNK1104:无法打开文件“libcpmt.lib”
我正在设置 CUDA 开发环境,但它具有挑战性...... 我安装了 Visual Studio Professional,其中包含 x64 编译器工具、CUDA SDK 和笔记本开发驱动程序,均为 64 位。我也是你...
我正在尝试在 CUDA 中实现方阵乘法,并使用扭曲级基元优化点积的求和部分。我以前使用了一种幼稚的方法,但现在我正在尝试......
我在 Ubuntu 10.10 上使用 CUDA 4.0 和 GTX 570(计算能力 2.0)以及 GCC 编译器套件。据我了解,在编译期间,CUDA 编译器驱动程序 nvcc 会分割 .cu 文件...
#包括 无效 __global__ 测试(int N){ 整数a; a=N+thredIdx.x; printf("%d %d %d %p ",blockIdx.x,threadIdx.x,a,&a); } int main(){ 整数i,N=10; 对于(我...
8.x 之前版本相当于 CUDA 中的 __reduce_max_sync()
cuda-memcheck 在执行以下操作的代码中检测到竞争条件: condition = /*每个线程不同*/; 共享 int 所有者[nWarps]; /* ...owner[i] 初始化为 blockDim.x+1 *...
这是我的 CUDA 代码的一部分。但这段代码的最后一部分显示了一些错误消息。 无符号整数*mat_count; off_t *mat_position; 无符号整型*matches_count; off_t *matches_position; ...... cudaMal...
流句柄为 NULL 的“cuWhateverAsync”调用普遍等同于“cuWhatever”调用吗?
CUDA 驱动程序 API 有多个带有“异步”变体的调用,例如cuMemcpy2D 和 cuMemcpy2DAsync,“异步”变体采用流句柄 - 并且有...
CUDA 驱动程序 API 有多个异步变体调用,例如cuMemcpy2D 和 cuMemcpy2DAsync,其中异步变体采用流句柄 - 还有更多这样的变体。 是...
为什么 NSight Compute “缺少”我的程序的内核启动?
我正在使用 NSight Compute 来分析启动一些 CUDA 内核的程序。我确信它们已经启动了;但是当我按下 NSight Compute 中的“播放”按钮时,尽管 ha...
Nsight Compute 中的指令统计字段是什么意思?它们与经过的周期有什么关系?
在我的例子中,执行指令是什么意思?按照字面意思,就是执行了多少条指令 但它与总使用时间有何关系(74.35ms,
是否可以将数据从CPU传递到GPU而不显式地将其作为参数传递? 我不想将它作为参数传递,主要是出于语法糖的原因 - 我有大约 20 个常量
运行nvcc时,它始终使用Visual C++编译器(cl.exe)。我怎样才能让它使用GCC编译器? 将 CC 环境变量设置为 gcc 并不能解决问题。我也找不到任何选择...
我正在开发一个使用 C++ 源代码和 CUDA 的示例程序。 这是我的四个源文件中的基本内容。 matrixmul.cu(主要 CUDA 源代码): #包括<...
使用 nVIDIA 编译器生成共享库供我的 GNU 编译器链接时出现运行时错误
我想使用 nVIDIA 编译器生成一个共享库供我的 GNU 编译器链接。一切都很顺利,直到运行时。以下是详细内容。谢谢! 主要.cpp: #包括 你...
CublasComputeType_t 如何影响张量核心的输入和输出数据类型?
我对使用 cublasGemmEx API 时 cublasComputeType_t 对计算的影响有点困惑。 例如我的A、B、C矩阵都是float类型。 当 cublasComputeType_t=
我定义了一个数组类,我想将其保存在设备上。我有一个工厂方法来返回该类的设备实例。 类 MyArray{ 私人的: int* data_ = nullptr; 尺寸_t 宽度_ =...