CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
带有 CUDA 的 Docker 容器看不到我的 GPU | WSL2 / Ubuntu / Win10 | nvcc 和 nvidia-smi 工作
由于某种原因,任何带有 CUDA 的 docker 容器都看不到我的 GPU。 当我运行这个时: docker run --gpus=all --rm nvcr.io/nvidia/k8s/cuda-sample:nbody nbody -gpu -benchmark 我有这个输出: ... 呃...
我刚刚注意到(CUDA内核)内存访问完全有可能不被缓存(例如参见这里的这个答案)。 这可以吗... 对于单个内核? 在运行时而不是...
WSL2 上的 cudaMemPrefetchAsync 定位出现 CUDA 错误 101
我正在使用 CUDA 12.1 在 WSL 上运行这些片段。 snip1 返回 CUDA 错误 101:无效的设备序号,而 snip2 运行时没有任何问题。 这些片段之间的区别只是积极的......
当从 ptx 文件编译内核时,我无法链接我的 Cuda 程序。 主.cu: 外部的 __global__ void 内核(int, float*); int main() { ... 内核<<<...>>>(...); ......
如何在陷阱指令后使用驱动程序 API 将 CUDA 错误重置为成功?
我有一个内核,它可能会在内核内部调用 asm("trap;") 。但当发生这种情况时,CUDA 错误代码将设置为启动失败,并且我无法重置它。 在 CUDA Runtime API 中,我们可以使用 cudaGetLastEr...
将`cudaMalloc`和`cudaMemcpy`分开在不同的函数中?
我正在使用 cuda 来加速我的代码,其中我循环处理每个图像。每个图像都通过 cuda 在 GPU 上进行处理。 我参考cuda-samples编写了以下代码: 文件名:my_cuda.cu #
默认情况下,内核将使用设备的所有可用 SM(如果有足够的块)。然而,现在我有 2 个流,其中一个是计算密集型的,一个是内存密集型的,我想限制最大值...
我正在做关于GNN方法聚类的独立研究。这是该论文的 github 链接。我想使用 GPU 运行 jupyter 笔记本中的所有 .ipynb 文件。我使用 Main.ipynb 作为示例。我的电脑...
我有一个关于 NVIDIA GPU 性能的问题。我有一个在两个数组之间进行插值的实现。使用放置到线性内存的纹理比使用 CUDA 阵列更快......
我正在尝试处理一个非常大的 csv 文件。 csv 文件 (companies.csv) 包含公司列表,其中包含邮政编码列和其他一些列。我有包含
为什么compute-sanitizer没有像我问的那样报告线路信息?
我有一个为 RTX2060 编写的 CUDA C/C++ 应用程序,我现在正在调试它。我采取的第一步是使用compute-sanitizer运行可执行文件,并发现有一些...
CUDA 与 Visual Studio 2022 版本 17.10 的兼容性
我刚刚将 Visual Studio 2022 升级到最新版本 17.10,发现我使用 CUDA v12.0 的程序无法编译,因为 NVIDIA GPUComputing Toolkit\CUDA 12.0\incl...
任何人都可以帮助我,如何使用 CUDA c++ 将向量(1*N)和矩阵(N*M)相乘并将结果存储在新向量(1*M)上。
在 win 11 上通过 `cuda-toolkit` 安装 CUDA 时出现问题 - 找不到 VS C++ 工具?
在 Windows 11 上并使用 mamba/mininforge,我使用 mamba install cuda-toolkit==12.1* 将 CUDA 安装到 Python 3.9 环境 - 通道是 conda-forge。激活环境时,我得到一个小圆面包...
nvcc 编译器在定期调用时不会产生任何输出。 使用 --version 给我: nvcc:NVIDIA (R) Cuda 编译器驱动程序 版权所有 (c) 2005-2024 NVIDIA 公司 建成...
在 WSL2 和 Windows 10 上单独安装 CUDA 工具包安全吗?
我已按照 Windows 站点的指定说明在 WSL2 Ubuntu 上安装了 Nvidia CUDA 工具包。我想知道直接在 Windows 10 上安装 Nvidia 工具包是否会...
我读过有关合并内存访问(在 CUDA 中,什么是内存合并,它是如何实现的?)及其性能重要性。但是我不知道当非合并时典型的 GPU 会做什么
假设我有一些看起来像这样的 PTX: st.global.v4.b32 ... 酒吧同步 我知道 bar.sync 将阻止执行,直到 st.global.v4.b32 对块中的所有线程可见。我的问题...