CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
问题: 我们正在编写 Cuda 代码,它也应该可以由非 cuda 编译器编译(我们使用:nvcc、gcc 和 clang。) 由于 Cuda 需要这些 __host__ __device__ 注释,我们解决了......
为什么 CUDA 函数 cudaLaunchKernel 将函数指针传递给主机代码函数?
我使用以下命令编译axpy.cu。 nvcc --cuda axpy.cu -o axpy.cu.cpp.ii 在 axpy.cu.cpp.ii 中,我观察到嵌套在 __device_stub__Z4axpyfPfS_ 中的函数 cudaLaunchKernel 接受
仅使用内核的符号名称作为字符串即可获取cuda内核的设备端函数指针(没有签名)
对于帖子中提到的代码,它是nvcc编译器注入的__nv_cudaEntityRegisterCallback函数,该函数注册主机端内核的名称/符号((void (*)(double*, double*,
假设我们有一个调用一些函数的内核,例如: __device__ int fib(int n) { 如果(n == 0 || n == 1){ 返回n; } 别的 { int x = fib(n-1); 整数 y = ...
Emgu.CV.Cuda 问题:即使我安装了 CUDA Toolkit,CudaInvoke.HasCuda 始终返回 false
我的 GPU 是 RTX 1650,我使用的是 Windows 11。根据 Geforce Experience,我的驱动程序是最新的。 我安装了Cuda Toolkit并将其添加到系统变量中 证明cuda已安装
转储/检查与任意(但不是无效)地址对应的 NVIDIA GPU 全局内存内容
我想知道如何检查或转储与某个任意地址相对应但不是无效的NVIDIA GPU全局内存内容(不一定是CUDA内存管理返回的内容...
带有 cuda 代码的节点插件模块给出运行时链接错误(使用 docker 容器)
我正在尝试用cuda代码编写一个node-addon-api模块。 我正在使用 docker 容器: 来自 nvidia/cuda:12.5.0-devel-ubuntu22.04 首先编译cuda文件制作静态库: NVCC--
使用支持 CUDA 的 Clang 编译器编译 C++ 项目时出现问题
我正在尝试在 Windows 上构建一个名为 VORTEX 的开源项目。我使用CLANG 作为编译器。但是,当我运行 CMake 命令时,似乎未检测到 NVCC 编译器。 C...
如何以 constexpr 方式将整数转换为 CUDA 的 __half FP16 类型?
我是空中客车的开发人员,我面临着半精度算术的困难。 在库中的某个时刻,我需要在 constexpr 中将 IntType 转换为相关的 FloatType(相同的位数)
我有一个设备函数抛出 Invalid __global__ write of size 4 bytes,我花了几个小时调试但无济于事。 有问题的函数看起来像这样(有不相关的 b...
我是空中客车的开发人员,我面临着半精度算术的困难。 在库中的某个时刻,我需要在 constexpr 中将 IntType 转换为相关的 FloatType(相同的位数)
Cuda nvJitLink 错误,因为 fatbin 不包含正确的函数
嗨,我正在尝试编译我的应用程序,其中 fatbin 标志处于活动状态: set_property(目标离线属性 CUDA_FATBIN_COMPILATION ON) 错误代码是: 错误:未定义对“_Z7compute”的引用...
我有一个 16 倍粗化的内核(1x16 平铺)。为了减少 STG(存储全局)指令,在我的例子中,我通过 uchar4 实现了向量化内存访问。当我查看内存时...
我正在我的 C++ 路径跟踪器中实现 Optix 去噪。然后,我需要在调用 Optix 内核之前创建一个 Cuda 上下文。每次我生成渲染线程时都应该创建该上下文......
我的 CUDA 程序在执行期间崩溃,然后内存被刷新。结果,设备内存仍然被占用。 我在 GTX 580 上运行,不支持 nvidia-smi --gpu-reset。 普拉...
如何执行 CMake 自定义命令以及所有依赖库的所有包含目录的路径?
我正在尝试构建一个 CMake 函数,该函数使用所有依赖库的包含路径构建 cuda fatbins 文件。创建这些库只是为了作为接口方便使用。 问题是……
传递给内核时,cv::cuda::GpuMat 如何变成 cv::cuda::PtrStepSz?
我喜欢如何将 GpuMat 作为 PtrStepSz 传递到内核中。我想模拟我自己的自定义容器中的行为,但我不明白实际发生了什么。如何访问 GpuMat
我正在尝试在 CUDA 中使用 FFT 进行图像上采样。我首先对图像进行前向 FFT,然后用 0 填充结果,如下所示: 对于变换后的图像: 1 2 3 4 将其填充为: 1 0 0 2 0 0 0 0 0 0...
具有多个 GPU 的 Cuda:主机和设备报告不同的设备编号
我尝试在 HPC 集群上利用多个 GPU 进行模拟,但在测试过程中,我发现它似乎在单个 GPU 上运行(内核中的设备为“0”),尽管主机报告
我的 cuSparse 程序工作正常,但修改后出现了一堆错误: /tmp/tmpxft_000014cd_00000000-14_Sample2.0.o:在函数“main”中: tmpxft_000014cd_00000000-3_Sample2.0.cud...