cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

(Windows) 未找到 CUDA 运行时，使用 CUDA_HOME='C:\Program Files\NVIDIA GPUComputing Toolkit\CUDA 11.8'

我正在尝试使用 conda 设置高斯泼溅，但是在安装子模块 - diff-gaussian-rasterization 和 simple-knn 时，它报告错误“没有 CUDA 运行时...

pytorch cuda runtime nvidia system-variable

回答 1 投票 0

Cygwin 中 Make 失败

安装 Cygwin 后，我进入了要编译的目录并点击“make”。这是我得到的错误： nvcc：致命错误：不支持的主机编译器“x86_amd64” 我现在能做什么？

cuda cygwin x86-64 nvcc

回答 1 投票 0

为什么这个共享库没有被链接？

我正在尝试使用 GPUocelot 在 X86 cpu 上生成 GPGPU 基准测试的痕迹。因此，我使用 -locelot 和 -locelotTrace 链接器标志编译基准测试。我的基准编译并

compilation cuda linker shared-libraries nvcc

回答 1 投票 0

如何阻止nvcc重新排序时钟指令？

在以下代码片段中，nvcc (CUDA 12.5)“有帮助”地重新排序了时钟语句。这会导致时序偏差 26 倍。 #包括 #包括 __device__ int

c++ cuda volatile nvcc

回答 1 投票 0

cuArray 上双精度的纹理对象

我对这个问题也有类似的需求。唯一的区别是，我需要在 cuArray 上执行此操作（因为我想使用 cudaAddressModeWrap），而不是普通的设备存储。所以，我尝试了这个： $ ...

cuda textures

回答 1 投票 0

模块“torch”没有属性“cuba”

我已经在本地环境安装了软件包： pip3 安装 torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 根据 https://pytor 的建议...

python pytorch cuda

回答 1 投票 0

是否有可能克服thrust::zip_iterator中迭代器的最大数量？

我在工作中使用 Thrust 来完成一些任务，并发现在构造 zip_iterator 时似乎存在最大数量的迭代器。例如 #包括我在工作中使用 Thrust 来完成一些任务，并发现在构建 zip_iterator 时似乎存在最大数量的迭代器。例如 #include <thrust/iterator/zip_iterator.h> #include <thrust/device_vector.h> int main() { thrust::device_vector<int> A(10),B(10),C(10); auto zitor = thrust::make_zip_iterator(A.begin(),A.begin(), B.begin(),B.begin(), B.begin(),B.begin(), B.begin(),B.begin(), C.begin(),C.begin()); } 这段代码编译成功。但是如果我在函数参数中再添加一个迭代器，就会出现错误： multizip.cu(8): error: no instance of overloaded function "thrust::make_zip_iterator" matches the argument list argument types are: (thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>) 1 error detected in the compilation of "multizip.cu". 它最多接受十个迭代器，还是我误解了什么？如果是这样，有什么解决办法吗？ using Itor = thrust::device_vector<int>::iterator; using Zitor = thrust::zip_iterator<thrust::tuple< Itor,Itor,Itor,Itor,Itor,Itor, Itor,Itor,Itor,Itor,Itor>>; 这段代码也不起作用，除非我删除一个Itor，错误信息是： multizip.cu(17): error: too many arguments for class template "thrust::tuple" 所以我相信thrust::tuple中的迭代器数量确实有最大限制为10。可以克服这个限制吗？您遇到的最接近的问题是，直到最近，Thrust 的模板限制为 thrust::zip_iterator 中的 10 个项目（迭代器）。修复/解决该问题有以下三种选项：最近（似乎从 CUDA 12.3 到 CUDA 12.4），Thrust zip_iterator 设计已更改，允许超过 10 个迭代器构建 zip_iterator。因此，一种选择是将您的 CUDA 工具包版本更新到 12.4.1 或更高版本。另一个相关选项是将更新版本的 CCCL* 与您当前的 CUDA 工具包结合使用。 CCCL 的最新版本为此提供了“定义的兼容性路径”。我不会在这里给出完整的秘诀，但简而言之，假设您位于定义的兼容性路径内，您将克隆计算机上当前的 CCCL 存储库，然后使用 -I* 将您的 CUDA 编译器指向该存储库*。 Thrust 是一个仅包含模板/标头的库，因此不需要单独的编译步骤或任何其他安装步骤。根据您的需求，保持在旧 Thrust 版本的 10 个迭代器限制之内，您可以创建 zip_iterator 的 zip_iterators。这里就是一个例子。这可用于获得超过 10 个迭代器，尽管是嵌套排列。 *：CUDA C++ Core L库于 2023 年引入，由于它们的交互/重叠，将 Thrust、CUB 和 libcu++/libcudacxx 包含在单个存储库中。原始的 Thrust 存储库停止更新，并且不包含现代化的 zip_iterator。**：请勿使用 -isystem，因为这会获得比 CUDA 工具包打包的 CCCL 标头更低的优先级。

c++ cuda gpu thrust

回答 1 投票 0

CUB::DeviceSelect也可以返回未选中的部分吗

我想使用 CUB::DeviceSelect 返回数组的选定部分和未选定部分。我唯一的解决方法是使用相反的 SelectOp 再次调用 CUB::DeviceSelect，但我不知道...

c++ cuda cub

回答 1 投票 0

如何通过Nsight Compute查看我的张量核心占用率和利用率？

在我的cuda程序中，我使用了许多张量核心运算，例如m8n8k4，甚至使用cusparseSpMV。然而，当检查ncu报告时，它显示如下：我的程序中没有活动张量。

cuda tensor nsight nsight-compute

回答 1 投票 0

是否有可能克服 `thrust::zip_iterator` 中迭代器的最大数量？

我在工作中使用 Thrust 来完成一些任务，并发现在构造 zip_iterator 时似乎存在最大数量的迭代器。例如 #包括我在工作中使用 Thrust 来完成一些任务，并发现在构造 zip_iterator 时似乎存在最大数量的迭代器。例如 #include <thrust/iterator/zip_iterator.h> #include <thrust/device_vector.h> int main() { thrust::device_vector<int> A(10),B(10),C(10); auto zitor = thrust::make_zip_iterator(A.begin(),A.begin(), B.begin(),B.begin(), B.begin(),B.begin(), B.begin(),B.begin(), C.begin(),C.begin()); } 这段代码编译成功。但是如果我在初始化列表中再添加一个迭代器，就会出现错误： multizip.cu(8): error: no instance of overloaded function "thrust::make_zip_iterator" matches the argument list argument types are: (thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>, thrust::detail::normal_iterator<thrust::device_ptr<int>>) 1 error detected in the compilation of "multizip.cu". 它最多接受十个迭代器，还是我误解了什么？如果是这样，有什么解决方法吗？ using Itor = thrust::device_vector<int>::iterator; using Zitor = thrust::zip_iterator<thrust::tuple< Itor,Itor,Itor,Itor,Itor,Itor, Itor,Itor,Itor,Itor,Itor>>; 这段代码也不起作用，除非我删除一个Itor，错误信息是： multizip.cu(17): error: too many arguments for class template "thrust::tuple" 所以我相信thrust::tuple中的迭代器数量确实有最大限制为10。我可以克服这个限制吗？迭代器的数量在编译时由模板类型决定。这就是您收到最后一个错误的原因。我认为编译器对您创建的迭代器数量存在问题。这称为重载函数（因此第一个错误说“没有重载函数的实例”）。我可能建议您首先尝试使用两个函数，将迭代器创建分成两个独特的函数，看看这是否是问题所在。请参阅此处：https://forums.developer.nvidia.com/t/thrust-zip-iterator-with-任意-number-of-iterators/292942。 https://forums.developer.nvidia.com/t/combining-thrust-zip-iterator-transform-iterator-counting-iterator-for-modified-summed-area-table/56154.

c++ cuda gpu thrust

回答 1 投票 0

CUDA 版本 X 抱怨不支持 gcc 版本 Y - 该怎么办？

问题是关于版本的特定组合，但具有更普遍的相关性。我刚刚从 Kubuntu 12.04 升级到 14.04。现在，当我想编译 CUDA 代码（使用 CUDA 6.5）时，...

gcc cuda compatibility

回答 4 投票 0

如何评估GPU显存带宽

我想评估我的 GPU 的内存带宽。我编写了一个片段，将 int8_t 数组复制到另一个数组并测量时间。我设置了一个 64 个线程的块和一个 (/<...

cuda benchmarking evaluation bandwidth

回答 1 投票 0

简单多边形的二维凸包的并行凸包算法

我有一个简单多边形列表（假设有 600 个）（即没有自相交），至少有 4 个点，最多有 3000 个点我想在 GPU 上计算所有这些多边形的凸包。梅克...