cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

CUDA 图形执行时间比原始内核启动循环更长

我有一个循环,使用事件和流启动多个具有相互依赖关系的内核。 这是没有 CUDA 图的原始循环: 对于 (int i= 1; i<= 1024 ; i++) { // origin stream...

回答 1 投票 0

如何使用具有相互依赖的流和动态参数的 CUDA 图?

我有一个具有多个相互依赖的流的 CUDA 程序,我想将其转换为使用 CUDA 图来减少启动开销并提高性能。我的程序涉及启动三个内核(

回答 1 投票 0

特定版本 CUDA 的 PyTorch 问题

背景 我需要在以下 CUDA 服务器上测试这个 AI 模型: https://github.com/sicxu/Deep3DFaceRecon_pytorch $ Nvidia-SMI 2024 年 6 月 18 日星期二 18:28:37 +--------------------------------------------...

回答 1 投票 0

GPU线程占用率和同步停顿有什么关系?

我正在编写一个 CUDA 内核,其内部循环大致如下所示: 对于 (int i = 0; i < NUM_ITERATIONS; i++) { // read global memory, write shared memory __syncthreads(); // read s...

回答 1 投票 0

cudf 非常慢

我有一个大量使用数据帧和大量计算的代码。我想加快处理时间,所以我购买了 Nvidia GPU 并尝试使用 cudf 库来实现它。但性能是一个...

回答 1 投票 0

替换已弃用的 cuDNN 函数 - NVIDIA 官方迁移路径?

我已成功测试了一个小型 C++ 程序,该程序使用 NVIDIA cuDNN API 在 GPU 上运行代码。 cuDNN API 级别为 9.1.1。程序编译、链接并运行正常。 让我困惑的是

回答 1 投票 0

CUDA 的负载事务多于存储事务,即使两者都合并了?

我正在分析 NVIDIA 的矩阵转置示例。从外观和分析器来看,不存在银行冲突。然而,我注意到的一件事是每个请求的全局加载事务......

回答 1 投票 0

共享内存在矩阵乘法示例中的放置

我从下面的CUDA中矩阵乘法的经典示例实现中学到了知识。 CUDA 中的每个内核函数调用都绑定到 GPGPU 设备中的 1 个线程。 (显然这些调用可以是

回答 1 投票 0

CUDA (Libtorch) 和 OpenGL 互操作的奇怪行为

我正在尝试编写函数将 OpenGL 纹理转换为 PyTorch 张量并在 C++ 应用程序中转换回来。为了测试它是否有效,我向张量添加了 128 来基本上使图像变亮,然后重新...

回答 1 投票 0

无分支 CUDA 条件选择的收敛障碍

我实现了一个简单的路径跟踪渲染器,并且我一直在通过 ncu-ui 分析我的代码。我发现 CUDA 编译器生成的 SASS 中有一些令人困惑的地方。这是生成

回答 1 投票 0

CUDA:使用网格跨步循环减少共享内存

我有以下关于在 CUDA 内核中共享内存中使用网格跨步循环和优化缩减算法的问题。 想象一下,您有一个包含多个 elem 的一维数组...

回答 1 投票 0

初始化常量全局数组 CUDA C

我有一个问题!我需要在 cuda c 中初始化一个常量全局数组。要初始化数组,我需要使用 for!我需要这样做,因为我必须在某些内核中使用这个数组,而我的教授...

回答 1 投票 0

CUDA 从数组初始化常量?

您好,我有一个 CUDA 程序,它有一个全局变量,该全局变量有一个数组作为输入,其中包含用于运行多个内核的常量。如果我将它们设置在没有数组的全局内部,它将以 640 运行...

回答 1 投票 0

nvrtc 不限制寄存器使用

我正在尝试限制注册的数量以增加我的内核的占用率。我正在使用选项在运行时编译内核 const std::string temp = arch.str(); std::数组 我正在尝试限制注册的数量以增加我的内核的占用率。我正在使用选项在运行时编译内核 const std::string temp = arch.str(); std::array<const char *, 10> options({ temp.c_str(), "--std=c++17", "--relocatable-device-code=false", "--include-path=" CUDA_INCLUDE, "--include-path=" HEADER_DIR, "--extra-device-vectorization", "--device-as-default-execution-space", "--maxrregcount=32", "--ptxas-options", "-dlcm=cg" }); nvrtcCompileProgram(kernel_program, options.size(), options.data()) 当分析内核时,它显示它使用的数量超过了我的限制 32。有什么东西可以覆盖这个吗? nvrtc 仅生成 ptx 中间表示。在加载模块数据之前不会调度寄存器。限制寄存器的正确方法是将 CU_JIT_MAX_REGISTERS 选项传递给 cuModuleLoadDataEx。 std::array<CUjit_option, 1> module_options = { CU_JIT_MAX_REGISTERS }; std::array<void *, 1> module_values = { reinterpret_cast<void *> (32) }; cuModuleLoadDataEx(&module, ptx, 1, module_options.data(), module_values.data());

回答 1 投票 0

cudafe++ 在切换到 c++20 for nvcc 时死亡,状态为 0xc0000409

我收到错误 cudafe++ 死亡,状态为 0xc0000409 当我通过 std 标志将 nvcc 从使用 c++17 切换到 c++20 时。所有的编译和工作都按 17 的预期进行,但此刻我切换到...

回答 1 投票 0

无法获取 CUDA 设备计数,GPU 指标将不可用,docker 中的 Nvidia triton 服务器问题

我正在尝试通过docker运行nvidia推理服务器 我从 docker 获得了 triton 服务器的正确图像 但是当 docker 记录 Sample-tis-22.04 --tail 40 时 它显示了这一点: I0610 15:59:37.597914 1

回答 1 投票 0

在一个 GPU 上运行多个 CUDA 应用程序

CUDA文档没有具体说明多少个CUDA进程可以共享一个GPU。例如,如果我在系统中只安装了一张 GPU 卡的情况下,由同一用户启动多个 CUDA 程序,我会...

回答 4 投票 0

了解CUDA中使用cudaGetSymbolAddress复制嵌套结构

我有一个嵌套的数据结构,存储在主机和设备上。我想将相关的内部字段从主机复制到设备。假设我已经正确完成了所有分配。然后,我...

回答 1 投票 0

是否可以直接从USB网络摄像头读取GPU内存

我正在使用 OpenCV 进行 CUDA 来处理来自 USB 网络摄像头的直播。目前我正在做这样的事情: CV::videoCapture cap(0); CV::Mat h_frame; while(cap.read(h_frame)){ 简历::cuda::gpu...

回答 1 投票 0

机器上的多个 CUDA 版本 nvcc -V 混淆

我的机器上曾经安装过cuda-7.0,后来卸载了cuda-7.0并安装了cuda-8.0。当我转到 /usr/local 文件夹时,我看到以下文件夹: /垃圾桶/ /cuda/ /cuda-7.0/ /cuda...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.