cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

CUDA 图形执行时间比原始内核启动循环更长

我有一个循环，使用事件和流启动多个具有相互依赖关系的内核。这是没有 CUDA 图的原始循环：对于 (int i= 1; i<= 1024 ; i++) { // origin stream...

cuda cuda-streams cuda-graphs

回答 1 投票 0

如何使用具有相互依赖的流和动态参数的 CUDA 图？

我有一个具有多个相互依赖的流的 CUDA 程序，我想将其转换为使用 CUDA 图来减少启动开销并提高性能。我的程序涉及启动三个内核（

cuda cuda-streams cuda-graphs

回答 1 投票 0

特定版本 CUDA 的 PyTorch 问题

背景我需要在以下 CUDA 服务器上测试这个 AI 模型： https://github.com/sicxu/Deep3DFaceRecon_pytorch $ Nvidia-SMI 2024 年 6 月 18 日星期二 18:28:37 +--------------------------------------------...

python pytorch build cuda

回答 1 投票 0

GPU线程占用率和同步停顿有什么关系？

我正在编写一个 CUDA 内核，其内部循环大致如下所示：对于 (int i = 0; i < NUM_ITERATIONS; i++) { // read global memory, write shared memory __syncthreads(); // read s...

cuda nvidia

回答 1 投票 0

cudf 非常慢

我有一个大量使用数据帧和大量计算的代码。我想加快处理时间，所以我购买了 Nvidia GPU 并尝试使用 cudf 库来实现它。但性能是一个...

python dataframe cuda gpu cudf

回答 1 投票 0

替换已弃用的 cuDNN 函数 - NVIDIA 官方迁移路径？

我已成功测试了一个小型 C++ 程序，该程序使用 NVIDIA cuDNN API 在 GPU 上运行代码。 cuDNN API 级别为 9.1.1。程序编译、链接并运行正常。让我困惑的是

cuda cudnn

回答 1 投票 0

CUDA 的负载事务多于存储事务，即使两者都合并了？

我正在分析 NVIDIA 的矩阵转置示例。从外观和分析器来看，不存在银行冲突。然而，我注意到的一件事是每个请求的全局加载事务......

memory cuda profiling transpose nvprof

回答 1 投票 0

共享内存在矩阵乘法示例中的放置

我从下面的CUDA中矩阵乘法的经典示例实现中学到了知识。 CUDA 中的每个内核函数调用都绑定到 GPGPU 设备中的 1 个线程。（显然这些调用可以是

cuda

回答 1 投票 0

CUDA (Libtorch) 和 OpenGL 互操作的奇怪行为

我正在尝试编写函数将 OpenGL 纹理转换为 PyTorch 张量并在 C++ 应用程序中转换回来。为了测试它是否有效，我向张量添加了 128 来基本上使图像变亮，然后重新...

c++ opengl cuda libtorch

回答 1 投票 0

无分支 CUDA 条件选择的收敛障碍

我实现了一个简单的路径跟踪渲染器，并且我一直在通过 ncu-ui 分析我的代码。我发现 CUDA 编译器生成的 SASS 中有一些令人困惑的地方。这是生成

cuda ptx

回答 1 投票 0

CUDA：使用网格跨步循环减少共享内存

我有以下关于在 CUDA 内核中共享内存中使用网格跨步循环和优化缩减算法的问题。想象一下，您有一个包含多个 elem 的一维数组...

c cuda reduce gpu-shared-memory

回答 1 投票 0

初始化常量全局数组 CUDA C

我有一个问题！我需要在 cuda c 中初始化一个常量全局数组。要初始化数组，我需要使用 for!我需要这样做，因为我必须在某些内核中使用这个数组，而我的教授...

cuda gpu-constant-memory

回答 1 投票 0

CUDA 从数组初始化常量？

您好，我有一个 CUDA 程序，它有一个全局变量，该全局变量有一个数组作为输入，其中包含用于运行多个内核的常量。如果我将它们设置在没有数组的全局内部，它将以 640 运行...

c++ cuda

回答 1 投票 0

nvrtc 不限制寄存器使用

我正在尝试限制注册的数量以增加我的内核的占用率。我正在使用选项在运行时编译内核 const std::string temp = arch.str(); std::数组我正在尝试限制注册的数量以增加我的内核的占用率。我正在使用选项在运行时编译内核 const std::string temp = arch.str(); std::array<const char *, 10> options({ temp.c_str(), "--std=c++17", "--relocatable-device-code=false", "--include-path=" CUDA_INCLUDE, "--include-path=" HEADER_DIR, "--extra-device-vectorization", "--device-as-default-execution-space", "--maxrregcount=32", "--ptxas-options", "-dlcm=cg" }); nvrtcCompileProgram(kernel_program, options.size(), options.data()) 当分析内核时，它显示它使用的数量超过了我的限制 32。有什么东西可以覆盖这个吗？ nvrtc 仅生成 ptx 中间表示。在加载模块数据之前不会调度寄存器。限制寄存器的正确方法是将 CU_JIT_MAX_REGISTERS 选项传递给 cuModuleLoadDataEx。 std::array<CUjit_option, 1> module_options = { CU_JIT_MAX_REGISTERS }; std::array<void *, 1> module_values = { reinterpret_cast<void *> (32) }; cuModuleLoadDataEx(&module, ptx, 1, module_options.data(), module_values.data());

cuda

回答 1 投票 0

cudafe++ 在切换到 c++20 for nvcc 时死亡，状态为 0xc0000409

我收到错误 cudafe++ 死亡，状态为 0xc0000409 当我通过 std 标志将 nvcc 从使用 c++17 切换到 c++20 时。所有的编译和工作都按 17 的预期进行，但此刻我切换到...

c++ cuda c++20 nvcc

回答 1 投票 0

无法获取 CUDA 设备计数，GPU 指标将不可用，docker 中的 Nvidia triton 服务器问题

我正在尝试通过docker运行nvidia推理服务器我从 docker 获得了 triton 服务器的正确图像但是当 docker 记录 Sample-tis-22.04 --tail 40 时它显示了这一点： I0610 15:59:37.597914 1

docker cuda nvidia tritonserver triton

回答 1 投票 0

在一个 GPU 上运行多个 CUDA 应用程序

CUDA文档没有具体说明多少个CUDA进程可以共享一个GPU。例如，如果我在系统中只安装了一张 GPU 卡的情况下，由同一用户启动多个 CUDA 程序，我会...

cuda gpu gpgpu nvidia

回答 4 投票 0

了解CUDA中使用cudaGetSymbolAddress复制嵌套结构

我有一个嵌套的数据结构，存储在主机和设备上。我想将相关的内部字段从主机复制到设备。假设我已经正确完成了所有分配。然后，我...

cuda gpu

回答 1 投票 0

是否可以直接从USB网络摄像头读取GPU内存

我正在使用 OpenCV 进行 CUDA 来处理来自 USB 网络摄像头的直播。目前我正在做这样的事情： CV::videoCapture cap(0); CV::Mat h_frame; while(cap.read(h_frame)){ 简历::cuda::gpu...

c++ opencv cuda

回答 1 投票 0

机器上的多个 CUDA 版本 nvcc -V 混淆

我的机器上曾经安装过cuda-7.0，后来卸载了cuda-7.0并安装了cuda-8.0。当我转到 /usr/local 文件夹时，我看到以下文件夹： /垃圾桶/ /cuda/ /cuda-7.0/ /cuda...

cuda

回答 3 投票 0

cuda 相关问题

最新问题