cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

CUDA的thrust::inclusive_scan()有'init'参数吗?

根据CUDA的Thrust库文档,thrust::inclusive_scan()有4个参数: OutputIterator推力::inclusive_scan(首先是InputIterator,

回答 2 投票 0

在 GPU 上使用 JAX 进行批量矩阵乘法,矩阵越大,速度更快

我尝试在 GPU 上使用 JAX 执行批量矩阵乘法,并注意到乘以形状 (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) 的速度比实际快 3 倍乘以 (1000, 100...

回答 1 投票 0

如何避免在CUDA中隐式使用本地内存?

我正在开发 CUDA 软件路径跟踪渲染器,现在我陷入了 L1TEX 本地加载/存储访问模式次优的问题。 NCU 告诉我瓶颈在以下...

回答 1 投票 0

将 MSVC 与 Ninja 结合使用时,无法使用 CUDA 配置 CMake

环境: 带有 CUDA 11.3 的 VS2019 尝试使用 Ninja 生成器进行编译(VS 生成器工作正常)。 相关 CMake 文件部分: cmake_minimum_required(版本3.28) ######################...

回答 1 投票 0

CUDA程序将两个整数相加不起作用

这是 Jason Sanders 和 Edward Kandrot 所著《CUDA By Examples》一书中的示例程序“simple_kernel_params.cu”。 #包括 静态无效 HandleError(cudaError_t err, ...

回答 1 投票 0

CUDA:如何使用barrier.sync

我已阅读并行线程执行ISA:并行同步和通信指令:bar,barrier,其中详细介绍了PTX同步功能。 上面写着有16个“屏障原木...

回答 2 投票 0

CUDA:仅在设备模拟模式下出现链接错误

我正在编译一个 dll,除非我使用 -deviceemu 模式,否则它运行得很好。 在这种情况下,我收到以下几个链接错误: CUDAKernel_ColourHist.obj:错误 LNK2019:未解决

回答 1 投票 0

为什么 OpenCV 在 NVCC 中无法编译?

我正在尝试将CUDA和openCV集成到一个项目中。 问题是当使用 NVCC 时 openCV 无法编译,而普通的 c++ 项目可以编译得很好。 这对我来说似乎很奇怪,因为我认为 NVCC pa...

回答 0 投票 0

使用float类型计算时如何提高精度?

我遇到了问题。代码如下: 浮动 a = 2.f; 浮点t = 0.0000025f; 浮动 b = a + t; 浮点数 c = b - a; printf("b = %.8f ”,b); printf("c = %.8f ”,c);

回答 1 投票 0

CUDA 图 cudaKernelNodeParams kernelParams

我想在我的CUDA项目中使用CUDA Graph,但是网上没有很多完整的例子。于是,我直接参考官方API来实现,但是一直遇到分段错误。

回答 1 投票 0

具有动态分配共享内存的原始内核

考虑以下通过 CuPy 文档中的 CuPy 在 Python 中使用的 CUDA 内核 add_kernel = cp.RawKernel(r''' 外部“C”__global__ void my_add(const float* x1, const float* x2, fl...

回答 1 投票 0

如何正确使用__shfl_up_sync在少数通道之间进行数据传输

假设我需要将一些值从29泳道洗牌到30泳道,也从30泳道洗牌到31泳道;我应该使用什么面膜? 当然,掩模应该覆盖车道 30、31 和 29(cuda 指南说源车道也需要......

回答 1 投票 0

不同数据类型的 CUDA 共享内存

我想编写一个 CUDA 内核,它使用以下形式的两个不同(动态)共享内存数组 __global__ myKernel() { extern __shared__ int localSum1[]; 外部 __sh...

回答 1 投票 0

当编译器未提供 uint8_t 时,什么是更好的替代方案?

我正在使用 nvcc 编译 CUDA 内核。不幸的是,nvcc 似乎不支持 uint8_t,尽管它确实支持 int8_t(!)。为了可移植性、可读性,我宁愿不使用 unsigned char...

回答 4 投票 0

如何将 GPUDirect RDMA 与 Infiniband 结合使用

我有两台机器。每台机器上都有多张 Tesla 卡。每台机器上还有一张 InfiniBand 卡。我想通过InfiniBa在不同机器上的GPU卡之间进行通信...

回答 1 投票 0

Makefile 变量替换有时会被忽略

编译一个支持 CUDA 的 Aircrack-ng 版本,该版本已经有一段时间没有修复错误了,所以需要一些修补才能完成大部分工作。 基本上make找不到相关的编译...

回答 2 投票 0

在 WSL 中启用 NVIDIA GPU

我正在尝试让我的 GPU 在我的 WSL 环境和我的 Docker 容器中可用。我已遵循 Microsoft/NVIDIA 指南,但似乎不起作用。没有明显的错误,但是......

回答 1 投票 0

具有动态分配共享内存的Cupy

考虑通过此链接中的 CUPY 在 python 中使用的以下 CUDA 内核 add_kernel = cp.RawKernel(r''' 外部“C”__global__ void my_add(const float* x1, const float* x2, float*...

回答 1 投票 0

Numba cuda.jit 和 njit 给出不同的结果

在下面的例子中,我有一个简单的CPU函数: 将 numpy 导入为 np 从 numba 导入 njit、cuda @njit def cpu_func(a, b, c, d): 对于范围内的 i(len(a)): 对于 l 在范围内(d[i], 0, ...

回答 1 投票 0

使用或不使用选项 -g -G 编译 CUDA 程序有什么区别

我有一个 CUDA 程序。如果我使用 -g -G 选项编译该程序,我可以获得正确的输出。如果我在没有 -g -G 选项的情况下编译它,我并不总是得到正确的输出。我的猜测是没有...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.