cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

CUDA的thrust::inclusive_scan()有'init'参数吗？

根据CUDA的Thrust库文档，thrust::inclusive_scan()有4个参数： OutputIterator推力::inclusive_scan（首先是InputIterator，

cuda gpgpu thrust

回答 2 投票 0

在 GPU 上使用 JAX 进行批量矩阵乘法，矩阵越大，速度更快

我尝试在 GPU 上使用 JAX 执行批量矩阵乘法，并注意到乘以形状 (1000, 1000, 3, 35) @ (1000, 1000, 35, 1) 的速度比实际快 3 倍乘以 (1000, 100...

python numpy cuda jax cupy

回答 1 投票 0

如何避免在CUDA中隐式使用本地内存？

我正在开发 CUDA 软件路径跟踪渲染器，现在我陷入了 L1TEX 本地加载/存储访问模式次优的问题。 NCU 告诉我瓶颈在以下...

cuda

回答 1 投票 0

将 MSVC 与 Ninja 结合使用时，无法使用 CUDA 配置 CMake

环境：带有 CUDA 11.3 的 VS2019 尝试使用 Ninja 生成器进行编译（VS 生成器工作正常）。相关 CMake 文件部分： cmake_minimum_required（版本3.28） ######################...

visual-c++ cmake cuda ninja

回答 1 投票 0

CUDA程序将两个整数相加不起作用

这是 Jason Sanders 和 Edward Kandrot 所著《CUDA By Examples》一书中的示例程序“simple_kernel_params.cu”。 #包括静态无效 HandleError(cudaError_t err, ...

cuda nvidia

回答 1 投票 0

CUDA：如何使用barrier.sync

我已阅读并行线程执行ISA：并行同步和通信指令：bar，barrier，其中详细介绍了PTX同步功能。上面写着有16个“屏障原木...

cuda synchronization inline-assembly barrier ptx

回答 2 投票 0

CUDA：仅在设备模拟模式下出现链接错误

我正在编译一个 dll，除非我使用 -deviceemu 模式，否则它运行得很好。在这种情况下，我收到以下几个链接错误： CUDAKernel_ColourHist.obj：错误 LNK2019：未解决

visual-studio dll cuda linker

回答 1 投票 0

为什么 OpenCV 在 NVCC 中无法编译？

我正在尝试将CUDA和openCV集成到一个项目中。问题是当使用 NVCC 时 openCV 无法编译，而普通的 c++ 项目可以编译得很好。这对我来说似乎很奇怪，因为我认为 NVCC pa...

c++ visual-studio opencv cuda

回答 0 投票 0

使用float类型计算时如何提高精度？

我遇到了问题。代码如下：浮动 a = 2.f; 浮点t = 0.0000025f；浮动 b = a + t; 浮点数 c = b - a； printf("b = %.8f ”，b)； printf("c = %.8f ”，c)；

cuda precision optix

回答 1 投票 0

CUDA 图 cudaKernelNodeParams kernelParams

我想在我的CUDA项目中使用CUDA Graph，但是网上没有很多完整的例子。于是，我直接参考官方API来实现，但是一直遇到分段错误。

c++ cuda cuda-graphs

回答 1 投票 0

具有动态分配共享内存的原始内核

考虑以下通过 CuPy 文档中的 CuPy 在 Python 中使用的 CUDA 内核 add_kernel = cp.RawKernel(r''' 外部“C”__global__ void my_add(const float* x1, const float* x2, fl...

cuda cupy gpu-shared-memory

回答 1 投票 0

如何正确使用__shfl_up_sync在少数通道之间进行数据传输

假设我需要将一些值从29泳道洗牌到30泳道，也从30泳道洗牌到31泳道；我应该使用什么面膜？当然，掩模应该覆盖车道 30、31 和 29（cuda 指南说源车道也需要......

cuda

回答 1 投票 0

不同数据类型的 CUDA 共享内存

我想编写一个 CUDA 内核，它使用以下形式的两个不同（动态）共享内存数组 __global__ myKernel() { extern __shared__ int localSum1[]; 外部 __sh...

cuda gpu-shared-memory

回答 1 投票 0

当编译器未提供 uint8_t 时，什么是更好的替代方案？

我正在使用 nvcc 编译 CUDA 内核。不幸的是，nvcc 似乎不支持 uint8_t，尽管它确实支持 int8_t（！）。为了可移植性、可读性，我宁愿不使用 unsigned char...

types cuda nvcc

回答 4 投票 0

如何将 GPUDirect RDMA 与 Infiniband 结合使用

我有两台机器。每台机器上都有多张 Tesla 卡。每台机器上还有一张 InfiniBand 卡。我想通过InfiniBa在不同机器上的GPU卡之间进行通信...

cuda openmpi infiniband gpudirect

回答 1 投票 0

Makefile 变量替换有时会被忽略

编译一个支持 CUDA 的 Aircrack-ng 版本，该版本已经有一段时间没有修复错误了，所以需要一些修补才能完成大部分工作。基本上make找不到相关的编译...

makefile cuda

回答 2 投票 0

在 WSL 中启用 NVIDIA GPU

我正在尝试让我的 GPU 在我的 WSL 环境和我的 Docker 容器中可用。我已遵循 Microsoft/NVIDIA 指南，但似乎不起作用。没有明显的错误，但是......

docker cuda windows-subsystem-for-linux ollama

回答 1 投票 0

具有动态分配共享内存的Cupy

考虑通过此链接中的 CUPY 在 python 中使用的以下 CUDA 内核 add_kernel = cp.RawKernel(r''' 外部“C”__global__ void my_add(const float* x1, const float* x2, float*...

cuda shared-memory cupy

回答 1 投票 0

Numba cuda.jit 和 njit 给出不同的结果

在下面的例子中，我有一个简单的CPU函数：将 numpy 导入为 np 从 numba 导入 njit、cuda @njit def cpu_func(a, b, c, d): 对于范围内的 i(len(a))：对于 l 在范围内(d[i], 0, ...

python numpy cuda precision numba

回答 1 投票 0

使用或不使用选项 -g -G 编译 CUDA 程序有什么区别

我有一个 CUDA 程序。如果我使用 -g -G 选项编译该程序，我可以获得正确的输出。如果我在没有 -g -G 选项的情况下编译它，我并不总是得到正确的输出。我的猜测是没有...

cuda

回答 1 投票 0

cuda 相关问题

最新问题