cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

CUDA:struct的共享数据成员和该struct的引用成员具有不同的地址,值

接下来是问题:使用CUDA 1.1计算gpu,我试图维护一组(每个线程可能不同数量,这里固定为4个)索引,这是我作为...的成员保留的引用。

回答 1 投票 1

NVCC -arch -code

我对NVCC文档感到困惑:3.2.7。指导GPU代码生成的选项nvcc -arch = compute_50 -code = sm_50,compute_50(相当于nvcc -arch = sm_50)之间的区别是什么...

回答 1 投票 0

是否可以在Thrust仿函数中调用设备函数?

我想在推力仿函数中调用一个设备函数,但是甚至不知道如何启动。这是一个显而易见的需求,因为有些情况下仿函数的大小很大,因此需要......

回答 1 投票 0

计算内核的网格和块尺寸

假设您要编写一个对大小为400x900像素的图像进行操作的内核。您还想为每个像素分配一个GPU线程。你的线程块是方形的,你想使用最大...

回答 2 投票 0

CUDA:重载共享内存以实现具有多个数组的简化方法

我有5个大尺寸数组A(N * 5),B(N * 5),C(N * 5),D(N * 5),E(N * 2)数字5和2代表这些变量的组成部分在不同的平面/轴上。这就是为什么我在这个结构数组...

回答 1 投票 1

将包含向量的结构传递给CUDA内核

我有一个大型代码,我需要将结构传递给CUDA内核,该内核具有大量的参数和向量的整数。我无法弄清楚如何将结构传递给CUDA内核。我有 ...

回答 1 投票 1

Caffe:训练后的GPU CUDA错误:检查失败:错误== cudaSuccess(30 vs. 0)未知错误

有时在训练之后或当我通过按CTRL + C手动停止训练时我得到这个cuda错误:检查失败:错误== cudaSuccess(30对0)未知错误这只是开始发生...

回答 6 投票 2

使用PyCUDA和固定内存的dot产品

我目前正在使用PyCUDA处理带有固定内存的点积。我有大阵列的问题。我正在使用:NVIDIA GTX 1060 CUDA 9.1 PyCUDA 2017.1.1代码是:#!/ usr / bin / ...

回答 1 投票 1

nvidia-smi GPU性能测量没有意义

我正在使用Nvidia GTX Titan X进行深度学习实验。我使用nvidia-smi监视GPU运行状态,但是提供的工具的perf(ormance)状态没有意义。我检查过......

回答 1 投票 10

CUDA程序不测量执行时间:cudaEventRecord

我需要真正了解CUDA如何测量时间执行。让我们关注这一部分(如果你想测试它,整个代码就在消息的末尾)。 //启动内核并测量...

回答 1 投票 -1

函数在.cu中声明的.h中定义

我在三个文件夹中分割了一个项目:src,include,obj我正在使用CImg.h和cuda.h库。我宣布虚假卷积(cimg_library :: CImg &,cimg_library :: CImg const&...

回答 1 投票 0

我的pyCuda索引是如何工作的?

我正在尝试将一个3d数组加载到pycuda(我要加载图像)。我希望每个线程使用for循环处理单个像素的所有通道(这是算法要求)。到目前为止我......

回答 1 投票 0

Cuda文档中的身份不明功能

我在cuSOLVER文档中找到了一个批处理函数。 http://docs.nvidia.com/cuda/cusolver/index.html#cuds-lt-t-gt-potrfBatched但是在“cusolverDn.h”中找不到此功能。我想这可能......

回答 1 投票 0

高斯消元并行

我已经成功地在CUDA中实现了用于高斯消除的单线程程序,并希望实现并行性。到目前为止,并行代码如下所示:__ global__ void ...

回答 1 投票 0

一些元素不是在cuda的矢量加法中计算的

下面是代码:#include“common / book.h”#define N 36 __global__ void add(int * a,int * b,int * c){int tid = blockIdx.x * gridDim.y * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + ...

回答 1 投票 2

初始化cuda全局变量

__constant__ const unsigned int * ff =(const unsigned int []){90,50,100}; int main(){}编译:nvcc ./test.cu ./test.cu(1):错误:设备代码1中的标识符“__T20”未定义错误...

回答 1 投票 0

如何在没有块等待安排的情况下最大限度地利用GPU?

我的Titan-XP上的设备查询显示我有30个多处理器,每个多处理器最多有2048个线程。认为可以...的最大线程数是否正确?

回答 1 投票 0

将使用malloc制作的阵列传递给cuda

我对c ++很新,甚至更多cuda。如果这个问题在其他地方明显得到解答,我很抱歉。我尽力搜索答案基础,但最接近的答案我......

回答 1 投票 -3

在numba中cuda.local.array的正确用法是什么?

我使用numba在python中编写了一个测试代码。来自numba import cuda import numpy as np import numba @ cuda.jit def function(output,size,random_array):i_p,i_k1,i_k2 = cuda.grid(3)a = cuda ....

回答 1 投票 0

CUDA构建共享库

我需要为cuda创建一个共享库。该库的编译工作正常,但当我尝试在我的程序中使用它时,nvcc返回一个链接器或ptxas错误。我把问题减少到......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.