cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

合并列表与CUDA中的重复键

假设我们有一个结构列表graph_node *:struct graph_node {int from; int to;浮动概率;现在,假设在列表中重复了几个.from和.to元素。例如:我们可以......

回答 1 投票 -3

GPU编程策略

我正在尝试使用CUDA中的c编程一种神经网络。我有一个基本问题。对于编程,我可以使用大数组或不同的命名策略。例如,对于权重,......

回答 2 投票 2

PyCUDA NPP库兼容性

我一直在尝试通过Python访问Nvidia Performance Primitives库,我发现了一个非常有用的教程,最后在2011年更新了这个站点:http://openvidia.sourceforge.net/index.php / ...

回答 1 投票 2

即使在初始化结果参数之后,CUDA atomicAdd也会产生错误的结果

atomicAdd产生错误的结果。我甚至在设备中初始化结果但仍然无法正常工作。这是为什么?这是我调用的函数:__ global__ void getHammingDistance(char * str1,char * str2,int ...

回答 1 投票 0

CUDA:struct的共享数据成员和该struct的引用成员具有不同的地址,值

接下来是问题:使用CUDA 1.1计算gpu,我试图维护一组(每个线程可能不同数量,这里固定为4个)索引,这是我作为...的成员保留的引用。

回答 1 投票 1

NVCC -arch -code

我对NVCC文档感到困惑:3.2.7。指导GPU代码生成的选项nvcc -arch = compute_50 -code = sm_50,compute_50(相当于nvcc -arch = sm_50)之间的区别是什么...

回答 1 投票 0

是否可以在Thrust仿函数中调用设备函数?

我想在推力仿函数中调用一个设备函数,但是甚至不知道如何启动。这是一个显而易见的需求,因为有些情况下仿函数的大小很大,因此需要......

回答 1 投票 0

计算内核的网格和块尺寸

假设您要编写一个对大小为400x900像素的图像进行操作的内核。您还想为每个像素分配一个GPU线程。你的线程块是方形的,你想使用最大...

回答 2 投票 0

CUDA:重载共享内存以实现具有多个数组的简化方法

我有5个大尺寸数组A(N * 5),B(N * 5),C(N * 5),D(N * 5),E(N * 2)数字5和2代表这些变量的组成部分在不同的平面/轴上。这就是为什么我在这个结构数组...

回答 1 投票 1

将包含向量的结构传递给CUDA内核

我有一个大型代码,我需要将结构传递给CUDA内核,该内核具有大量的参数和向量的整数。我无法弄清楚如何将结构传递给CUDA内核。我有 ...

回答 1 投票 1

Caffe:训练后的GPU CUDA错误:检查失败:错误== cudaSuccess(30 vs. 0)未知错误

有时在训练之后或当我通过按CTRL + C手动停止训练时我得到这个cuda错误:检查失败:错误== cudaSuccess(30对0)未知错误这只是开始发生...

回答 6 投票 2

使用PyCUDA和固定内存的dot产品

我目前正在使用PyCUDA处理带有固定内存的点积。我有大阵列的问题。我正在使用:NVIDIA GTX 1060 CUDA 9.1 PyCUDA 2017.1.1代码是:#!/ usr / bin / ...

回答 1 投票 1

nvidia-smi GPU性能测量没有意义

我正在使用Nvidia GTX Titan X进行深度学习实验。我使用nvidia-smi监视GPU运行状态,但是提供的工具的perf(ormance)状态没有意义。我检查过......

回答 1 投票 10

CUDA程序不测量执行时间:cudaEventRecord

我需要真正了解CUDA如何测量时间执行。让我们关注这一部分(如果你想测试它,整个代码就在消息的末尾)。 //启动内核并测量...

回答 1 投票 -1

函数在.cu中声明的.h中定义

我在三个文件夹中分割了一个项目:src,include,obj我正在使用CImg.h和cuda.h库。我宣布虚假卷积(cimg_library :: CImg &,cimg_library :: CImg const&...

回答 1 投票 0

我的pyCuda索引是如何工作的?

我正在尝试将一个3d数组加载到pycuda(我要加载图像)。我希望每个线程使用for循环处理单个像素的所有通道(这是算法要求)。到目前为止我......

回答 1 投票 0

Cuda文档中的身份不明功能

我在cuSOLVER文档中找到了一个批处理函数。 http://docs.nvidia.com/cuda/cusolver/index.html#cuds-lt-t-gt-potrfBatched但是在“cusolverDn.h”中找不到此功能。我想这可能......

回答 1 投票 0

高斯消元并行

我已经成功地在CUDA中实现了用于高斯消除的单线程程序,并希望实现并行性。到目前为止,并行代码如下所示:__ global__ void ...

回答 1 投票 0

一些元素不是在cuda的矢量加法中计算的

下面是代码:#include“common / book.h”#define N 36 __global__ void add(int * a,int * b,int * c){int tid = blockIdx.x * gridDim.y * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + ...

回答 1 投票 2

初始化cuda全局变量

__constant__ const unsigned int * ff =(const unsigned int []){90,50,100}; int main(){}编译:nvcc ./test.cu ./test.cu(1):错误:设备代码1中的标识符“__T20”未定义错误...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.