cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

块中的线程和warp(32个线程)之间有什么区别?

我已经为字符串匹配测试编写了一个程序,以测试性能与cpu的关系。我只是通过<<< 1,1 >>>调用内核,一个包含一个线程的块,执行时间是......

回答 1 投票 2

Cublas - 列/行明智的操作

我正在寻找一种在列上执行操作的方法。我有MxN矩阵,我想在每列上激活cublas函数(例如nrm2)。我期望获得的结果是:M x 1怎么能......

回答 1 投票 0

重复的可变参数模板参数

背景:我是一名小型软件工程师,希望我不是重新发明轮子,请告诉我。我想创建一个模板函数,它包装并调用另一个函数元素。为......

回答 1 投票 0

Cuda中的多个GPU - 之前的工作代码,但不再是

我最近遇到了在Cuda应用程序中运行多个NVidia GPU的麻烦。附带的代码能够在我的系统中在Visual Studio 2013和...中一致地重现问题。

回答 1 投票 2

删除内核调用中的倍数以获得更好的性能

我应该从这个筛选代码中删除多个,这是在内核调用中,但我不知道我是否正确地执行它。每次我输入一个大于20000000的值时,它都会给我这个错误:...

回答 1 投票 -2

经过多次执行后,CUDA程序的结果不一致

描述我试图在GPU上使用2D网格和2D块执行矩阵求和,并在几次执行程序后得到不同的结果。对此行为的任何解释或修复......

回答 1 投票 1

CUDA内核中的竞争条件

我有一个CUDA内核似乎有竞争条件,并试图找出这种竞争条件的来源。我知道cuda-memcheck的'racecheck'工具,但是比赛检查......

回答 1 投票 0

低性能 - 补丁匹配。 GPU上的图像处理(CUDA)

我遇到了性能问题:CPU和GPU的性能几乎相同。我处理的问题是PATCH MATCH。我有2个矩阵。我想找到...之间的最大相似性在哪里...

回答 1 投票 0

OpenCV尝试加载卸载的Cuda dll

我以前安装了CUDA 9.1并使用下面的代码测试了我的OpenCV,一切正常,但后来我不得不将其删除并安装8.0。现在,下面的代码给出了自上一个dlls以来的错误...

回答 1 投票 1

CUDA信号给主持人

有没有办法在内核执行结束时向主机发出信号(成功/失败)?我正在研究一个迭代过程,其中在设备中进行计算,并且在每次迭代之后,布尔值...

回答 1 投票 3

CUDA ptxas警告(进入的堆栈大小)

编译CUDA代码时,我收到以下警告:CUDACOMPILE:ptxas警告:入口函数的堆栈大小'...

回答 2 投票 3

是否可以在AMD GPU上运行CUDA?

我想将我的技能扩展到GPU计算。我熟悉光线跟踪和实时图形(OpenGL),但下一代图形和高性能计算似乎都在GPU中......

回答 5 投票 43

PyCUDA 2D数组实现(或使用字符串)

我正在尝试使用CUDA中的字符串(单词)数组。我尝试通过创建一个字符串来展平它,然后再将其编入索引,每次内核运行时我都要经历一些。 ...

回答 1 投票 0

CUDA错误中有很多全局变量

__device__ static char Tc0 [] = {'0','\ 0'}; __device__ static char Tc1000 [] = {'1','0','0','0','\ 0'}; __device__ static char Tc1000th [] = {'1','0','0','0','t','h','\ 0'}; __device__ static char Tc100 [] = ...

回答 1 投票 2

CUDA-capability和CUDA版本:兼容?

我有一台具有1.1计算能力的CUDA GPU的机器。我想重新安装CUDA,我想我会用5.0;有没有CUDA功能和CUDA版本之间的兼容性? ...

回答 1 投票 2

编译时的CUDA设备属性和计算能力

假设我有一个代码,允许用户通过threads_per_block来调用内核。然后我想检查输入是否有效(例如<= 512表示计算能力CC <2.0和1024表示...

回答 1 投票 0

使用cmake和3.5计算功能编译CUDA代码

我需要编译一个使用cmake动态并行的CUDA代码。代码是:#include __global__ void childKernel(){printf(“Hello”); } __global__ void ...

回答 2 投票 0

cuda - 内存分配崩溃

好吧我试图在gpu上分配一个结构数组,然后崩溃(给出停止的工作消息)。这是struct:typedef struct point_t {int id; float x,y;点这是一个部分......

回答 1 投票 -3

像(void **)和device_array这样的转换有什么问题?

关于使用cudaMalloc((void **)&device_array,num_bytes)的另一个问题有这个答案,它使用void **作为输出参数,而不是传递void *作为返回值,如...

回答 1 投票 15

使用FFT和CUDA求解泊松方程

我正在关注使用cuFFT库的教程:http://gpgpu.org/static/sc2007/SC07_CUDA_3_Libraries.pdf在逐行跟踪其代码之后,我得到了非常奇怪的结果。一世 ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.