CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。
我已经为字符串匹配测试编写了一个程序,以测试性能与cpu的关系。我只是通过<<< 1,1 >>>调用内核,一个包含一个线程的块,执行时间是......
我正在寻找一种在列上执行操作的方法。我有MxN矩阵,我想在每列上激活cublas函数(例如nrm2)。我期望获得的结果是:M x 1怎么能......
背景:我是一名小型软件工程师,希望我不是重新发明轮子,请告诉我。我想创建一个模板函数,它包装并调用另一个函数元素。为......
我最近遇到了在Cuda应用程序中运行多个NVidia GPU的麻烦。附带的代码能够在我的系统中在Visual Studio 2013和...中一致地重现问题。
我应该从这个筛选代码中删除多个,这是在内核调用中,但我不知道我是否正确地执行它。每次我输入一个大于20000000的值时,它都会给我这个错误:...
描述我试图在GPU上使用2D网格和2D块执行矩阵求和,并在几次执行程序后得到不同的结果。对此行为的任何解释或修复......
我有一个CUDA内核似乎有竞争条件,并试图找出这种竞争条件的来源。我知道cuda-memcheck的'racecheck'工具,但是比赛检查......
我遇到了性能问题:CPU和GPU的性能几乎相同。我处理的问题是PATCH MATCH。我有2个矩阵。我想找到...之间的最大相似性在哪里...
我以前安装了CUDA 9.1并使用下面的代码测试了我的OpenCV,一切正常,但后来我不得不将其删除并安装8.0。现在,下面的代码给出了自上一个dlls以来的错误...
编译CUDA代码时,我收到以下警告:CUDACOMPILE:ptxas警告:入口函数的堆栈大小'...
我想将我的技能扩展到GPU计算。我熟悉光线跟踪和实时图形(OpenGL),但下一代图形和高性能计算似乎都在GPU中......
我正在尝试使用CUDA中的字符串(单词)数组。我尝试通过创建一个字符串来展平它,然后再将其编入索引,每次内核运行时我都要经历一些。 ...
__device__ static char Tc0 [] = {'0','\ 0'}; __device__ static char Tc1000 [] = {'1','0','0','0','\ 0'}; __device__ static char Tc1000th [] = {'1','0','0','0','t','h','\ 0'}; __device__ static char Tc100 [] = ...
我有一台具有1.1计算能力的CUDA GPU的机器。我想重新安装CUDA,我想我会用5.0;有没有CUDA功能和CUDA版本之间的兼容性? ...
假设我有一个代码,允许用户通过threads_per_block来调用内核。然后我想检查输入是否有效(例如<= 512表示计算能力CC <2.0和1024表示...
我需要编译一个使用cmake动态并行的CUDA代码。代码是:#include __global__ void childKernel(){printf(“Hello”); } __global__ void ...
好吧我试图在gpu上分配一个结构数组,然后崩溃(给出停止的工作消息)。这是struct:typedef struct point_t {int id; float x,y;点这是一个部分......
像(void **)和device_array这样的转换有什么问题?
关于使用cudaMalloc((void **)&device_array,num_bytes)的另一个问题有这个答案,它使用void **作为输出参数,而不是传递void *作为返回值,如...
我正在关注使用cuFFT库的教程:http://gpgpu.org/static/sc2007/SC07_CUDA_3_Libraries.pdf在逐行跟踪其代码之后,我得到了非常奇怪的结果。一世 ...