请参阅[tag:gpu]的标签条目。
这是我的代码:printf(“ preallocations \ n”); char * addr =(char *)bo_gc320-> m_fb_id [gc320_buf_idx]; cv :: Mat src(cvSize(bo_gc320-> m_width,bo_gc320-> m_height),CV_8UC4,addr); ...
我正在尝试将cuda.jit矩阵乘法写成我的线程块数量的上限,它只能是一个。而且我也知道我的乘法是X * Xtranspose的形式。 def ...
错误:但是这台机器只有:['/ cpu:0']。 -但识别出2 gpus
因此,我用2个titan xp搭建了一个装备,并在遵循https://github.com/awslabs/keras-apache-mxnet/wiki/Multi-GPU-Model-Training- -Keras-MXNet。我有...
我的简单C ++代码的源代码#include #include 使用命名空间std; __global__ void AddIntsCUDA(int * a,int * b,int * c){* c = * a + * b; } int main(){...
我在GPU上分配数据块。而且我有一种算法可以生成新数据来代替旧数据。新缓冲区具有相同的数据大小。有一个解决方案是将旧数据恢复到...
我最近开始研究使用cuda优化数字数组的搜索。我下面有一段简化的代码演示了这个问题。从...
首先:是否可以使用Java并使其(部分)在GPU上运行或使用GPU?并且,如果可能的话,是否可以使用普通的Java语法而不使用特殊的cuda或opencl语法?我只想...
是否有可能从常规的指令中调用cuSPARSE库。我有一个双重for循环,对于cuSPARSE函数调用GPU上运行在主机上,我假设把...
我已经写在PyTorch神经网络,上GPU输出一些张量。我想继续用高效TensorFlow层处理。据我所知,只有这样才能做到?
由于“无效参数”,Cublas编程程序命中了cudaErrorInvalidValue
最近,我尝试用Cublas库编写GPU编程。我所做的只是在设备上分配内存并进行矩阵计算。但是,当我尝试按以下方式分配内存时,我......
连续矩阵乘法比多个非连续matmul快吗?如果是这样,为什么?
LSTM单元的定义涉及4个输入的矩阵乘法,以及4个输出的矩阵乘法。我们可以通过使用单个矩阵乘以...来简化表达式。
CUDA Vector Reduction可以处理长度小于512的向量?
我正在研究NVIDIA的并行vector_reduction算法教程,以使用CUDA C ++ API实现该算法。我已经实现了算法,但它只适用于矢量长度...
我记得几年前我被告知在GLSL着色器中做一个=条件更好吗? statementX:statementY; over if(condition)a = statementX;否则a = statementY;因为在后一种情况下,......
我的问题非常像这个问题。我运行最简单的CUDA程序,但内核没有启动。但是,我确信我的CUDA安装没问题,因为我可以运行复杂的CUDA项目......
我正在学习matlab GPU功能。我的函数myfun需要2个输入参数delta,p。最后,我将myfun应用于delta,p的许多组合。对于delta,p的每个组合,'myfun'将......
我有GPU NVIDIA GeForce GT 740M(计算能力3.0)和以下版本的CUDA,cuDNN和tensorflow安装。 nvcc -V nvcc:NVIDIA(R)Cuda编译器驱动程序版权所有(c)2005-2019 ...
用于3D纹理的OpenGL 4.2+和shader_image_load_store不起作用?
我试图弄清楚为什么我无法使用(现在内置的)shader_image_load_store扩展名写入3D纹理。我创建了两个简单的例子(在python中使其更容易):一个...
我正在研究深度学习问题。我用pytorch解决它。我有两个GPU在同一台机器上(16273MiB,12193MiB)。我想同时使用GPU进行训练(视频数据集)....
我知道nvidia-smi -l 1会每秒钟提供一次GPU使用(类似于以下内容)。但是,我很感激Volatile GPU-Util的真正含义。这是号码......
我想设计一个内核来同时添加矩阵行对,但我不知道如何实现它。例如,我有一个数据矩阵,大小是(512,1024),我想添加其行对(...