gpu-programming 相关问题

请参阅[tag:gpu]的标签条目。

如何在CUDA中同时执行256次子内核

我是CUDA编程的新手,但我需要在一个复杂的项目中使用它。我真的需要一些帮助。我的问题是,如果我想同时执行256次子内核,我可以用Dynamic做什么...

回答 1 投票 1

如何将OpenCL代码从FP32转换为FP16?

有没有办法自动转换已写入的代码在FP32 GPU上进行FP32计算,因此它可以始终进行FP16计算而不是FP32?我想要实现的是运行......

回答 1 投票 0

pytorch并行化交叉验证循环

我有一个安装了tensorflow和pytorch的cuda9-docker,我正在对图像数据集进行交叉验证。目前我正在使用for循环来进行交叉验证。类似于data_train,......

回答 1 投票 0

如何通过Vulkan使用Nvidia Tensor核心

如何使用Vulkan使用Nvidia的张量核心(在计算着色器中?!)? Nvidia Programming Tensor Cores在CUDA 9中有这篇文章,但这显然是关注CUDA。我不是 ...

回答 2 投票 3

如何告诉Alea GPU AOT?

我想AOT编译内核。我尝试使用AOT属性,但看起来像Alea.Fody是Alea v2的一部分,并且继续。 Alea可以预编译代码吗?如果是这样,我如何告诉Alea预编译它?...

回答 1 投票 0

如何用Cublas或推力计算复杂载体的内积?

经过长时间的搜索,我仍然无法解决这个问题。我有两个向量:x = [a1,...,aN],y = [b1,...,bN]。我想计算他们的内在产品:= a1 * conj(b1)+ ... + aN * conj(bN)。 (...

回答 1 投票 0

为什么不同流中的内核执行不并行?

我刚刚在CUDA中学习了流技术,并尝试了它。 Howerver不希望的结果返回,即流不是并行的。 (在GPU Tesla M6,OS Red Hat Enterprise Linux 8上)我有一个数据矩阵......

回答 2 投票 0

英特尔MKL致命错误:无法加载libmkl_mc3.so或libmkl_def.so

我正在尝试使用Arrayfire的LU实现并得到:英特尔MKL致命错误:无法加载libmkl_mc3.so或libmkl_def.so。我尝试了很多东西来解决问题(比如库路径和...

回答 1 投票 0

在没有平铺的情况下为矩阵乘法内核选择每个块的线程数和块数

我为每个块选择了64个或更多的线程数(128个块),用于将两个大小为8192的矩阵乘以8192。我得到的只是我矩阵中的0。你能告诉我它的原因吗? ...

回答 1 投票 -2

在OpenCL中,平台,上下文和设备之间有什么区别?

我是OpenCL编程的新手。设备,上下文和平台有什么区别?

回答 1 投票 13

为CUDA内核调用设置VS 2010 Intellisense

我刚刚开始进行CUDA编程,而且它的功能非常好,我的GPU已经被认可了。我在Visual Studio中使用这个非常有用的指南部分设置了Intellisense:...

回答 3 投票 16

如何使用GPU进行数学[关闭]

我正在寻找利用GPU来处理一些方程式,但无法弄清楚我如何从C#中访问它。我知道XNA和DirectX框架允许您使用着色器以便......

回答 6 投票 37

使用CL / cl.h文件编译OpenCL程序

我有样品“Hello,World!”来自网络的代码,我想在我大学的服务器上的GPU上运行它。当我输入“gcc main.c”时,它会响应:CL / cl.h:没有这样的文件或目录什么......

回答 3 投票 18

CUDA中的2D线程

我正在尝试在CUDA中使用2D线程。 threadIDx.x和blockIdx.x工作正常,但threadIdx.y和blockIdx.y不起作用。 .y的是allaws 0.这是我的简单代码:#define N 16 __global__ void ...

回答 1 投票 0

Titan Z vs K40处理器?

我正在使用GPU进行科学计算。最近Nvidia发布了旗舰产品GeForce Titan Z.我想知道,这款处理器如何与特斯拉K40(另一款NVIDIA产品)展开竞争。一世 ...

回答 2 投票 2

设备代码中CUDA类静态成员的成语?

所以,我有一个C ++ 14库,我正在移植到CUDA 9.我实际上(我认为)对CUDA非常了解,但是自从CUDA 6以来我没有做过任何直接的工作。通常,我使用了很多......

回答 2 投票 3

如果我只需要按4个键值排序,那么我可以对排序算法进行哪些优化?

对于更多上下文,我为GPU着色器实现了Bitonic排序网络(并行合并类型)。我正在排序的值的结构如下:32位整数,高16位是0,1,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.