cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

带有动态共享内存的模板化CUDA内核

我想在一个程序中调用带有动态分配的共享内存的模板化CUDA内核的不同实例。我的第一个天真的方法是写:模板 __global__ ......

回答 2 投票 6

使用cudaMallocManaged时,为什么NVIDIA Pascal GPU在运行CUDA内核时会变慢

我正在测试新的CUDA 8以及Pascal Titan X GPU,并期待我的代码加速,但由于某种原因它最终会变慢。我在Ubuntu 16.04上。这是最小的代码......

回答 3 投票 10

有没有办法在奇怪大小的数据数组上使用CUB :: BlockScan?

所有示例都对大小为32的某个倍数的数组执行扫描。最快的示例使用256个或更多线程,每个线程分配4个或更多元素。这意味着,如果我有......

回答 1 投票 0

ffmpeg编译失败,cuda,找不到libnpp

image:docker tensorflow / tensorflow:1.10.0-devel-gpu-py3 os:ubuntu 16.04 cuda:9.0.176 ffmpeg从github和从videolan下载的nv-codec-headers中提取,两者都是最新版本步骤1:cd / .. 。

回答 1 投票 -1

内核调用产生错误“错误:无法配置主机函数调用”。调用有什么问题?

使用nvcc -c mag_cuda.cu://标准库#include编译以下代码时 #包括 #包括 //项目特定标题#...

回答 1 投票 -2

如何使用Thrust减少数组中不连续的数字段

我有一个数组“A”,它由许多数组“a”组成,如下所示:我正在实现一个代码来总结非连续的段(总结每个段中相同颜色的段中的数字...

回答 1 投票 0

CUDA批量复制图像

我在目录中有5000多张图片。我想在两个图像之间进行图像比较。 5000张图像的比较总数为5000C2 = 12,497,500。我正在使用OpenCV和CUDA 10.1但是......

回答 1 投票 -6

为什么不同流中的内核执行不并行?

我刚刚在CUDA中学习了流技术,并尝试了它。 Howerver不希望的结果返回,即流不是并行的。 (在GPU Tesla M6,OS Red Hat Enterprise Linux 8上)我有一个数据矩阵......

回答 2 投票 0

支持`__shfl()`和`__shfl_sync()`指令的正确方法是什么?

根据我的理解,CUDA 10.1删除了shfl指令:PTX ISA版本6.4删除了以下功能:支持没有.sync限定符的shfl和投票指令已经......

回答 1 投票 0

减少cuda内核运行时:内核中矩阵的动态内存分配

我想通过在GPU上并行运行矩阵运算来执行适用于大量小型矩阵的OLS。我编写的代码似乎正在运行,但速度较慢......

回答 1 投票 0

CUDA:每个GPU线程上的Runge-Kutta轨迹

简介:如何避免因不同线程的不同工作负载而导致的性能损失? (每个线程上带有while循环的内核)问题:我想解决粒子轨迹(由...描述)

回答 1 投票 0

我如何在CUDA中正确使用全局内存?

我正在尝试在CUDA中使用使用设备定义的全局内存来执行应用程序。此变量在.cuh文件中声明。在另一个文件.cu是我的主要工作,我做cudaMallocs和...

回答 2 投票 1

使用哪个:零复制内存与固定内存

在我的设备功能中,我将值存储在主机的全局内存(固定或零复制)中数百万次。在我的主机函数中,循环迭代并一次从全局读取一个值...

回答 1 投票 0

Cuda基本程序(将值写入矩阵和std:cout不起作用);主要功能无法启动

我写了一个非常简单的Cuda程序。我想将值分配给设备内存中的矩阵。然后我想将值复制到主机并显示它们。我写的程序不起作用。但是我 ...

回答 2 投票 2

我在win10上安装了cuda,但是anaconda让我在环境中重新安装它

在这里输入图像描述是否有一些我没有添加的路径?

回答 1 投票 -1

CUDA:何时使用共享内存以及何时依赖L1缓存?

在Compute Capability 2.0(Fermi)发布后,我想知道是否有任何用例共享内存。也就是说,何时使用共享内存比让L1发挥其魔力更好......

回答 2 投票 16

使用cuda计算图片并使用OpenGL直接显示

我想写一个计算我图片的程序(实际上是空间光调制器(SLM)的全息图)。这应该是实时发生的。图片应该在GPU上计算......

回答 1 投票 0

有没有相当于“cudaMemcpy”的东西,从设备全局内存到主机全局内存,我可以在设备函数中调用?

设备中的cudaMemcpy仅支持设备到设备。我需要从设备全局复制到主机全局内存(无论是同步还是异步,尽管异步更可取)。我真的......

回答 1 投票 0

如何将python函数“any()”转换为CUDA python兼容代码(在GPU上运行)?

我想知道如何在GPU上实现numpy函数any()(使用Numba python)。 any()函数接受一个数组,如果输入的至少一个元素的计算结果为True,则返回True。 ...

回答 1 投票 0

在cuda和矩阵运算中的Grid-Stride Loop,我们为什么需要它?

__global__ void substract(float * A,float * B,float * res,int * n){int size = * n; int tid = threadIdx.x + blockIdx.x * blockDim.x; while(tid <size){res [tid] = A [tid] - B [...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.