cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

回答 1 投票 0




我正在尝试使用

计算批次1D FFT。数据集来自存储在1D数组中的3D字段,我想在其中计算

回答 1 投票 0



NVIDIAGPU解码并编码YUV422

当视频带有YUV420 Chromasmpling(IMG1)时,所有功能都很好,但是当在YUV422(IMG2)中,我只是得到了一堆文物(IMG3)。 我已经搜索了一段时间,并阅读了帖子,说Nvidia不支持422,但这很奇怪。有什么方法可以解决吗?

回答 2 投票 0

为什么使用GPU在双重精度阵列上执行SVD时会导致放缓?

我在朱莉娅和python中获得相同的结果。 GPU上的单数值分解比Float64阵列的CPU慢。 (float32阵列的表现如何,gpu为

回答 0 投票 0

如何等待内核在Cuda的另一个内核中完成? 我继续探索使用CUDA,我面临着有关内核的问题。我在另一个内核中打电话给一个内核,我想等待它的完成,然后继续在父核中。 在这里...

#include <stdio.h> __global__ void cmp_int(int const* a, int const* b, int* cmp) { printf("cmp_int cmp %d\n", *cmp); if (*a == *b) *cmp = 0; else if (*a < *b) *cmp = -1; else *cmp = 1; printf("cmp_int cmp %d\n", *cmp); } __global__ void test_cmp() { int* a; cudaMalloc(&a, sizeof(int)); *a = 2; int* b; cudaMalloc(&b, sizeof(int)); *b = 3; int* cmp; cudaMalloc(&cmp, sizeof(int)); *cmp = -3; printf("test_cmp cmp %d\n", *cmp); cmp_int<<<1, 1>>>(a, b, cmp); // How to wait here for finishing of the launched kernel of the previous line? printf("test_cmp cmp %d\n", *cmp); } int main() { test_cmp<<<1, 1>>>(); cudaDeviceSynchronize(); return 0; }

回答 1 投票 0

库达内存模型:为什么不需要获取围栏来防止负载重新排序?

我正在阅读“编程大规模平行处理器”一书,并注意到以下代码片段,以实现“ Domino式”扫描:

回答 1 投票 0



cuda __ threadfence()和原子

我在库达有以下问题。假设我在内存中有两个位置A和b。假设它们是128位未签名的整数,用作位刀具。 线程A将要修改A,然后读取FR ...

回答 1 投票 0


使用推力::sort_by_key

thrust::sort_by_key

回答 1 投票 0

为什么此CUDA代码循环无限期?

以下代码无限期地运行,因为kernel_loop被困在无限循环中。两个小内核是否同时推出? #include #include<

回答 1 投票 0

为什么这个cuda循环无限期?

以下代码无限期地运行,因为kernel_loop被困在无限循环中。两个小内核是否同时推出? #include #include<

回答 1 投票 0

ilgpu内核给出不正确的输出

I已从ILGPU样品中获取了内核代码,以乘以瓷砖形式的两个矩阵,并编写了A程序以乘以以下矩阵: a = | 1 2 3 4 | | 5 6 7 8 | | 9 ...

回答 1 投票 0


最新问题
© www.soinside.com 2019 - 2024. All rights reserved.