cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

cuda

回答 1 投票 0

我的问题就像标题一样。实际上，我正在寻找一种使设备内存的免费方式。 thanks！

十年后，有一个解决方案：cuda 11.2添加了

cuda gpu

回答 3 投票 0

为什么GPU执行时间比CPU执行时间高得多？

python cuda cupy

回答 1 投票 0

`cumoduleloDdataex`返回`cuda_error_unsupported_ptx_version`

CUDA_ERROR_UNSUPPORTED_PTX_VERSION

cuda online-compilation cuda-driver nvtx

回答 1 投票 0

我正在尝试使用

计算批次1D FFT。数据集来自存储在1D数组中的3D字段，我想在其中计算

cuda cufft

回答 1 投票 0

为什么在双重精度阵列上执行SVD时，GPU为什么比CPU慢？

python pytorch cuda julia svd

回答 1 投票 0

我正在尝试编写与3D小波内核一起使用3D图像的代码，该代码可以使用三个独立参数进行描述。我想分析用于生成小波的三个参数的所有组合的卷积结果。

j

python cuda gpu convolution cupy

回答 1 投票 0

NVIDIAGPU解码并编码YUV422

当视频带有YUV420 Chromasmpling（IMG1）时，所有功能都很好，但是当在YUV422（IMG2）中，我只是得到了一堆文物（IMG3）。我已经搜索了一段时间，并阅读了帖子，说Nvidia不支持422，但这很奇怪。有什么方法可以解决吗？

video cuda gpu decoding

回答 2 投票 0

为什么使用GPU在双重精度阵列上执行SVD时会导致放缓？

我在朱莉娅和python中获得相同的结果。 GPU上的单数值分解比Float64阵列的CPU慢。（float32阵列的表现如何，gpu为

python pytorch cuda julia svd

回答 0 投票 0

如何等待内核在Cuda的另一个内核中完成？我继续探索使用CUDA，我面临着有关内核的问题。我在另一个内核中打电话给一个内核，我想等待它的完成，然后继续在父核中。在这里...

#include <stdio.h> __global__ void cmp_int(int const* a, int const* b, int* cmp) { printf("cmp_int cmp %d\n", *cmp); if (*a == *b) *cmp = 0; else if (*a < *b) *cmp = -1; else *cmp = 1; printf("cmp_int cmp %d\n", *cmp); } __global__ void test_cmp() { int* a; cudaMalloc(&a, sizeof(int)); *a = 2; int* b; cudaMalloc(&b, sizeof(int)); *b = 3; int* cmp; cudaMalloc(&cmp, sizeof(int)); *cmp = -3; printf("test_cmp cmp %d\n", *cmp); cmp_int<<<1, 1>>>(a, b, cmp); // How to wait here for finishing of the launched kernel of the previous line? printf("test_cmp cmp %d\n", *cmp); } int main() { test_cmp<<<1, 1>>>(); cudaDeviceSynchronize(); return 0; }

c++ cuda

回答 1 投票 0

库达内存模型：为什么不需要获取围栏来防止负载重新排序？

我正在阅读“编程大规模平行处理器”一书，并注意到以下代码片段，以实现“ Domino式”扫描：

c++ cuda memory-model

回答 1 投票 0

如何在CUDA中分配内存？我想在CUDA中的新事物，我想构建一个简单的CUDA项目，该项目使用包含size_t字段和int数组字段的结构。这是代码。分配失败在字段“位＆qu ...

在这里是代码。分配失败在“位”字段上。

c++ c cuda

回答 0 投票 0

gpu内存没有使用cudamalloc3darray获得免费的我正在使用C ++，GTX1070 我正在按照所述分配一个CUDA阵列： //变量：vdepth = 200，vheight = 100，vwidth = 100，设备= 0 volumeid = 0 cudaextent bolumesize = make_cudaextent（vdepth，vh ...

c++ matlab cuda gpu mex

回答 1 投票 0

cuda __ threadfence（）和原子

我在库达有以下问题。假设我在内存中有两个位置A和b。假设它们是128位未签名的整数，用作位刀具。线程A将要修改A，然后读取FR ...

cuda atomic

回答 1 投票 0

python cuda gpu google-colaboratory triton

回答 0 投票 0

使用推力::sort_by_key

thrust::sort_by_key

c++ sorting cuda thrust

回答 1 投票 0

为什么此CUDA代码循环无限期？

以下代码无限期地运行，因为kernel_loop被困在无限循环中。两个小内核是否同时推出？ #include #include<

c++ cuda gpu

回答 1 投票 0

为什么这个cuda循环无限期？

以下代码无限期地运行，因为kernel_loop被困在无限循环中。两个小内核是否同时推出？ #include #include<

c++ cuda gpu

回答 1 投票 0

ilgpu内核给出不正确的输出

I已从ILGPU样品中获取了内核代码，以乘以瓷砖形式的两个矩阵，并编写了A程序以乘以以下矩阵： a = | 1 2 3 4 | | 5 6 7 8 | | 9 ...

c# cuda

回答 1 投票 0

可以将一系列无符号字符读为长时间，然后将其保存到另一组无符号字符中？

optimization cuda nvidia gpu-shared-memory

回答 1 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.