[使用Python驱动CUDA,我想在发生内核和内存复制之后,在流中安排异步的Python宿主函数。
在其中一个Python库(CUresult cuLaunchHostFunc(CUstream hStream, CUhostFn fn, void* userData)
,PyCuda
,...)中,是否具有与CUDA C ++函数Numba
等效的功能?
Driver API函数在CUDA docs中
在其中一个Python库(PyCuda,Numba等)中,是否具有与CUDA C ++函数
CUresult cuLaunchHostFunc(CUstream hStream, CUhostFn fn, void* userData)
相同的功能?
这两个都不是。我知道没有一个基于驱动程序API的CUDA框架公开cuLaunchHostFunc
(PyCUDA,Numba,JCUDA)。
我想在发生内核和内存复制后在运行的流中安排异步的Python宿主函数
本地CUDA驱动程序API中的任何内容都无法支持。 Tensorflow和Pytorch在Python级别都具有精心设计的执行流水线和回调机制,它们使您在功能上与您所设想的相似。但是它不会在CUDA级别上完成,而是在更高的抽象级别上进行。