cython的prange中的线程局部数组没有大量的内存分配

Question

我有一些独立的计算，我想用Cython并行完成。

现在我正在使用这种方法：

import numpy as np
cimport numpy as cnp
from cython.parallel import prange

[...]

cdef cnp.ndarray[cnp.float64_t, ndim=2] temporary_variable = \
    np.zeros((INPUT_SIZE, RESULT_SIZE), np.float64)
cdef cnp.ndarray[cnp.float64_t, ndim=2] result = \
    np.zeros((INPUT_SIZE, RESULT_SIZE), np.float64)

for i in prange(INPUT_SIZE, nogil=True):
    for j in range(RESULT_SIZE):
        [...]
        temporary_variable[i, j] = some_very_heavy_mathematics(my_input_array)
        result[i, j] = some_more_maths(temporary_variable[i, j])

这种方法有效但我的问题来自于事实上我实际上需要几个temporary_variables。当INPUT_SIZE增长时，这导致巨大的内存使用。但我相信真正需要的是每个线程中的临时变量。

我是否面临Cython's prange的限制，我是否需要学习正确的C或者我正在做/理解一些非常错误的东西？

编辑：我正在寻找的功能是openmp.omp_get_max_threads()和openmp.omp_get_thread_num()来创建一个合理大小的临时阵列。我不得不先cimport openmp。

Answer 1

这是Cython试图检测的东西，实际上大部分时间都是正确的。如果我们采用更完整的示例代码：

import numpy as np
from cython.parallel import prange

cdef double f1(double[:,:] x, int i, int j) nogil:
    return 2*x[i,j]

cdef double f2(double y) nogil:
    return y+10

def example_function(double[:,:] arr_in):
    cdef double[:,:] result = np.zeros(arr_in.shape)
    cdef double temporary_variable
    cdef int i,j
    for i in prange(arr_in.shape[0], nogil=True):
        for j in range(arr_in.shape[1]):
            temporary_variable = f1(arr_in,i,j)
            result[i,j] = f2(temporary_variable)
    return result

（这与你的基本相同，但可编译）。这将编译为C代码：

#pragma omp for firstprivate(__pyx_v_i) lastprivate(__pyx_v_i) lastprivate(__pyx_v_j) lastprivate(__pyx_v_temporary_variable)
                #endif /* _OPENMP */
                for (__pyx_t_8 = 0; __pyx_t_8 < __pyx_t_9; __pyx_t_8++){

你可以看到temporary_variable被设置为线程本地的。如果Cython没有正确检测到这一点（我发现它往往太过于热衷于使变量减少），那么我的建议是将一个循环的内容封装（一些）函数：

cdef double loop_contents(double[:,:] arr_in, int i, int j) nogil:
    cdef double temporary_variable
    temporary_variable = f1(arr_in,i,j)
    return f2(temporary_variable)

这样做迫使temporary_variable成为函数的本地（因此对线程）

关于创建一个线程局部数组：我不是100％清楚你想要做什么，但我会尝试猜测...

我不相信可以创建线程本地内存视图。
您可以使用malloc和free创建一个线程局部C数组，但除非您对C有很好的理解，否则我不会推荐它。
最简单的方法是分配一个2D数组，每个线程有一列。数组是共享的，但由于每个线程只接触自己的列并不重要。一个简单的例子： cdef double[:] f1(double[:,:] x, int i) nogil: return x[i,:] def example_function(double[:,:] arr_in): cdef double[:,:] temporary_variable = np.zeros((arr_in.shape[1],openmp.omp_get_max_threads())) cdef int i for i in prange(arr_in.shape[0],nogil=True): temporary_variable[:,openmp.omp_get_thread_num()] = f1(arr_in,i)

cython的prange中的线程局部数组没有大量的内存分配

问题描述投票：0回答：1

1个回答

最新问题

cython的prange中的线程局部数组没有大量的内存分配

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1