np.cumsum
:
In [51]: arr = np.arange(int(1E6)).reshape(int(1E3), -1)
In [52]: %timeit arr.cumsum(axis=1)
2.27 ms ± 10.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [53]: %timeit arr.cumsum(axis=0)
4.16 ms ± 10.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
cumsum
轴 1 上的速度几乎比轴 0 上快 2 倍。幕后发生了什么?
你有一个方阵。看起来像这样:
1 2 3
4 5 6
7 8 9
但是计算机内存是线性寻址的,所以对于计算机来说它看起来像这样:
1 2 3 4 5 6 7 8 9
或者,如果你仔细想想,它可能看起来像这样:
1 4 7 2 5 8 3 6 9
如果您尝试对
[1 2 3]
或 [4 5 6]
(一行)求和,第一个布局会更快。如果您尝试对 [1 4 7]
或 [2 5 8]
求和,则第二种布局更快。
发生这种情况是因为从内存加载数据一次发生一个“缓存行”,通常为 64 字节(NumPy 的默认 dtype 为 8 字节浮点数的 8 个值)。
您可以使用
order
参数控制 NumPy 在构造数组时使用的布局。
有关更多信息,请参阅:https://en.wikipedia.org/wiki/Row-_and_column-major_order
确实,性能将取决于内存中数组的顺序:
In [36]: arr = np.arange(int(1E6)).reshape(int(1E3), -1)
In [37]: arrf = np.asfortranarray(arr) # change order
In [38]: %timeit arr.cumsum(axis=1)
1.99 ms ± 32.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [39]: %timeit arr.cumsum(axis=0)
14.6 ms ± 229 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In [41]: %timeit arrf.cumsum(axis=0)
1.96 ms ± 19.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
In [42]: %timeit arrf.cumsum(axis=1)
14.6 ms ± 148 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
有关更多详细信息,请参阅 https://docs.scipy.org/doc/numpy-1.13.0/reference/internals.html#multiDimension-array-indexing-order-issues