在矩阵中使用 numpy.sum 和 numpy.mean 时如何忽略值

Question

在 numpy 中应用总和和平均值时，有没有办法避免使用特定值？

例如，我想在计算结果时避免使用 -999 值。

In [14]: c = np.matrix([[4., 2.],[4., 1.]])

In [15]: d = np.matrix([[3., 2.],[4., -999.]])

In [16]: np.sum([c, d], axis=0)
Out[16]:
array([[   7.,    4.],
       [   8., -998.]])

In [17]: np.mean([c, d], axis=0)
Out[17]:
array([[   3.5,    2. ],
       [   4. , -499. ]])

Answer 1

使用屏蔽数组：

>>> c = np.ma.array([[4., 2.], [4., 1.]])
>>> d = np.ma.masked_values([[3., 2.], [4., -999]], -999)

>>> np.ma.array([c, d]).sum(axis=0)
masked_array(data =
 [[7.0 4.0]
 [8.0 1.0]],
             mask =
 [[False False]
 [False False]],
       fill_value = 1e+20)

>>> np.ma.array([c, d]).mean(axis=0)
masked_array(data =
 [[3.5 2.0]
 [4.0 1.0]],
             mask =
 [[False False]
 [False False]],
       fill_value = 1e+20)

Answer 2

一种选择是将特定值替换为

np.nan

，然后使用

numpy.nansum

和

numpy.nanmean

，如 @s.k 所评论：

import numpy as np
def nan_if(arr, value):
    return np.where(arr == value, np.nan, arr)

np.nansum([nan_if(c, -999), nan_if(d, -999)], axis=0)
#array([[ 7.,  4.],
#       [ 8.,  1.]])

np.nanmean([nan_if(c, -999), nan_if(d, -999)], axis=0)
#array([[ 3.5,  2. ],
#       [ 4. ,  1. ]])

Answer 3

在

numpy

1.17.0 之后，

np.sum

和

np.mean

有一个

where

参数来指定要包含哪些元素。对于您的示例，您可以将参数设置为

where=(np.array([c, d]) > 0)

以仅包含正元素：

>>> e = np.array([c, d])
>>> np.sum(e, axis=0, where=(e>0))
array([[7., 4.],
       [8., 1.]])

在矩阵中使用 numpy.sum 和 numpy.mean 时如何忽略值

问题描述投票：0回答：3

3个回答

最新问题

在矩阵中使用 numpy.sum 和 numpy.mean 时如何忽略值

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3