对分组的 pandas 数据框中的行求和并返回 NaN

Question

示例

import pandas as pd
import numpy as np
d = {'l':  ['left', 'right', 'left', 'right', 'left', 'right'],
     'r': ['right', 'left', 'right', 'left', 'right', 'left'],
     'v': [-1, 1, -1, 1, -1, np.nan]}
df = pd.DataFrame(d)

问题

当分组数据帧包含值

np.NaN

时，我希望分组总和为

NaN

，如

skipna=False

的

pd.Series.sum 标志以及

pd.DataFrame.sum

给出的那样，但是，这

In [235]: df.v.sum(skipna=False)
Out[235]: nan

但是，这种行为并没有反映在

pandas.DataFrame.groupby

对象中

In [237]: df.groupby('l')['v'].sum()['right']
Out[237]: 2.0

并且不能通过直接应用

np.sum

方法来强制

In [238]: df.groupby('l')['v'].apply(np.sum)['right']
Out[238]: 2.0

解决方法

我可以通过这样做来解决这个问题

check_cols = ['v']
df['flag'] = df[check_cols].isnull().any(axis=1)
df.groupby('l')['v', 'flag'].apply(np.sum).apply(
    lambda x: x if not x.flag else np.nan,
    axis=1
)

但这很丑。有更好的方法吗？

Answer 1

我认为这是熊猫与生俱来的。解决方法可以是：

df.groupby('l')['v'].apply(array).apply(sum)

模仿 numpy 的方式，

或

df.groupby('l')['v'].apply(pd.Series.sum,skipna=False) # for series, or
df.groupby('l')['v'].apply(pd.DataFrame.sum,skipna=False) # for dataframes.

调用好的函数。

Answer 2

我不确定这在丑陋等级上属于什么位置，但它有效：

>>> series_sum = pd.core.series.Series.sum
>>> df.groupby('l')['v'].agg(series_sum, skipna=False)
l
left     -3
right   NaN
Name: v, dtype: float64

我刚刚挖出了你拍

sum

时使用的

df.v.sum

方法，支持

skipna

选项：

>>> help(df.v.sum)
Help on method sum in module pandas.core.generic:

sum(axis=None, skipna=None, level=None, numeric_only=None, **kwargs) method 
of pandas.core.series.Series instance

Answer 3

这就是你想要的吗？

In [24]: df.groupby('l')['v'].agg(lambda x: np.nan if x.isnull().any() else x.sum())
Out[24]:
l
left    -3.0
right    NaN
Name: v, dtype: float64

或

In [22]: df.groupby('l')['v'].agg(lambda x: x.sum() if x.notnull().all() else np.nan)
Out[22]:
l
left    -3.0
right    NaN
Name: v, dtype: float64

Answer 4

df.groupby(xxx).yyy.apply(lambda x: x.sum(skipna=False))

Answer 5

亚历克西斯的回答很好，但也许可以更好：

no_skipna_sum = lambda x: pd.core.series.Series.sum(x, skipna=False)

它提供了更大的灵活性，可以与语法一起使用

df.groupby(col).agg(agg_col_name = (col_to_agg, no_skipna_sum))

对分组的 pandas 数据框中的行求和并返回 NaN

问题描述投票：0回答：5

示例

问题

解决方法

5个回答

最新问题

对分组的 pandas 数据框中的行求和并返回 NaN

问题描述 投票：0回答：5

示例

问题

解决方法

5个回答

最新问题

问题描述投票：0回答：5