Pandas 如何在特定日期和日期范围内的总和值之间重新采样?

问题描述 投票:0回答:2

(此问题是如何使用 7d 频率的 pandas Grouper 并用 0 填充缺失天数的后续问题?

我有以下数据框

df = pd.DataFrame({
    'names': ['joe', 'joe', 'joe'],
    'dates': [dt.datetime(2019,6,1), dt.datetime(2019,6,5), dt.datetime(2019,7,1)],
    'start_date': dt.datetime(2019,5,1),
    'end_date': dt.datetime(2019,7,5),
    'values': [5,2,13]
})

  names      dates start_date   end_date  values
0   joe 2019-06-01 2019-05-01 2019-07-05       5
1   joe 2019-06-05 2019-05-01 2019-07-05       2
2   joe 2019-07-01 2019-05-01 2019-07-05      13

并且我想以 7 天的时间段对数据进行重新采样,日期范围由

start_date
end_date
定义。

我能够通过使用以下解决方法实现我正在寻找的结果

temp_df = pd.DataFrame({
    'dates': [df.start_date.tolist()[0], dt.end_date.tolist()[0]],
    'names': df.names.tolist()[0],
    'values': 0
})

concat_df = pd.concat([df, temp_df], axis=0, sort=True)

concat_df.set_index('dates').groupby('names').resample('7D').sum()

输出

                  values
names dates             
joe   2019-05-01       0
      2019-05-08       0
      2019-05-15       0
      2019-05-22       0
      2019-05-29       5
      2019-06-05       2
      2019-06-12       0
      2019-06-19       0
      2019-06-26      13
      2019-07-03       0

这就是我正在寻找的。

我很确定有更好的方法来实现这一目标。你有什么建议吗?

谢谢!

python pandas pandas-groupby
2个回答
2
投票

您只需重新索引当前时间序列,避免

pd.concat
即可产生更好的结果。

df.set_index('dates', inplace=True)
def groupbyResample(groupby):
    date_range = pd.date_range(groupby.start_date.min(), groupby.end_date.max(), 
                               freq='d', name='date_index')

    return date_range.to_frame(name='dates').join(groupby).resample('7D')['values'].sum()

df.groupby('names').apply(groupbyResample).stack()

结果:

names  date_index
joe    2019-05-01     0.0
       2019-05-08     0.0
       2019-05-15     0.0
       2019-05-22     0.0
       2019-05-29     5.0
       2019-06-05     2.0
       2019-06-12     0.0
       2019-06-19     0.0
       2019-06-26    13.0
       2019-07-03     0.0
dtype: float64

使用魔法功能

%%timeit
:

%%timeit
def groupbyResample(groupby):
..
7.9 ms ± 352 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

你的方法:

%%timeit
temp_df = pd.DataFrame({ ..
9.1 ms ± 394 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

没有太多的性能增强,但是,使用函数确实可以很好地扩展,并且您不需要自己编写大量代码。话虽这么说,我仍然觉得有一种更惯用的方法来做到这一点。


0
投票

自从 Pandas 发展了其

groupby
resample
功能以来,我对此解决方案进行了更新。 (@iDrwish 之前提出的上述解决方案现在带有弃用警告。)

# set the date column as the index
df.set_index('dates', inplace=True)

# create the a date_range index for the full time range
dti = pd.date_range(start=dt.datetime(2019,5,1), end=dt.datetime(2019,7,5), freq="D")

# reindex the dataframe with the full time range and fill missing values with 0
temp_df = df.reindex(dti, fill_value=0)

# now use resample to sum your value column
temp_df.resample('7D').sum('values')
© www.soinside.com 2019 - 2024. All rights reserved.