我正在研究一个数据集,我已经清理过,现在我想显示每个国家/地区拥有最多订阅者的年份,但我陷入困境
尝试过这个:
netf.query('country != "unspecified"')\
.groupby(['country','created_year'], sort=True)['subscribers'].sum()
得到了这个:
country created_year
Andorra 2006.0 15100000
Argentina 2006.0 23000000
2011.0 58400000
2013.0 71300000
2014.0 40000000
2015.0 77700000
2016.0 37500000
2017.0 20600000
Australia 2009.0 18000000
2011.0 42000000
2013.0 42600000
2014.0 17200000
2015.0 34600000
Bangladesh 2021.0 13900000
Barbados 2005.0 41900000
Brazil 2006.0 97000000
2007.0 18500000
.....
但我现在陷入困境,不知道如何继续。
P.s.我是 python 编程新手
假设有一个 pandas DataFrame,您可以使用:
out = (netf
.query('country != "unspecified"')
.groupby(['country','created_year'], sort=True)['subscribers'].sum()
.reset_index('country').groupby('country')
['subscribers'].idxmax()
)
输出:
country
Andorra 2006.0
Argentina 2015.0
Australia 2013.0
Bangladesh 2021.0
Barbados 2005.0
Brazil 2006.0
Name: subscribers, dtype: float64