我有一个数据帧-mydata-包括超过2000行是这样的:
Id Name Score
R1 sam 76
R1 Sosan 8
... ... ...
R4 jack 2
R4 Tom 76
R4 samy 8
R5 Check 9
… ... ..
R6 Anderson 2
... ... ..
现在,我想提取其重复多于一定的数量后的ID,例如4.我可以按提取唯一编号的大小和尺寸是这样的:
Mydata.groupby(by=[‘Id’]).size()
但是,我可以基于阈值不是只提取的ID。
您可以尝试使用value_counts
,其对Id
的发生,然后,过滤其结果是出现次数数量Series
:
num = 2
s = df['Id'].value_counts()
print(s[s>num].index.values)