从熊猫数据框中提取子集以确保没有重叠?

问题描述 投票:0回答:1

假设我有2个Pandas数据帧,df的尺寸为297232 x 122df_raw的尺寸为840380x122df已经是df_raw的子集。两个数据帧的索引均为DateTime。我想对70%中的值进行df采样,对30%中的值进行df_raw采样(如果需要,可以随机采样),同时确保采样的数据帧子集在索引上不重叠。

更确切地说,df_subset将具有从70%中随机选择的df值,并且df_raw_subset具有从30%中具有随机选择的df_raw值,但是df_subsetdf_raw_subset不应包含就被采样的行而言,重叠,即它们应该具有唯一的DateTime索引。

python pandas dataframe datetime sampling
1个回答
1
投票

所以我们从df取样了拳头

df_sub=df.sample(frac=0.7, replace=False)

然后我们将df_raw中的索引删除df_sub

n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)
© www.soinside.com 2019 - 2024. All rights reserved.