假设我有2个Pandas数据帧,df
的尺寸为297232 x 122
,df_raw
的尺寸为840380x122
。 df
已经是df_raw
的子集。两个数据帧的索引均为DateTime
。我想对70%
中的值进行df
采样,对30%
中的值进行df_raw
采样(如果需要,可以随机采样),同时确保采样的数据帧子集在索引上不重叠。
更确切地说,df_subset
将具有从70%
中随机选择的df
值,并且df_raw_subset
具有从30%
中具有随机选择的df_raw
值,但是df_subset
和df_raw_subset
不应包含就被采样的行而言,重叠,即它们应该具有唯一的DateTime
索引。
所以我们从df取样了拳头
df_sub=df.sample(frac=0.7, replace=False)
然后我们将df_raw
中的索引删除df_sub
n=int(len(df_raw)*0.3)
df_raw_sub=df_raw.drop(df_sub.index).sample(n,replace=False)