我是R的新手,我最近在火车和测试拆分中使用了分层抽样,以确保目标标签在这两者之间均等比例。现在,我想对训练数据进行下采样,以使人口分布/火车分布与新的下采样分布。
我想进行下采样的原因是因为我有一千一百万行有56列,通过网格/随机/贝叶斯搜索进行参数调整将需要几天的时间
我正在使用XGboost,这是一个二进制分类问题
如果有人可以帮助我,我将非常感激。
下面是我的代码
train_rows = sample.split(df$ModelLabel, SplitRatio=0.7) ## Stratiefied sampling
train = df[ train_rows,]
test = df[!train_rows,]`enter code here`