用重复措施训练/测试分裂

问题描述 投票:2回答:1

我想在这个数据上尝试一个随机的森林,其中y =在x = ate之后开心。其中一些人很幸运,有两顿免费餐,而有些人只有一餐。我可以使用rsample来确保在列车和测试拆分中都不会出现相同的ID(在这种情况下为5)吗?如果没有,我该怎么办?

library(tibble)
library(rsample)

set.seed(123)
dframe <- tibble(id = c(1,1,2,2,3,4,5,5,6,7), 
                 ate = sample(c("cookie", "slug"), size = 10, replace = TRUE),
                 happy = sample(c("yes", "no"), size = 10, replace = TRUE))


dframe_split <- initial_split(dframe, strata = "happy")
dframe_train <- training(dframe_split)
dframe_test <- testing(dframe_split)

由reprex包(v0.2.0)创建于2018-10-11。

r random random-forest training-data
1个回答
0
投票

rsample 0.0.2开始,使用这个库执行分割的唯一记录方式似乎是group_vfold_cv函数,例如:

resamples <- group_vfold_cv(dframe, group='id', v=3)
lapply(resamples$splits, training)
lapply(resamples$splits, testing)
© www.soinside.com 2019 - 2024. All rights reserved.