我想在这个数据上尝试一个随机的森林,其中y =在x = ate之后开心。其中一些人很幸运,有两顿免费餐,而有些人只有一餐。我可以使用rsample来确保在列车和测试拆分中都不会出现相同的ID(在这种情况下为5)吗?如果没有,我该怎么办?
library(tibble)
library(rsample)
set.seed(123)
dframe <- tibble(id = c(1,1,2,2,3,4,5,5,6,7),
ate = sample(c("cookie", "slug"), size = 10, replace = TRUE),
happy = sample(c("yes", "no"), size = 10, replace = TRUE))
dframe_split <- initial_split(dframe, strata = "happy")
dframe_train <- training(dframe_split)
dframe_test <- testing(dframe_split)
由reprex包(v0.2.0)创建于2018-10-11。
从rsample 0.0.2
开始,使用这个库执行分割的唯一记录方式似乎是group_vfold_cv
函数,例如:
resamples <- group_vfold_cv(dframe, group='id', v=3)
lapply(resamples$splits, training)
lapply(resamples$splits, testing)