如何将数据随机分成三个相同的大小？

Question

我有一个包含来自三个不同项目的9558行的数据集。我想在三个相等的组中随机分割这个数据集，并为每个组分配一个唯一的ID，这样Project1_Project_2_Project3就变成了Project1，Project2和Project3。

我尝试了很多东西，并且搜索了我遇到类似问题的人的代码。我使用过sample_n()和sample_frac()，但不幸的是我自己无法解决这个问题：/

我做了一个我的数据集示例，如下所示：

ProjectName <- c("Project1_Project2_Project3")
data <- data.frame(replicate(10,sample(0:1,9558,rep=TRUE)))
data <- data.frame(ProjectName, data)

并且输出应该在三个相等的nrow=3186组中随机分割，然后分配给值

ProjectName Count of rows
Project1     3186
Project2     3186
Project3     3186

Answer 1

IMO应该只分配随机项目名称。

dat$ProjectName <- sample(factor(rep(1:3, length.out=nrow(dat)), 
                          labels=paste0("Project", 1:3)))

结果

head(dat)
#   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 ProjectName
# 1  1  1  0  1  1  1  1  0  1   0    Project1
# 2  1  1  1  1  1  1  0  0  1   0    Project1
# 3  0  0  1  1  0  0  0  1  1   1    Project1
# 4  1  1  1  0  1  0  1  1  0   1    Project3
# 5  1  0  0  1  1  1  1  0  0   1    Project1
# 6  1  0  0  0  0  1  0  1  1   1    Project3

table(dat$ProjectName)
# Project1 Project2 Project3 
#     3186     3186     3186

数据

set.seed(42)
dat <- data.frame(replicate(10, sample(0:1, 9558, rep=TRUE)))

Answer 2

添加id到data：

data$id <- 1:nrow(data)

拿第一个样本：

project1 <- dplyr::sample_frac(data, 0.33333)

从数据中删除已使用的行并保存到project2：

project2 <- data[!(data$id %in% project1$id), ]

示例剩下的一半：

project3 <- dplyr::sample_frac(project2, 0.5)

最后从project3中删除project2样本中的那些：

project2 <- project2[!(project2$id %in% project3$id), ]

检查所有ids是否独一无二：

# should all be FALSE
any(project1$id %in% project2$id)
any(project1$id %in% project3$id)
any(project2$id %in% project3$id)

并仔细检查数据帧是否具有正确数量的情况：

nrow(project1)
nrow(project2)
nrow(project3)

Answer 3

我曾经遇到过同样的问题。这就是我做到的。如果您只是使用样本，那么这些组是不均匀的，通过抽取一个向量，其中组甚至为我工作。

sampleframe <- rep(1:3, ceiling( nrow( data)/3 ) ) 

data$grp <- 0
data[  , "grp"  ] <- sample( sampleframe , size=nrow( data) ,  replace=FALSE )

project1 <- data[data$grp %in% 1 ,]
project2 <- data[data$grp %in% 2 ,]
project3 <- data[data$grp %in% 3 ,]

Answer 4

我喜欢解决方案in this comment到Github的要点。

您可以按照建议生成索引：

folds <- split(sample(nrow(data), nrow(data), replace = FALSE), as.factor(1:3))

然后使用以下方法获取3个相同大小的数据帧的列表：

datalist <- lapply(folds, function(x) data[x, ])

如何将数据随机分成三个相同的大小？

问题描述投票：2回答：4

4个回答

最新问题

如何将数据随机分成三个相同的大小？

问题描述 投票：2回答：4

4个回答

最新问题

问题描述投票：2回答：4