R中定义的n的平衡样本

Question

我有一个用于情绪分析的不平衡数据集，有大约65000个观测值（~60000个正面值和~5000个负面值）。应该平衡这个数据集，以便我有相同数量的正面和负面观察来训练我的机器学习算法。

包caret和函数downSample帮助我获得~5000个负面和~5000个正面观察（对少数群体的下采样）。但我喜欢有2500个随机选择的阳性和2500个随机选择的阴性观察结果。有谁知道怎么做？

Answer 1

你只想要每个2500？

require(tidyverse)
df <- data.frame(class = c(rep('POS',60000), rep('NEG',5000)), random = runif(65000))
result <- df %>% 
  group_by(class) %>% 
  sample_n(2500)
table(result$class)

Answer 2

理想情况下，您应该在重采样过程中进行子采样。我建议使用sampling的trainControl参数来指定不同的下采样。使用@ mr.joshuagordon中的代码：

library(caret)
#> Loading required package: lattice
#> Loading required package: ggplot2
require(tidyverse)
#> Loading required package: tidyverse
df <-
  data.frame(
    class = factor(c(rep('POS', 60000), rep('NEG', 5000))),
    random1 = runif(65000),
    random2 = runif(65000)
  )

sampler <- function(x, y) {
  if (!is.data.frame(x))
    x <- as.data.frame(x)
  dat <- 
    x %>% 
    mutate(.y = y) %>% 
    group_by(.y) %>% 
    sample_n(2500) %>% 
    ungroup() %>% 
    as.data.frame()
  list(x = dat[, names(dat) != ".y", drop = FALSE], y = dat$.y)
}

samp_info <- list(name = sampler, first = TRUE)

ctrl <- trainControl(method = "cv", sampling = sampler)

lr_mod <- train(class ~ ., data = df, method = "glm", trControl = ctrl)
length(lr_mod$finalModel$residuals)
#> [1] 5000

由reprex package创建于2019-03-20（v0.2.1）

R中定义的n的平衡样本

问题描述投票：1回答：2

2个回答

最新问题

R中定义的n的平衡样本

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2