R突变问题,将数据标记为三类

问题描述 投票:0回答:1

我有数字格式的数据,我想根据它们的分位数将它们标记为三个级别-“低”,“中”,“高”

  1. 低,<50%百分位数
  2. 医学,50%<75%百分位数
  3. 高,> 75%百分位数

这是我的R输出

 quantile(data$crim)
       0%       25%       50%       75%      100% 
 0.006320  0.082045  0.256510  3.677083 88.976200 

我使用mutate标记它们,以下是我的R代码。我对所有数据都表示“很高”。

 newdata<-mutate(data, crim.lev = ifelse(crim %in% 0:0.26, "low",
                                           ifelse(crim %in% 0.27:3.68, "med",
                                                   "high")))

请让我错过的任何内容或其他方法来完成此操作。谢谢。

r label categorical-data mutate quantile
1个回答
0
投票

我们可以将case_whenquantile功能一起使用,将数据分为几组。将其与mtcars列上的内置mpg数据集一起使用。

library(dplyr)

mtcars %>%
  mutate(group = case_when(mpg < quantile(mpg,0.5) ~ 'low', 
                      between(mpg, quantile(mpg, 0.5), quantile(mpg, 0.75))~'med', 
                      TRUE ~ 'high'))


#    mpg cyl  disp  hp drat    wt  qsec vs am gear carb group
#1  21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4   med
#2  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4   med
#3  22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1   med
#4  21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1   med
#5  18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2   low
#6  18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1   low
#7  14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4   low
#8  24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2  high
#....
© www.soinside.com 2019 - 2024. All rights reserved.