我在创建数值和“标签”都可以引用的因子时遇到一些问题。
应该由lfactors软件包执行此操作,但是我无法照此执行。所以,这就是我所做的:
library(lfactors)
cars <- mtcars
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
[如果我们查看“碳水化合物”列(可能反映了碳排放量,则为数值)>
所以使用lfactors包将其转换为:
cars$carb <- lfactor(c(1:4),
levels = c(1:4),
labels = c("low", "medium", "high", "extreme" ))
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: Factor w/ 4 levels "low","medium",..: 1 2 3 4 1 2 3 4 1 2 ..
根据包装说明,我注意到它变成一个因素,所以我进行了检查
levels(cars$carb)
[1] "low" "medium" "high" "extreme" # correct
cars$carb == "medium"
[1] FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE
[23] FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE FALSE # correct
cars$carb == 2
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # incorrect
我仍然无法通过级别和值来引用因子,所以我想知道是否有人使用过此软件包,或者是否有其他建议?
即使它不是完美的,因为我不能通过值和标签来引用这些因素,我发现了一种方法,至少允许我同时存储这两种方法,我认为这对我所处位置的其他人可能有用:
library(sjlabelled)
library(magrittr)
library(sjmisc)
cars <- mtcars
str(cars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
frq(cars$carb)
x <numeric>
# total N=32 valid N=32 mean=2.81 sd=1.62
val frq raw.prc valid.prc cum.prc
1 7 21.88 21.88 21.88
2 10 31.25 31.25 53.12
3 3 9.38 9.38 62.50
4 10 31.25 31.25 93.75
6 1 3.12 3.12 96.88
8 1 3.12 3.12 100.00
NA 0 0.00 NA NA
所以这就是我们得到的数字形式,对因子的转换保留了预期的形式:
cars$carb <- as_factor(cars$carb)
str(cars$carb)
Factor w/ 6 levels "1","2","3","4",..: 4 4 1 1 2 1 4 2 2 4 ...
frq(cars$carb)
<categorical>
# total N=32 valid N=32 mean=2.81 sd=1.62
val frq raw.prc valid.prc cum.prc
1 7 21.88 21.88 21.88
2 10 31.25 31.25 53.12
3 3 9.38 9.38 62.50
4 10 31.25 31.25 93.75
6 1 3.12 3.12 96.88
8 1 3.12 3.12 100.00
NA 0 0.00 NA NA
现在我们以分类形式获取它,我们可以标记值(在此示例中,我将忽略6和8)
cars$carb<- set_labels(
cars$carb,
labels = c(
`1` = "low",
`2` = "medium",
`3` = "high",
`4` = "extreme"
))
frq(cars$carb)
<categorical>
# total N=32 valid N=32 mean=2.81 sd=1.62
val label frq raw.prc valid.prc cum.prc
1 low 7 21.88 21.88 21.88
2 medium 10 31.25 31.25 53.12
3 high 3 9.38 9.38 62.50
4 extreme 10 31.25 31.25 93.75
6 6 1 3.12 3.12 96.88
8 8 1 3.12 3.12 100.00
NA <NA> 0 0.00 NA NA
现在我们可以同时看到标签和值,但是仍然存在基于标签调用数据的问题
cars[cars$carb==1,]
mpg cyl disp hp drat wt qsec vs am gear carb
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
cars[cars$carb=="low",]
[1] mpg cyl disp hp drat wt qsec vs am gear carb
<0 rows> (or 0-length row.names)
关于因子标记的任何建议以及通过标记和值调用因子的方法,将不胜感激。同时,我希望我的替代方法会有所帮助。
我在创建因子时遇到一些问题,可以同时使用数值和“标签”来引用。据说lfactors包可以做到这一点,但是我无法以...
您在一开始就做了一点嘘声。