关于在R中同时重新编码多个因子水平的问题

Question

使用像plyr和dplyr这样令人惊叹的软件包，数据操作变得轻而易举。重新编码因子水平可能很容易用这些包完成，这可能被证明是一项艰巨的任务，特别是对于具有多个级别的变量。但是，对于那些学习数据科学的人来说，理解基本R的工作方式非常重要。

我向R专家寻求关于使用基数R重新编码因子的帮助。我的问题是关于为什么一个符号有效，而另一个符号不在R中。

我生成了一个包含五个类别和300个观察值的向量。我将矢量转换为一个因子并生成以下列表。

x <- sample(c("a", "b", "c", "d", "e", "f"), 300, replace = TRUE)
x <-factor(x)

> table(x)
a  b  c  d  e  f 
57 58 51 45 45 44 

> table(as.numeric(x))
 1  2  3  4  5  6 
57 58 51 45 45 44

请注意，通过使用as.numeric选项，我可以看到相应字符表示法的内部级别结构。比方说，我想将a和f类重新编码为缺失。我可以使用以下代码完成此操作。

x[as.numeric(x) %in% c(1,6)] <- NA
> table(factor(x))
b  c  d  e 
58 51 45 45

其中1和6对应于a和f。

请注意，我使用了级别的位置而不是级别本身来将值转换为缺失。

到现在为止还挺好。

现在让我们假设我想将类别a和f转换为等级。我认为以下代码有效，但事实并非如此。它返回不同的和错误的答案。

# Recode and a and f as grades
x <- sample(c("a", "b", "c", "d", "e", "f"), 300, replace = TRUE)
x <-factor(x)
table(as.numeric(x))
levels(x)[as.numeric(x) %in% c(1,6)] <- "grades"
table(factor(x))
 a      b      c grades      e      f 
46     46     56     52     42     58

但是，当我明确引用级别时，脚本按预期工作。请参阅下面的脚本。

x <- sample(c("a", "b", "c", "d", "e", "f"), 300, replace = TRUE)
x <-factor(x); table(x)
my.list = c("a", "f")
levels(x)[levels(x) %in% my.list] <- "grades"
table(factor(x)) 
grades      b      c      d      e 
   110     49     40     45     56

因此问题是为什么一种方法有效而另一种方法无效？

Answer 1

你想达到什么目的？

使用as.numeric()操纵因素不是一个好主意，你可能会有惊喜。可能最喜欢的方法是尽可能避免因素（例如使用stringsAsFactors=FALSE创建数据框架和as.is=TRUE与read.csv和read.table - as.is，因为相反的是as.it.is.not）。操纵字符向量比任何具有因子的操作都更直接且更不容易出错，并且当技术上需要一个因素时，在许多情况下，分析函数会处理它 - 或者如果这还不够，则通常更容易创建一个因素（具有水平）在飞行中，具有适当的排序和标记水平，而不是担心与因素相关的所有混淆。

那么......

 levels(x)[as.numeric(x) %in% c(1,6)]

levels(x)是一个长度为6的字符向量，as.numeric(x)是一个长度为300的逻辑向量。所以你试图用一个更长的逻辑向量来索引一个短向量。在这样的索引中，索引向量的作用类似于“开关”，TRUE表示您希望在输出中查看此位置中的项目，而FALSE表示您不这样做。那么你要求levels(x)的哪些元素？（这将是随机的，如果重要的话，你可以用set.seed重现它。）

> which(as.numeric(x) %in% c(1,6))
 [1]   4   9  10  12  14  16  24  35  37  44  47  52  54  57  58  61  63  69  79  81  82  83
[23]  84  86  87  89  91  92  99 100 103 109 114 121 124 125 129 134 135 138 140 141 143 147
[45] 154 167 178 179 181 187 188 194 201 212 213 214 217 218 219 220 222 232 235 237 239 245
[67] 254 255 258 260 263 265 266 267 275 278 281 286 294 295 296

如果你想通过引用它们的数字等价来替换某些级别，你根本不需要as.numeric：

 levels(x)[c(1,6)] <- "grades"

 > levels(x)[c(1,6)] <- "grades"
 > table(x)
 x
 grades      b      c      d      e 
    101     45     46     62     46

“a”和“f”已被“等级”取代，如你所愿。而上面的“as.numeric”，您考虑了1级和6级，但实际上只要求更改4级。（确切地说，哪个等级由RNG决定，而不是直接由你控制）。

Answer 2

set.seed(123)
x <- sample(c("a", "b", "c", "d", "e", "f"), 300, replace = TRUE)
x <-factor(x)
table(as.numeric(x))

# 1  2  3  4  5  6 
#44 55 56 49 48 48

现在，当你试图改变levels

length(as.numeric(x) %in% c(1,6)) #gives
#[1] 300

而

length(levels(x)) #is just
#[1] 6

接下来，当你这样做

as.numeric(x) %in% c(1,6) #it returns a vector of length 300
#[1] FALSE FALSE FALSE  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE  TRUE.......

所以，现在，当你这样做

levels(x)[as.numeric(x) %in% c(1,6)]
#[1] "d" "e" "f" NA  NA  NA  NA  NA  NA  NA .....

保留所有这些作为NAs，因为没有更多的levels可供选择。

所以，

levels(x)[as.numeric(x) %in% c(1,6)] <- "grades"

将“d”，“e”和“f”更改为“成绩”

table(x)
#x
# a      b      c grades 
#44     55     56    145

但这不是你想要的。

在你的第二次尝试

levels(x)[levels(x) %in% my.list]

它有效，因为

length(levels(x))
#[1] 6

关于在R中同时重新编码多个因子水平的问题

问题描述投票：1回答：2

2个回答

最新问题

关于在R中同时重新编码多个因子水平的问题

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2