加入dplyr时如何指定x和y的列名？

Question

我有两个数据框想要使用 dplyr 连接。一个是包含名字的数据框。

test_data <- data.frame(first_name = c("john", "bill", "madison", "abby", "zzz"),
                        stringsAsFactors = FALSE)

另一个数据框包含坎特罗维茨姓名语料库的清理版本，用于识别性别。这是一个最小的例子：

kantrowitz <- structure(list(name = c("john", "bill", "madison", "abby", "thomas"), gender = c("M", "either", "M", "either", "M")), .Names = c("name", "gender"), row.names = c(NA, 5L), class = c("tbl_df", "tbl", "data.frame"))

我本质上想使用

test_data

表从

kantrowitz

表中查找姓名的性别。因为我要把它抽象成一个函数

encode_gender

，所以我不知道将要使用的数据集中的列的名称，所以我不能保证它将是

name

，如

kantrowitz$name

。

在基础 R 中，我会这样执行合并：

merge(test_data, kantrowitz, by.x = "first_names", by.y = "name", all.x = TRUE)

返回正确的输出：

  first_name gender
1       abby either
2       bill either
3       john      M
4    madison      M
5        zzz   <NA>

但我想在 dplyr 中执行此操作，因为我正在使用该包进行所有其他数据操作。各种

by

函数的 dplyr

*_join

选项仅允许我指定一个列名称，但我需要指定两个列名称。我正在寻找这样的东西：

library(dplyr)
# either
left_join(test_data, kantrowitz, by.x = "first_name", by.y = "name")
# or
left_join(test_data, kantrowitz, by = c("first_name", "name"))

使用 dplyr 执行这种连接的方法是什么？

（不要介意 Kantrowitz 语料库是识别性别的糟糕方法。我正在研究更好的实现，但我想先让它发挥作用。）

Answer 1

此功能已在 dplyr v0.3 中添加。现在，您可以将命名字符向量传递给

by

中的

left_join

参数（以及其他连接函数），以指定每个数据框中要连接的列。根据原始问题中给出的示例，代码将是：

left_join(test_data, kantrowitz, by = c("first_name" = "name"))

Answer 2

这更像是一种解决方法，而不是真正的解决方案。您可以使用另一个列名称创建一个新对象

test_data

：

left_join("names<-"(test_data, "name"), kantrowitz, by = "name")

     name gender
1    john      M
2    bill either
3 madison      M
4    abby either
5     zzz   <NA>

Answer 3

您还可以使用函数“join_by()”

inner_join(test_data, kantrowitz, by = join_by(first_name == name))

来自 dplyr。

加入dplyr时如何指定x和y的列名？

问题描述投票：0回答：3

3个回答

最新问题

加入dplyr时如何指定x和y的列名？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3