如何在R中使用别名/同义词字典重命名列名?

问题描述 投票:0回答:1

我在这个很棒的网站上读了很多东西,但这实际上是我的第一个问题。所以忍受我!

我是一名博士生,研究来自不同科学家的生态数据(不同地区的物种丰度数据)。我想改善数据管理,并停止手工编辑原始数据,而是使用脚本进行所有更改。物种的分类法可能一团糟,意思是:同一物种的不同同义词或别名。另外,由于我使用来自不同科学家的数据,因此我必须处理不同的物种缩写,不同的列顺序以及错别字。随便你我现在想知道是否存在使用别名/同义词字典重命名列名的好方法。我花了几个小时进行研究,但找不到真正适合我问题的答案。

这是我的数据的一个小例子:

df1 <- tibble(depth_cm = c(1.5:4.5), n_pachyderma_d = c(70.2:73.2), n_pachyderma_s = c(10.1:13.1), g_quinqueloba = c(2.4:5.4))
dict <- tibble(new_name = c("turborotalita_quinqueloba", "neogloboquadrina_incompta", "neogloboquadrina_pachyderma"),  alias1 = c("t_quinqueloba", "neogloboquadrina_pachyderma_dextral", "globigerina_pachyderma"), alias2 = c("g_quinqueloba", "n_pachyderma_d", "n_pachyderma_s"), alias3 = c(NA, "n_incompta", "n_pachyderma"))

df1是我的实际原始数据表,其中包含深度值和不同物种的丰度。

> df1
# A tibble: 4 x 4
  depth_cm n_pachyderma_d n_pachyderma_s g_quinqueloba
     <dbl>          <dbl>          <dbl>         <dbl>
1      1.5           70.2           10.1           2.4
2      2.5           71.2           11.1           3.4
3      3.5           72.2           12.1           4.4
4      4.5           73.2           13.1           5.4 

dict是我要使用的字典。请注意,特定物种可能会有不同数量的别名。我想在遇到新别名时立即用新别名更新此词典。

> dict
# A tibble: 3 x 4
  new_name                    alias1                              alias2         alias3      
  <chr>                       <chr>                               <chr>          <chr>       
1 turborotalita_quinqueloba   t_quinqueloba                       g_quinqueloba  NA          
2 neogloboquadrina_incompta   neogloboquadrina_pachyderma_dextral n_pachyderma_d n_incompta  
3 neogloboquadrina_pachyderma globigerina_pachyderma              n_pachyderma_s n_pachyderma

我现在想通过在dict中查找列名,用new_name重命名df1的种类列名。但是,由于我仍在学习R,所以我不知道如何解决此问题。但基本上,我想用字典检查每个列的名称,然后用正确的种类名称重命名该列。有一个聪明的方法吗?我的主要目标是自动化不同数据集的导入和标准化。

我真的很期待每一个建议或帮助!

r dictionary tibble
1个回答
0
投票

我们可以将'dict'重塑为'long'格式

library(dplyr)
library(tidyr)
new_dict <- dict %>%
      pivot_longer(cols = starts_with('alias')) %>%
      filter(value %in% names(df1)) %>% 
      select(-name)

并使用它来重命名'df1'中的列

df2 <- df1 %>% 
          rename_at(vars(new_dict$value), ~ new_dict$new_name)
© www.soinside.com 2019 - 2024. All rights reserved.