应用 tidyr:: 分隔多列

问题描述 投票:0回答:3

我想迭代数据框中的列,并根据分隔符将它们分成几部分。我正在使用

tidyr::separate
,当我一次只做一列时它就有效。

例如:

df<- data.frame(a = c("5312,2020,1212"), b = c("345,982,284"))

df <- separate(data = df, col = "a", 
                         into = paste("a", c("col1", "col2", "col3"), 
                                      sep = "_"), sep = ",")

退货:

  a_col1 a_col2 a_col3           b
1   5312   2020   1212 345,982,284

当我尝试对

df
的每一列执行相同的操作时,R 返回错误

例如我使用了这个for循环:

for(col in names(df)){
    df <- separate(data = df, col = col, 
into = paste(col, c("col1", "col2", "col3), 
sep = "_"), sep = ",")
    }

我期望得到以下输出:

  a_col1 a_col2 a_col3 b_col1 b_col2 b_col3
1   5312   2020   1212    345    982    284

但是 R 返回此错误:

Error in if (!after) c(values, x) else if (after >= lengx) c(x, values) else c(x[1L:after],  : 
  argument is of length zero

还有另一种方法可以将

tidyr::separate
应用于数据框中的多列吗?

r dataframe lapply tidyr
3个回答
14
投票

您可以向

separate_()
提供自定义的
Reduce()
调用。

sep <- function(...) {
    dots <- list(...)
    n <- stringr::str_count(dots[[1]][[dots[[2]]]], "\\d+")
    separate_(..., into = sprintf("%s_col%d", dots[[2]], 1:n))
}

df %>% Reduce(f = sep, x = c("a", "b"))
#   a_col_1 a_col_2 a_col_3 b_col_1 b_col_2 b_col_3
# 1    5312    2020    1212     345     982     284

不然,

cSplit
也会这样做。

splitstackshape::cSplit(df, names(df))
#     a_1  a_2  a_3 b_1 b_2 b_3
# 1: 5312 2020 1212 345 982 284

2
投票

新答案

tidyr
中的新实验功能正是为了这个目的

df <- data.frame(a = c("5312,2020,1212"), b = c("345,982,284"))
library(tidyr)
df %>% 
  separate_wider_delim(everything(), delim = ",", names_sep = "_")
#> # A tibble: 1 × 6
#>   a_1   a_2   a_3   b_1   b_2   b_3  
#>   <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 5312  2020  1212  345   982   284

创建于 2024-04-21,使用 reprex v2.1.0


旧答案

这适用于单一语法中每列可变数量的分隔符。通过详细示例进行演示。

library(tidyverse)

df<- data.frame(a = c("5312,2020,1212", "21,4534"), 
                b = c("345,982,284", "324,234,3425,654"),
                c = c('34,89,89', '87866675'))

df
#>                a                b        c
#> 1 5312,2020,1212      345,982,284 34,89,89
#> 2        21,4534 324,234,3425,654 87866675

reduce(seq_along(df), 
       .init = df, 
       ~ .x %>% separate(names(df)[.y], 
                         sep = ',', 
                         into = paste0(names(df)[.y], '_col_' , seq(1 + max(str_count(df[[.y]], ',')))),
                         fill = 'right'
                         )
       )
#>   a_col_1 a_col_2 a_col_3 b_col_1 b_col_2 b_col_3 b_col_4  c_col_1 c_col_2
#> 1    5312    2020    1212     345     982     284    <NA>       34      89
#> 2      21    4534    <NA>     324     234    3425     654 87866675    <NA>
#>   c_col_3
#> 1      89
#> 2    <NA>

reprex 包于 2021-07-19 创建(v2.0.0)


1
投票

我有同样的疑问(学习

tidyverse
),所以就这样完成了。注意:我想要一个不会崩溃的解决方案,因此不依赖于了解 colnames。

library(tidyverse)

创建您的输入:

dft <- as_tibble(data.frame(a = c("5312,2020,1212"), b = c("345,982,284")))
df <- as.data.frame(dft)

创建一个空白 tibble 来收集输出:

dft0 <- read_csv("a\na")  
dft0 <- dft0[,-1]
dft00 <- dft0

指定要分离的元素的长度(可以在循环中完成,但我们通过查看

dft
知道);注意:如果您有更好的命名方式,请使用:

leng <- 3

For循环版本:

for(x in 1:dim(df)[2]){
        dataCol <- dft[,x]
        newCols <- paste(colnames(dataCol)[1], paste("col", 1:leng, sep="") , sep="_")

        dft0 <- cbind(dft0,
                    separate(data = dataCol,
                             col = colnames(dataCol)[1],
                             into = newCols,
                             sep = ","))}

凌乱的应用版本:

sapp <- sapply(colnames(df),function(ff){
                            separate(as_tibble(df[,ff]),
                                     "value",
                                     letters[1:leng],
                                     sep=",")})

dft00 <- as_tibble(do.call(cbind, sapp))

colnames(dft00) <- as.vector(sapply(colnames(sapp),
                             function(sa){
                                      paste(sa,
                                            rownames(sapp),
                                            sep="_")
                                         }))
© www.soinside.com 2019 - 2024. All rights reserved.