purrr结合了pmap和nest

问题描述 投票:2回答:2

我试图学习purrr来使用rnorm在每次迭代中使用不同的方法,sd和n来模拟数据。此代码生成我的数据帧:

parameter = crossing(n = c(60,80,100),   
                    agegroup = c("a", "b","c"), 
                    effectsize = c(0.2, 0.5, 0.8),
                    sd =2
                        ) %>%
# create a simulation id number
group_by(agegroup) %>%
mutate(sim= row_number())%>%
ungroup() %>%
mutate(# change effect size so that one group has effect, others d=0
       effectsize= if_else(agegroup == "a", effectsize, 0),
       # calculate the mean for the distribution from effect size
       mean =effectsize*sd) 

现在我想迭代不同的模拟和每一行,使用rnorm根据mean,sd和r生成数据

# create a nested dataframe to iterate over each simulation and agegroup
nested_df =  parameter %>%
  group_by(sim, agegroup, effectsize)%>%
  nest() %>% arrange(sim)

这就是我的数据框看起来像:picture of dataframe

现在我想创建具有“数据”列中给出的均值,sd和n的正态分布数据

nested_df = nested_df %>%  
  mutate(data_points = pmap(data,rnorm))

但是上面的代码给出了一个我无法找到解决方案的错误:

Error in mutate_impl(.data, dots) : 
  Evaluation error: unused arguments 

我阅读了R for Data Science中的Iteration章节并搜索了一堆,但我无法弄清楚如何组合pmap和nest。我想使用这些函数的原因是它可以更容易地将参数,模拟数据和输出保存在一个数据帧中。

r purrr
2个回答
2
投票

您不一定需要嵌套参数。例如:

parameter %>%
  # Use `pmap` because we explicitly specify three arguments
  mutate(data_points = pmap(list(n, mean, sd), rnorm))
# A tibble: 27 x 7
#         n agegroup effectsize    sd   sim  mean data_points
#     <dbl> <chr>         <dbl> <dbl> <int> <dbl> <list>     
#   1    60 a               0.2     2     1   0.4 <dbl [60]> 
#   2    60 a               0.5     2     2   1   <dbl [60]> 
#   3    60 a               0.8     2     3   1.6 <dbl [60]> 

使用嵌套数据框,您可以使用map而不是pmap

nested_df %>%
  # Use `map` because there is really one argument, `data`,
  # but then refer to three different columns of `data`.
  mutate(data_points = map(data, ~ rnorm(.$n, .$mean, .$sd)))

1
投票

首先,可以像这样使用pmap

x <- tibble(n = 100, mean = 5, sd = 0.1)
pmap(x, rnorm)

这与使用do.call非常相似:

do.call(rnorm, x)

但是,如果你想在pmap中使用mutate,你可以将函数.f的输入带入正确的形状。写作

nested_df %>% 
  mutate(y = pmap(x, f))

意味着f期望输入x。在你的情况下,rnorm需要三个输入,但只能获得一个输入。

因此,如果您坚持嵌套输入,您可以这样做:

nested_df %>%  
  mutate(data_points = pmap(list(data), function(z) pmap(z, rnorm))[[1]])

要么

   nested_df %>%  
      mutate(data_points = pmap(list(data), function(z) do.call(rnorm, z))).

但是我建议稍微改变一下:

parameter %>% 
  mutate(data_points = pmap(list(n, mean, sd), rnorm))

希望这有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.