我的数据包含一年中每天的温度测量值以及villageID分析所需的其他变量。我想创建一个新变量,计算每个村庄所有365个温度测量值的95百分位阈值。
我的数据格式很宽,看起来像这样:
villageID temp1 temp2 temp3.... temp365 otherVars
1 1 70 86 98 79 x
2 2 73 89 99 86 x
3 3 71 82 96 75 x
4 4 78 79 94 81 x
5 5 90 91 89 85 x
我想创建这个95%的阈值变量来计算阈值(或温度测量值),该阈值指示第95百分位数从哪个温度开始。我想在所有温度测量列[2:366]中做到这一点,并保持所有其他变量相同。
像这样:
villageID temp1 temp2 temp3 .....temp365 otherVars 95per
1 1 70 86 98 79 x 81
2 2 73 89 99 86 x 90
3 3 71 82 96 75 x 86
4 4 78 79 94 81 x 82
5 5 90 91 89 85 x 99
虽然我认为你应该将数据保存为长格式,但这里有一些代码可以计算它并将其放回到你拥有的宽格式中。只要知道这通常不是最好的方法,特别是如果你想稍后绘制数据:
library(tidyverse)
dat <- tribble(~"villageID", ~"temp1", ~"temp2", ~"temp3", ~"temp365",
1, 70, 86, 98, 79,
2, 73, 89, 99, 86,
3, 71, 82, 96, 75,
4, 78, 79, 94, 81,
5, 90, 91, 89, 85)
dat %>%
gather(key = "day", value = "temp", -villageID) %>%
group_by(villageID) %>%
mutate(perc_95 = quantile(temp, probs = .95)) %>%
spread(day, temp)
#> # A tibble: 5 x 6
#> # Groups: villageID [5]
#> villageID perc_95 temp1 temp2 temp3 temp365
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 1 96.2 70 86 98 79
#> 2 2 97.5 73 89 99 86
#> 3 3 93.9 71 82 96 75
#> 4 4 92.0 78 79 94 81
#> 5 5 90.8 90 91 89 85
由reprex package创建于2019-02-27(v0.2.1)
在基数R中它只是(假设只有温度列中有“temp”字符串):
dfrm$temp95perc <-
apply( dfrm[ ,grep("temp", names(dfrm) )], #select just `tempNNN` columns
1, # row-wise calcs
quantile, probs=0.95) # give `quantile` a probs