我有一个数据集,里面有几个星期观察到的个人。有些人在某些周内没有观察到,有些人在同一周内有几次观察。我需要创建一个每周的ID(代码中的id_week),这个ID是针对个人的。如果一个人在一周内有两个或更多的观察结果,那么两个观察结果的id_week应该是相同的。如果一个人在某一周内没有观察到任何数据,那么下一周的观察结果应该是最后一个观察点的结果。这将导致以下数据。
dt<-data.frame(individ=c(1,1,1,2,2,2,3,3,3,3),week=c(1,2,2,1,2,4,1,3,4,4),id_week=c(1,2,2,1,2,3,1,2,3,3))
我有三条线 dt[, id := .GRP, by = .(individ, week)]
但它只给了我几周的ID,没有考虑到个体。我也试过dplyr的解决方案,但它没有考虑到一周内的重复观察,给每一行都分配一个ID,这不是我需要的。
dt%>%
group_by(individ)%>%
mutate(pp = row_number(week))
一个使用 data.table
:
setDT(dt)[, id_week := rleid(week), individ]
这里有几种选择。
1) 使用 dense_rank
:
library(dplyr)
dt %>% group_by(individ) %>% mutate(id_week = dense_rank(week))
(2) 使用 match
和 unique
:
dt$id_week <- with(dt, ave(week, individ, FUN = function(x) match(x, unique(x))))
(3) 转换为 factor
然后 integer
:
library(data.table)
setDT(dt)[, id_week := as.integer(factor(week)), individ]