用于分配观察群组ID的功能

问题描述 投票:-1回答:1

很抱歉没有提供数据。以下是一些示例数据:

PERCENT <- rnorm(100, sd = 3)
YEAR <- sample(c(1950, 1958, 1963, 1974, 1982, 1994), 100, replace = TRUE)
AGE <- sample(c(18:90), 100, replace = TRUE)
COUNTRY <- rep(c("Country A", "Country B"), 50)
df <- data.frame(PERCENT, YEAR, AGE, COUNTRY)

我试图追踪年龄组随着时间的推移。为此,我想为每个病例提供一个年龄组的唯一ID。我知道如何手动执行此操作,如下所示:

df %>% 
  filter(AGE >= 18 & AGE <= 27, YEAR == 1950 | 
         AGE >= 26 & AGE <= 36, YEAR == 1958 |
         AGE >= 31 & AGE <= 40, YEAR == 1963 |
         AGE >= 42 & AGE <= 51, YEAR == 1974 | 
         AGE >= 50 & AGE <= 59, YEAR == 1982 |
         AGE >= 60 & AGE <= 69, YEAR == 1994) %>%   
  mutate(COHORT_ID = "18-27 in 1950")

但要在几个年龄段进行此操作需要大量打字。我正在尝试做一个循环或函数,它为年t中年龄x和y之间的所有人分配一个群组标签,并在年t + u为x + u到y + u的人分配一个群组标签。

我试图做一个函数,将最小年龄的向量,最大年龄的向量和调查波年的向量作为参数作为参数,并将标签添加到数据框中的新列。

这是我到目前为止提出的:

function(xmin, xmax, year) {
  df$cohort <- 0, #to initialize the column
  ### here the magic happens
  }

我检查了this页面,但他们似乎在谈论别的东西。

如果有一种有效的方法可以在不使用函数的情况下完成此操作,我同样会感激!提前致谢!

编辑:我刚刚意识到,自年龄段(10年)和调查波(不规则间隔)不排列以来,每个观察可能属于几个队列类别。每个群组ID的虚拟变量是否会解决这个问题?

r function functional-programming
1个回答
0
投票

我不完全确定我理解你的问题;所以以下是基于我对你想要实现的目标的解释。

我们首先设置一个参考年,在此基础上我们表达不同AGEs的不同YEAR值。在这里,我选择max(df$YEAR)作为参考年份。

maxYEAR <- max(df$YEAR);
maxYEAR;
#[1] 1994

# Calculate age at reference year maxYEAR
df$normAGE <- maxYEAR - df$YEAR + df$AGE;

然后我们可以使用1994将标准化的年龄值(在参考年cut)中分类。

# Bin normalised years in 10 year bins
df$ageBin <- cut(df$normAGE, breaks = seq(0, max(df$normAGE) + 10, by = 10));
head(df);
#     PERCENT YEAR AGE   COUNTRY normAGE    ageBin
#1  4.3026044 1974  41 Country A      61   (60,70]
#2 -0.2318759 1982  44 Country B      56   (50,60]
#3  2.2174117 1994  47 Country A      47   (40,50]
#4 -5.2758142 1994  43 Country B      43   (40,50]
#5 -0.2094757 1963  71 Country A     102 (100,110]
#6  1.3557166 1982  48 Country B      60   (50,60]

如有必要,我们可以使用as.numeric(df$ageBin)获取bin编号。


样本数据

# Sample data
set.seed(2017);
PERCENT <- rnorm(100, sd = 3)
YEAR <- sample(c(1950, 1958, 1963, 1974, 1982, 1994), 100, replace = TRUE)
AGE <- sample(c(18:90), 100, replace = TRUE)
COUNTRY <- rep(c("Country A", "Country B"), 50)
df <- data.frame(PERCENT, YEAR, AGE, COUNTRY)
© www.soinside.com 2019 - 2024. All rights reserved.