我需要创建一个模拟数据集,该数据集与原始数据的分布和相关性相匹配。原始数据是一个面板,变量“id_worker”表示个体,变量“year”表示各个wave。
有些变量是字符串(例如“性别”),有些变量是数字(例如“工资”);有些变量可能会随着时间而改变,而其他变量则在个人内部是固定的。
我一直在尝试使用库 faux 中的 sim_df 包,但我很难理解如何使用它的选项。
举个例子,考虑数据集 Grunfeld,它有一个变量“firm”,它是一个 id,一个变量“year”表示时间,以及三个变量(“inv”、“value”、“capital”)表示这些变量的特征。公司。跑步
data("Grunfeld", package = "plm")
fake <- sim_df(Grunfeld)
不尊重原始数据的面板结构,虚假数据最终具有非整数值“年份”或“公司”。
fake <- sim_df(Grunfeld, between="firm", within = "year", dv = c("inv", "value", "capital"), long=TRUE)
给我以下错误:
查看文档中的示例没有帮助。
[.data.frame
(数据,c(id,之间,之内,dv))中的错误: 选择了未定义的列
我真的很感激任何关于这个包的语法的指导,或者指示实现我需要的另一种方法。
提前致谢!
问候,