在 R 中模拟现有面板数据

问题描述 投票:0回答:1

我需要创建一个模拟数据集,该数据集与原始数据的分布和相关性相匹配。原始数据是一个面板,变量“id_worker”表示个体,变量“year”表示各个wave。

有些变量是字符串(例如“性别”),有些变量是数字(例如“工资”);有些变量可能会随着时间而改变,而其他变量则在个人内部是固定的。

我一直在尝试使用库 faux 中的 sim_df 包,但我很难理解如何使用它的选项。

举个例子,考虑数据集 Grunfeld,它有一个变量“firm”,它是一个 id,一个变量“year”表示时间,以及三个变量(“inv”、“value”、“capital”)表示这些变量的特征。公司。跑步

data("Grunfeld", package = "plm")
fake <- sim_df(Grunfeld)

不尊重原始数据的面板结构,虚假数据最终具有非整数值“年份”或“公司”。

fake <- sim_df(Grunfeld, between="firm", within = "year", dv =  c("inv", "value", "capital"),  long=TRUE)

给我以下错误:

[.data.frame

(数据,c(id,之间,之内,dv))中的错误:
选择了未定义的列

查看文档中的示例没有帮助。

我真的很感激任何关于这个包的语法的指导,或者指示实现我需要的另一种方法。

提前致谢!

r simulation panel
1个回答
0
投票
你找到答案了吗?我最近遇到了同样的问题,但找不到答案。如果能分享就太好了

问候,

© www.soinside.com 2019 - 2024. All rights reserved.