如果数据同时包含分类自变量和连续自变量,有哪些不同的度量可用于检查多重共线性?
我可以通过将分类变量转换为虚拟变量来使用 VIF 吗?由于我在互联网上找不到任何参考资料,这是否存在根本缺陷?
Can I use VIF by converting categorical variables into dummy variables ?
是的,可以。这种方法没有根本性的缺陷。
if the data contains both categorical and continuous independent variables?
多重共线性并不关心它是分类变量还是整数变量。分类变量没有什么特别的。将分类变量转换为二进制,并将它们视为所有其他变量。
我认为您担心的是分类变量必须彼此相关,这是一个有效的担忧。假设参考类别中的案例比例较小时的情况。假设有 3 个分类变量:超重、正常、体重不足。我们可以把它变成两个分类变量。然后,如果某一类别的数据非常小(比如正常人是 100 人中的 5 人,而其他 95 人都体重不足或超重),则指标变量必然具有较高的 VIF,即使该类别变量与数据中的其他变量没有关联。回归模型。
What are the different measures available to check for multicollinearity
检测多重共线性的一种方法是获取数据的相关矩阵,并检查相关矩阵的特征值。
特征值接近 0 表示数据是相关的。