我正在构建具有一个响应变量和多个解释变量的线性回归模型。对于解释变量,我怀疑一个数值变量和一个因子变量是相互依赖的。这里我有两个问题:首先,如何测试它们是依存的还是独立的?我对独立性的卡方检验有所了解,但在R中,似乎只能测试两个数值变量或两个因子变量。
第二,鉴于这两个变量在某种程度上是相关的,我应该如何构建模型?我的目标是解释响应变量的方差。我能否分辨出哪个变量解释了响应变量的较大部分?
谢谢!
两个变量之间的完全线性相关性很容易测试:
if( cor(v1,v2) != 1 ) { print("v1 is not linearly dependent on v2"}
[因子变量和连续数值变量极不可能满足此测试。在R中,对“ naked”变量执行此测试将引发错误:
cor( factor(rep(1:2,5)), 1:10)
#Error in cor(factor(rep(1:2, 5)), 1:10) : 'x' must be numeric
cor( as.numeric(factor(rep(1:2,5))), 1:10)
#[1] 0.1740777
但是在回归框架中使用两个这样的变量不会引发错误或不会导致系数闭锁。