我有一个关于从线性混合模型(使用 lmer 函数)获得的输出统计数据相对于从该模型获得的估计边际均值获取的输出统计数据的疑问
本质上,我正在运行 LMM 来比较不同背景(以“负面”编码作为基线)对享受评级的受试者内影响。 LMM 输出表明消极语境和礼貌语境之间的差异并不显着,p 值为 0.35。请参阅下面的屏幕截图,其中突出显示相关行:
但是,当我在同一模型上运行 lsmeans 函数(使用 Holm 校正)时,否定和礼貌上下文类别之间比较的 p 值现在为 0.05,并且所有其他统计数据也发生了变化。再次参见下面的屏幕截图,其中突出显示了相关行:
我可能很笨,因为我对 LMM 的理解并不是很深入,但我尝试用 Google 搜索原因,但我似乎找不到原因?我认为这与校正没有任何关系,因为使用 Holm 校正时观察到较小的 p 值。因此,我想知道为什么会出现这种情况,我应该报告/坚持哪个值,为什么?
回归系数和边际均值不是一回事。一旦您了解了这些概念,就会更容易地找出哪个概念更具信息性,从而确定您应该报告哪个概念。
通过估计系数来拟合回归后,我们可以在给定 m 输入变量的情况下预测结果 yi Xi = (Xi1, ..., Xim) 。如果输入提供有关结果的信息,则对于不同的 Xi,预测的 yi 会有所不同。如果我们用 Xij = xj 对预测 yi 进行平均,我们就可以得到第 j 个特征在值 xj 处的边际效应。跟踪哪些输入保持固定(以及固定值)以及哪些输入被平均(也称为边缘化)至关重要。
在您的情况下,系数
summary中的
contextCatPolite
是当smileType
设置为其参考级别(我猜没有奖励)时礼貌和消极之间的差异。在 emmeans 对比中,Polite - Negative
是所有 smileType
的平均差异。
交互可以使解释更具挑战性,并且您的模型包括 smileType 和 contextCat 之间的交互。请参阅emmeans中的交互分析。
要添加@dipetkov的答案,LMM中的系数基于治疗编码(有时称为“虚拟”编码)。通过模型中的交互作用,这些系数不再是传统意义上的阶乘方差分析中的“主效应”。例如,如果您有:
y = b_0 + b_1(X_1) + b_2(X_2) + b_3 (X_1 * X_2)
...b_1 仅当 X_2 = 0 时才是“X_1 的效果”:
y = b_0 + b_1(X_1) + b_2(0) + b_3 (X_1 * 0)
y = b_0 + b_1(X_1)
因此,正如 @dipetkov 指出的那样,1.625 并不是所有其他因素中平均消极和礼貌之间的差异(你可以从emmeans得到)。相反,这个系数是消极和礼貌之间的差异,特别是在 smileType = 0
时。如果您使用
对比编码而不是治疗编码,那么回归输出的系数将与估计的边际均值相匹配,因为smileType = 0
现在将是微笑类型的平均值。因此,编码方案对回归系数的估计值和统计显着性有巨大影响,但它不应该影响基于偏差/方差减少的 F 检验(因为无论您如何编码,给定变量都会解释相同的结果)方差量)。
https://stats.oarc.ucla.edu/spss/faq/coding-systems-for-categorical-variables-in-regression-analysis/