按group_id循环回归,只使用某个估计窗口中的观测值,并将预测值加回pandas数据框架。

问题描述 投票:0回答:1

我正试图学习如何在python 3.7中执行一些我通常在Stata中很容易完成的操作。

我正在做这样一个数据框架。

estimation_window    group_id         y            x   
0                       1             3.17         23
1                       1             4.76         26
1                       2             4.17         73
1                       2             8.70         72
0                       2             11.45        16

我想用一个for循环对group_id中的每一个不同的组进行线性回归估计(y on x),只使用假估计窗口(dummy estimation_window)等于1的观测值。

然后,我想在初始数据框中添加三列:一列是预测值,一列是每个回归的β值(x系数),一列是每个回归的截距。这些值应该针对所有的观测值进行计算,而不仅仅是那些虚值估计窗口等于1的观测值。

结果数据集应该是这样的。

estimation_window    group_id         y            x        predicted_val    beta_coeff  alpha_coeff
0                       1             3.17         23           3.10            0.32         1.43        
1                       1             4.76         26           4.00            0.32         1.43
1                       2             4.17         73           4.10            0.75         0.95
1                       2             8.70         72           8.50            0.75         0.95
0                       2             11.45        16           10.30           0.75         0.95

我试过用statsmodels,但没能弄明白。

python pandas linear-regression statsmodels
1个回答
0
投票

假设你有你的数据框。

>>> data
   estimation_window  group_id      y     x
0                  0         1   3.17  23.0
1                  1         1   4.76  26.0
2                  1         2   4.17  73.0
3                  1         2   8.70  72.0
4                  0         2  11.45  16.0

然后你可以通过分组 group_id,并逐一做线性回归,保存好参数。如果你使用的是 statsmodels,这是你可以做的。

for groupid, grp in data.groupby('group_id'):
    print(groupid)
    model = sm.OLS(grp['y'], sm.add_constant(grp['x'])).fit()
    data.loc[data['group_id'].eq(groupid), 'alpha'] = model.params['const']
    data.loc[data['group_id'].eq(groupid), 'beta'] = model.params['x']

然后你可以手动重新计算预测值(只是因为线性模型很简单)。

data['predicted_val'] = data['x'] * data['beta'] + data['alpha']

然后你就有了这个结果:

   estimation_window  group_id      y     x      alpha      beta  predicted_val
0                  0         1   3.17  23.0  -9.020000  0.530000       3.170000
1                  1         1   4.76  26.0  -9.020000  0.530000       4.760000
2                  1         2   4.17  73.0  12.926162 -0.089804       6.370451
3                  1         2   8.70  72.0  12.926162 -0.089804       6.460255
4                  0         2  11.45  16.0  12.926162 -0.089804      11.489294
© www.soinside.com 2019 - 2024. All rights reserved.