填充时间序列数据中缺失值的最佳方法是什么?数据在工作时间内变化很大。数据大块丢失。
我尝试过回退、前向填充和平均技术来填充数据。我还尝试过使用 pandas 包进行插值(线性、最近和多项式)。但取得的结果并不是很有用。在此处输入图像描述
第一张图显示了 4 月 6 日至 9 日左右缺失的数据。第二张图是使用线性插值填充缺失值后绘制的。
填充此类数据的最佳方法是什么?我担心线性插值最终会污染数据。
我读过一些有关卡尔曼滤波器的内容。不知道如何使用它。
这实际上取决于缺失数据块的大小,但训练模型来预测缺失值在某些情况下可能有效。 除了使用
linear regression
k-nn regression
datawig
卡尔曼滤波器可以在
FilterPy
此外,由于您有时间序列数据可供使用,您可以查看 ARIMA 模型 是否可以完成预测缺失值的工作。