填充大量时间序列数据

问题描述 投票:0回答:1

填充时间序列数据中缺失值的最佳方法是什么?数据在工作时间内变化很大。数据大块丢失。

我尝试过回退、前向填充和平均技术来填充数据。我还尝试过使用 pandas 包进行插值(线性、最近和多项式)。但取得的结果并不是很有用。在此处输入图像描述

第一张图显示了 4 月 6 日至 9 日左右缺失的数据。第二张图是使用线性插值填充缺失值后绘制的。

填充此类数据的最佳方法是什么?我担心线性插值最终会污染数据。

我读过一些有关卡尔曼滤波器的内容。不知道如何使用它。

python machine-learning time-series missing-data
1个回答
1
投票

这实际上取决于缺失数据块的大小,但训练模型来预测缺失值在某些情况下可能有效。
除了使用

linear regression
之外,您还可以尝试使用其他模型,例如
k-nn regression
。此外,
datawig
模块 (Github) 使用神经网络来学习机器学习模型,以便估算表中的缺失值。

python中的

卡尔曼滤波器可以在

FilterPy
模块中找到。有关更多信息,您可以阅读文档此处

此外,由于您有时间序列数据可供使用,您可以查看 ARIMA 模型 是否可以完成预测缺失值的工作。

© www.soinside.com 2019 - 2024. All rights reserved.