数据处理-是否最好删除NaN值或将其填充以进行时间序列RNN预测？

Question

我正在使用LSTM来预测时间序列数据的未来值。在我的数据中，我分散了NaN值（大约整个数据集的2%）。

是完全消除这些行还是通过插值来填充它们更好？征求有关该主题的一些意见和专业知识。

Answer 1

我认为这个问题在某种程度上取决于使用的上下文，数据集的大小等。如果您知道可以以合理的准确度轻松地对缺失值进行插值（即，它们是二进制数/其他字段的乘积），则插值很有意义。否则最好删除这些值，以免产生错误/偏差。