我正在使用LSTM来预测时间序列数据的未来值。在我的数据中,我分散了NaN值(大约整个数据集的2%)。
LSTM
2%
是完全消除这些行还是通过插值来填充它们更好?征求有关该主题的一些意见和专业知识。
我认为这个问题在某种程度上取决于使用的上下文,数据集的大小等。如果您知道可以以合理的准确度轻松地对缺失值进行插值(即,它们是二进制数/其他字段的乘积),则插值很有意义。否则最好删除这些值,以免产生错误/偏差。