通常,当使用NN时,我以这种形式进行归一化:
scaler = StandardScaler()
train_X = scaler.fit_transform( train_X )
test_X = scaler.transform( test_X )
也就是说,我在分割后进行归一化,所以从测试仪到火车仪没有泄漏。但是我在使用LSTM时对此表示怀疑。
想象一下,我在LSTM中设置的训练中的最后一个序列是X = [x6,x7,x8],Y = [x9]。
然后,我在测试集中的第一个序列应为X = [x7,x8,x9],Y = [x10]。
因此,如果我最终在测试集的X中混合了来自两个集合的值,那么在分割后对数据进行归一化是否有意义?还是我应该先使用
规范化整个数据集scaler = StandardScaler()
data = scaler.fit_transform( data )
然后进行拆分?
您显示的规范化过程是解决每个机器学习问题的唯一正确方法,而LSTM绝不是例外。