我有train(x_train)和test(x_test)数据集,但是我不确定如何规范化它。
第一个选择是使用火车数据集的均值和偏差:
(x_train-np.mean(x_train))/np.std(x_train)
(x_test-np.mean(x_train))/np.std(x_train)
第二种选择是将x_train和x_test结合起来以获得总体均值和偏差:
x=np.vstack((x_train,x_test))
(x_train-np.mean(x))/np.std(x)
(x_test-np.mean(x))/np.std(x)
您能否解释一下如何在这两种方法之间进行选择,它们中的任何一种都不正确吗?
首先,您可以使用sklearn库更轻松地进行规范化。测试数据模拟了要为模型提供新数据的情况。因此,您根本无法与他一起训练模型。您应该找到训练集的均值和标准差,并永久使用它们来标准化训练和测试。这是您的第一选择