https://zhuanlan.zhihu.com/p/29957294?utm_medium=social&utm_source=weibo
若使用标准化,不能对总体样本进行标准化,应该在训练集、测试集上分别用训练集的均值和方差进行标准化。
一般情况下,或者严格点说,在监督学习中,我们需要利用训练集数据对测试集数据进行预测。这里隐含了一个假设,就是训练数据和测试数据实际上是同分布的(因此我们才可以使用训练数据集来预测测试数据集),来自于同一个总体。
在进行标准化的过程中就将训练集的均值和方差当做是总体的均值和方差,因此对测试集使用训练集的均值和方差进行预处理。