用个简单的例子马上就懂了:
1.你的数据:假设你现在从 100 个病人中收集到了一组数字(每个人的身高)。
2.你的任务:你需要用这组数字来估计整个人群的身高波动即标准差(比如估计我们国家,共有13亿),但你只能使用你手头的这些数字。
关键点来了!
一个重要的假设是:由于你没有所有可能的数据(因为你只取了一部分,即“样本”),所以你的估计可能会有一点偏差,这种偏差往往是对样本波动性的估计过低。
理解上面这一句话非常重要,当你只取了 100 个样本时,实际上你的这一百个样本的波动性(不确定性)是要小于于总体样本的。因为,我们知道,当样本数量增加,数据的极端值往往会增加。
再举个例子,你在人群中抽样10个人、甚至是100个人,大概率抽不到姚明这么高的。但是当你增加抽样次数,抽1千万个样本,总会有几百个2米多的壮汉。应了那句古话,林子大了什么鸟都有!
所以,当你使用样本标准差估计整体标准差时,你可能忽略了“林子大了”(整体样本)以后鸟(数据)的多样性。所以分母除以n-1,实际上是在样本标准差的条件下增加了我们对总体波动性的估计。(分母减少,数值增大)