“样本方差要除n-1”,这句话似乎一直纠结在学统计的人心里。那么,样本方差究竟为什么要除n-1呢?

有的解释说因为要满足均值,就只剩下了n-1个可能;有的人说因为样本均值用掉了一个自由度,所以只能除n-1。

下面,我们就从概率论的角度来推导一下为什么是n-1。


我们之所以要计算样本方差,是因为希望可以通过样本方差来表示总体方差,即希望样本方差的期望等于总体方差。不使用期望解释的话,就是希望如果不断从总体中抽取无数个样本组,最终所有样本组的方差的均值就是总体方差。

我们先使用除n-1的公式计算样本方差的期望,此时样本方差的公式为:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(1)

因此,样本方差的期望为:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(2)

因为要使用样本方差估计总体,所以我们总体均值将总体均值引入到样本方差的期望中:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(3)

因为期望具有如下性质(其中C为常数):

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(4)

故上式的样本方差可以继续化简为:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(5)

我们已知总体方差的公式为:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(6)

又知均值的方差为(其中D(X)表示X的方差):

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(7)

故上式的样本方差还可以继续化简为:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(8)

所以当样本方差除n-1时,样本方差的期望才等于总体方差,在概率论中称之为无偏估计。


还可以用如上方法计算当样本方差除n时样本方差的期望,最终得到如下结果:

样本方差不是除以n吗(样本方差究竟为什么要除n-1)(9)

此时样本方差的期望不等于总体方差,不是总体方差的无偏估计。


作者:长行

,