理论上,若从正态分布总体N(μ,σ²)中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数服从正态分布N(μ,σ²/n),即样本均数的总体均数仍为μ,样本均数的标准差为σ/√n(总体标准差除以样本含量的平方根)。事实上,在样本含量n很大的情况下(如n≥50),无论原始测量变量服从什么分布,样本均数的抽样分布都近似服从正态分布N(μ,σ²/n)。这就是所谓的中心极限定理。
小结:满足以下条件之一,样本均数即可近似服从正态分布
1.总体中各观察值服从正态分布
2.样本含量很大
不同区间正态分布曲线下面积占比
应用由此可知,任何总体,无论服从正态分布还是不服从正态分布,其样本均数都可以近似服从正态分布。
满足正态分布曲线的变量可以进行可信区间的估计,样本均数的正态分布曲线可以求出包含某样本均数值的相应概率的可信区间。
样本均数与总体均数存在抽样误差,该抽样误差数值上为均数的标准误,而样本均数折算了均数的标准误后大致就是总体均数。
所以利用样本均数的正态分布的曲线和均数的标准误就可以大致估计总体均数。说明可以通过均数的标准误原理,计算样本均数统计量求出包含总体均数的相应概率的可信区间。
,