点估计是给出总体参数的一个具体估计数值,但点估计没有给出估计量的精度信息,所以我们需要引入置信区间来判断样本统计量的精度,下面我们就来说一说关于区间估计的基本原理?我们一起去了解并探讨一下这个问题吧!

区间估计的基本原理(关于区间估计你需要知道的事)

区间估计的基本原理

点估计是给出总体参数的一个具体估计数值,但点估计没有给出估计量的精度信息,所以我们需要引入置信区间来判断样本统计量的精度。

比如说我们现在估计全国人民的平均身高,用点估计计算出来全国人民平均身高可能是169cm,但是其实真实的全国人民平均身高可能是169.5cm或者168.5cm。所以我们需要用区间估计来估计未知参数的一个区间范围。

如果我们说置信区间以1-α 的概率覆盖总体未知参数,这里的1-α被称为置信水平degree of confidence,α则被称为显著性水平 significance level。区间估计呢实际上就是来求这个置信区间

一般对于置信区间我们有两种解释。一种是概率解释,一种是在实践中的解释。

对于置信区间的概率解释是这样的,如果我们重复抽样,然后对于每一次抽样构建一个置信区间,那么这些置信区间中95%的区间会覆盖总体均值。也就是如果我们重复抽样1000次,构造1000个置信区间,大约有950个区间会覆盖总体均值。

在实践中呢,做1000次重复抽样的工作量过于繁重,所以我们将概率解释进行了延伸,说我们有95%的把握这个置信区间会覆盖总体均值。

置信区间的一般公式是

这里的置信因子是基于点估计的分布假设与置信水平1-α得到的一个数字。

一般我们做区间估计的时候,要么是总体服从正态分布,要么是根据中心极限定理,我们得到样本均值近似服从正态分布,一般来说这两种情况居多。所以这里我们只讨论怎么去求正态分布的总体均值μ的置信区间。

这里呢,我们需要分两种情况,一种是总体方差σ^2已知的情况,一种是总体方差σ^2未知的情况。

当σ^2已知时,μ的置信区间是

前面我们讲过Z分布就是标准正态分布,它的均值为0,方差为1。

代表的就是使得标准正态分布右尾剩余概率为α/2的点处的关键值。

比如

,就是数据落在右尾的概率为2.5%。我们可以查表得到

就等于1.96,也就是对于标准正态分布来说,有大约2.5%的数据会大于1.96。

对于标准正态分布而言,这就是从它的均值0向右移动了1.96*1,也就是1.96倍的标准差,类似的,对于非标准的正态分布,我们从均值X ̅向右移动1.96倍的标准差,数据落在剩下的右尾部分的概率就是2.5%了。前面说过,我们称样本均值的标准差为标准误。所以这里我们可以说向右移动1.96倍的标准误。

如果我们现在已知总体服从正态分布,总体方差是400,现在我们从总体中抽取100个样本数据,计算出来的样本均值是15,求置信水平为95%的总体均值的置信区间。

置信水平为95%,因为正态分布左右对称,所以数据落在左右尾部的概率都应该是2.5%,这样数据落在均值周围的概率才会是95%。对应的

是1.96,标准误等于

样本均值等于15,所以置信区间就是15±1.96×2,计算出来就是(11.08,18.92)

当σ^2未知时,如果样本容量很大,或者样本容量很小但总体服从或近似服从正态分布,我们就可以用t分布来求置信因子,并且用样本方差代替总体方差。

所以μ的置信区间是

这里的原理与使用Z分布时类似,只是查表的时候略有不同,就不赘述了。

这里有一个记忆顺口溜:

σ^2已知,z分布

σ^2未知,t分布

非正态小样本不可估计