另一种估计总体统计量的方法——一种考虑了不确定性的方法:置信空间。
点估计量是有可能给出总体统计量的最佳估计,但是点估计量的推导过程存在这样的问题:依赖唯一的一个样本的结果得出非常精确的估计。但是对于这个样本是不能100%地代表总体,即使是无偏样本,也会存在小小的误差。
与其给出一个精确值作为总体均值的估计值,不如采用另一种方法:指定某个区间,而不是用一个精确的值,让均值的点估计量处于这个区间的中央,并将这个区间的上下限设定为这个点估计量加上或减去某个误差。这个区间就叫做置信区间。
设置置信区间是为了让总体均值介于这个区间内具有某个特定的概率。例如,你可能希望选择a和b,使得该区间中包含总体均值的概率是98%。也就是说,所选择的a和b使得:
P(a <μ<b)=0.95
置信空间的求解
1、选择总体估计量。这取决于要解决的实际问题。
2、求出所选统计量的抽样分布,回顾一下抽样分布的期望和方差公式:
3、决定置信水平。置信水平表明你希望自己对于“置信区间包含总体统计量”有多大把握。例如,我们希望总体均值的置信水平为95%,这表示总体均值处于置信区间中的概率为0.95。
置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。但需要注意的是:把置信区间弄得太宽,就会失去其意义。
4、求出置信区间的上下限。假设置信区间为[a,b],均值除去区间[a,b]的概率为95%,抽样分布符合正态分布,其中X拔~N(μ,0.25):
5、通过查询正态分布的概率表,找出对应标准分的概率。
置信区间的简便算法
构建置信区间会反复使用相同步骤,因此可以作一些简化,具体取决于所需要的置信水平和试验统计量的分布。下面是一些实用的置信区间的简便算法:
其中,C的数值取决于所需要的置信水平,只要以正态分布作为试验基础,就可以使用以下数值:
我们之前提到的所有抽样分布要么符合正态分布,要么可以用正态分布进行近似。然而,如果碰到不能用正态分布的情况改如何呢?这里存在两种情况:第一种是无法知晓总体方差的确切值,必须使用样本方差估计;第二种是样本太小,估计值很有可能出现较大误差,所以之前一直在强调样本数量要大于30也是因为这个原因。
遇到以上情况时,就要考虑使用T分布了!
,