比例的抽样分布

从同一总体中取得的所有大小为n的可能样本,由这些样本的比例形成的一个分布,就是比例的抽样分布。用Ps代表样本比例的随机变量。比例的抽样分布其实就是一种概率分布,由所有大小为n的可能样本的各种比例构成。如果我们知道这些比例的分布,就能利用这个分布求出一个特定样本的比例的发生概率。

通俗地解释:比例的抽样分布要解决的是“已知总体的相关参数,要求解某样本比例的发生概率”的问题。具体计算步骤如下:

  1. 查看特定样本大小相同的所有样本。如果有一个大小为n的样本,就需要考虑所有大小为n的可能样本。

  2. 观察所有样本比例形成的分布,然后求出期望和方差。每个样本都有自己的情况,因此每个样本比例的目标概率都可能不同。

  3. 得出上述比例的分布后,利用该分布求出概率

比例抽样分布的期望、方差和连续性修正

在《每天一点统计学——样本预测总体》中我们已经了解,期望样本的成功比例与总体的成功比例是一致的,假设期望的成功概率为p,不成功的概率为q,那么比例抽样分布的期望的计算公式如下:

统计学概率与抽样分布(每天一点统计学)(1)

比例抽样分布的期望

在《每天一点统计学——二项分布公式的推导和使用》也涉及到相关方差的计算,比例抽样分布的方差计算也需要根据二项分布方差的公式进行推导:

统计学概率与抽样分布(每天一点统计学)(2)

比例抽样分布的方差

比例抽样分布的方差与n相关。n越大,方差越小。也就是说,样本比例包含的对象越多,用样本比例作为p的估计量就越可靠。

求出期望和方差后,可以画出比例抽样分布的图形:

统计学概率与抽样分布(每天一点统计学)(3)

比例抽样分布的正态分布图

比例抽样分布是是符合正态分布的,当n越大,比例抽样分布越接近正态分布。所谓“大”,这里特指大于30。

我们知道,正态分布是连续型分布。但是,每个样本的“成功数目”都是离散的。因此在用正态分布计算概率时,要进行连续性修正。连续性修正的公式如下:

统计学概率与抽样分布(每天一点统计学)(4)

连续性修正

比例抽样分布实践

例子:糖果总体的25%为红色,在一盒装有100粒糖果的包装盒中,至少有40%红色糖果的概率有多大?

假设Ps表示盒中红色糖果的比例,p表示红色糖果的概率,则p=0.25,q表示不是红色糖果的概率,则q=0.75,n表示样本大小,则n=100。分布计算如下:

1、求期望:E(Ps)= p = 0.25;

2、求方差:Var(Ps)= (p*q) / n = (0.25*0.75) / 100 = 0.001875;

3、Ps服从参数0.25、0.001875的正态分布,记作:Ps~N(0.25,0.001875);

4、求P(Ps >= 0.4)的数值,先进行连续性修正:

P(Ps >=0.4) = P(Ps >=0.4 - 1/(2*100)) = P(Ps >= 0.395)

5、通过查询正态分布的概率表(见正态分布这一节),可以得出:

P(Ps >=0.4) = 0.0004

,