从同一批芯片中抽取两份样品,一份合格一份不合格,这说明什么问题呢?直观感觉可能是该批芯片的不良率太高,但还有一种可能是碰巧抽到了为数不多的不合格品。假设检验是一种非常重要而又常用的统计方法,其任务就是确认这份不合格的样品到底是碰巧抽到的,还是这批芯片真的不良率太高了。

零假设

在刑事案件中,抓获嫌疑人以后,在审判之前司法人员无法确定嫌疑人是否有罪,这时会对其进行假设,两种方法如下。

1. 假设嫌疑人有罪,嫌疑人需要提供证据证明自己无罪,如果无法证明,就可以认定其有罪,这叫作有罪推定。

2. 假设嫌疑人无罪,司法人员需要提供证据证明嫌疑人有罪,如果无法证明,就可以认定其无罪,这叫作无罪推定。

两种原则的优缺点属于法学家的研究课题,但是在统计学中,假设检验的思想和无罪推定原则如出一辙。

先看 3 个假设命题:

™ 20 ~ 30 岁的人的平均记忆能力和 50 ~ 60 岁的人的平均记忆能力没有差异。

™ 养老院照看老人的效果和子女亲自照看老人的效果没有差异。

™ 每天练习的短跑运动员和一周练习一次的短跑运动员在短跑成绩上没有差异。

这 3 个假设的共同之处在于,无论做哪种选择,最后的结果都是一样的,也可以说每种选择之间是等价的或没有差异的。

如果想研究 20 ~ 30 岁的人群和 50 ~ 60 岁的人群的记忆能力的差别,在没有任何其他的信息之前,不能认为二者存在差异。在对事物没有更多的了解之前,一般先给一个无差异的假设,这就是零假设,也被称为原假设,就像无罪推定原则,要先给嫌疑人一个无罪的假设。

对一个或多个总体提出零假设,是假设检验的起点。除非能够证明事物之间存在差异,否则要一直假设没有差异。

背择假设(对立假设)

零假设是指变量间没有关系,而备择假设是指变量间有很明确的关系,是和零假设完全相反的,所以备择假设也称为对立假设。例如,在上一节中的 3 个零假设,都会有至少一个相应的对立假设,如表 9-1 所示。

表 9-1 零假设和对立假设

零假设

对立假设

20 ~ 30 岁的人的平均记忆能力和 50 ~ 60岁的人的平均记忆能力没有差异

20 ~ 30 岁的人的平均记忆能力比 50 ~ 60岁的人的平均记忆能力更强

养老院照看老人的效果和子女亲自照看老人的效果没有差异

养老院照看老人的效果比子女亲自照看老人的效果差

每天练习的短跑运动员和一周练习一次的短跑运动员在短跑成绩上无差异

每天练习的短跑运动员比一周练习一次的短跑运动员在短跑成绩上更好

这 3 个对立假设的共同之处在于,每做一种选择,就会有不同的结果与之相对应,也可以说每种选择之间是不等价的或是有差异的。

有差异的关系又可以分为两种情况,有方向的对立假设和无方向的对立假设。

例如,20 ~ 30 岁的人的平均记忆能力和 50 ~ 60 岁的人的平均记忆能力不同。只说了两个群体是不同的,至于怎样不同并没有限定,这就是无方向的对立假设。

如果将上述假设加以修改,20 ~ 30 岁的人的平均记忆能力优于 50 ~ 60 岁的人的平均记忆能力。不仅指出两个群体是不同的,而且还说明了两个对照群体中谁强谁弱,这就是有方向的对立假设。

假设检验流程

以20 ~ 30 岁和 50 ~ 60 岁的人群记忆能力对比为例,如果想知道两个人群的记忆能力差异,步骤如下。

1.提出零假设,这是基础,即“20 ~ 30 岁的人的平均记忆能力和 50 ~ 60 岁的人的平均记忆能力没有差异”。相当于无罪推定。

2.分别从两个人群中抽样,得到两个样本,同时提出对立假设“20 ~ 30 岁的样本人群的平均记忆能力比 50 ~ 60 岁的样本人群的平均记忆能力强”。相当于司法人员对嫌疑人提出有罪指控。

3.证明对立假设是否成立,具体证明方法会在下一节中讨论。如果对立假设成立,零假设就不成立;如果对立假设不成立,那么零假设就成立。这里要注意的是,零假设和对立假设是完全相反的结论,是互斥的,只要其中一个成立,另一个一定是不成立的。相当于司法人员提供证据,证明嫌疑人是否有罪,如果证据充分即可证明其有罪,如果证据不充分,则无法证明其有罪,要维持无罪的假设。

从该流程可以看出零假设和对立假设的区别如下。

1. 零假设是指两个变量之间无差异,对立假设是指两个变量之间有差异,两种假设是互斥的,这是本质区别。

2. 零假设是相对总体而言的,对立假设是相对样本而言的。先对一个总体做了零假设,然后再从中抽取样本对其进行对立假设,所以两种假设的主体是不同的。

常见的数据分析方法(说说数据分析中的假设分析)(1)

图 9-1 假设检验流程

图 9-1 展示的逻辑看上去和参数估计有些相像,参数估计是用样本特征估计总体特征,假设检验是用样本假设检验总体假设,都是从样本出发解决总体问题。

,