1908年,《生物统计》期刊上发表了一篇题名《平均数的可能误差》(The Probable Error of the Mean)的文章,作者是笔名为“学生”的匿名学者,这篇文章中所介绍的统计方法就是后来为世人所熟知的t检验。

牛津大学毕业的戈赛特(William Sealy Gosset),拥有数学和化学的双学位,毕业后来到著名的吉尼斯酒厂做快乐的打工人(没错,就是吉尼斯纪录那个吉尼斯)。

统计学第九章抽样与抽样分布答案(统计起源第二讲)(1)

吉尼斯酒厂是一个很有野心的公司,因此招聘了牛津大学的高材生

戈赛特的工作之一是测量麦芽浆发酵时的酵母含量,这个含量会直接影响啤酒的味道。在这个过程中戈赛特发现,典型的实验只有10到20个观测数据(即样本量比较小),那么样本的统计量跟总体的参数之间必然有误差,通俗的来讲,在此之前,大家认为如果样本量足够大,总体的平均数和标准差等是可以被求出来的,但是戈赛特提出,平时我们的样本量远远小于总体的数量,那么样本所求出来的平均数跟总体的平均数应该会有误差,这个误差会有多大呢?总体是我们的理想研究对象,例如酒厂里所有的酒,在实际研究中往往是无法全部触及的,假设吉尼斯酒厂的仓库里有10000桶酒,我们不能都打开测量酵母含量。我们从中随机抽取20桶,就可以作为样本。为了不引起混淆,样本的平均数、标准差等被称为统计量,而总体的平均数和标准差等被称为参数,并且它们都使用不同的字母。样本要有代表性,最常见的办法就是要从总体中随机抽取,样本的统计量用来估计总体的参数,这个过程被称为推论统计。

统计学第九章抽样与抽样分布答案(统计起源第二讲)(2)

总体参数与样本统计量的写法不同,有时候样本均值也写作M

实际上,戈赛特提出了一系列数学发现,但是吉尼斯酒厂不允许员工发表文章,因为曾经有秘方泄露的事件发生。结果戈赛特被《生物统计》的编辑卡尔.皮尔逊盯上了,在卡尔.皮尔逊的劝说下,戈赛特只好隐藏身份以“学生”的笔名发表文章,直到人生的最后,在吉尼斯他的双重身份是否暴露仍旧是个谜。为了往下深入,我们还是得从平均数说起。

,