掷一枚均匀的硬币200次,出现100次正面朝上的概率为:
一般地,这里的随机变量X服从二项分布X~B( 200 , 1/2 ). 对应的概率及分布如下:
二项分布的研究始于雅各布•伯努利(Jacob Bernoulli,1654-1705)。在《推测术》(1713)一书中,伯努利提出了通过"频率来估计概率"的"大数定理":
设m是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的为p,则对任意正数ε,有公式:
这为概率在实际中的应用提供了有力工具。因为很多时候某事件发生的概率是未知的,但是通过多次重复试验,以频率来估计概率,可行性很好。在知晓了单次事件发生的概率以后,接下来是研究多次重复实验的二项分布的计算问题。当然,对于个别随机变量求值,通过公式(*)就可计算得到。但是实际运用中,(*)中的实验次数n往往很大,而且需要对(*)在某区间内求和。怎么处理呢?下一个大咖出场了。
棣莫弗(De Moivre,1667-1754)是18世纪法国著名数学家,1933年,他提出和证明了以下的棣莫弗中心极限定理:
中心极限定理一度在概率论研究中占据了核心地位,在棣莫弗的基础上,以拉普拉斯为代表的数学家做出了更深入的研究。从现在的角度来看,(***)具有以下几方面的重要意义。首先, 该定理的初衷是计算二项分布X∼B(n , 1/2)中, X 落在二项分布中心点E(X)=1/2·n周围的概率,这只需在原式基础上稍作变化即可:
可得到伯努利大数定理(**)。
最后,也是最重要的一点,该定理说明了:二项分布的极限分布是正态分布。尽管棣莫弗时代并没有正态分布的概念,但它的确以密度函数的形式在中心极限定理中出现了。这是正态分布的第一次登场,但一点也不闪亮,因为中心极限定理提供了一个近似计算二项分布的简便算法,但其中蕴含的正态分布并没有被独立看待,也没有像现在这样的重要,甚至渐渐被遗忘。但是在另一个领域,正态分布正等待一个超级大咖的出现。
误差分析源于天文、航海、战争等实际需要,测量必不可少。但受限于器材精度等原因,测量误差无处不在。如何更好的减少误差自古就是一个世界级难题。
17世纪以前多以多组测量数据的算术平均值来估计真值,到了18世纪在拉普拉斯等数学家的努力下有了一定的突破。最终在勒让德和高斯手中得到一个系统的方法——最小二乘法。
高斯的最小二乘法因为与"正态分布"强强结合,而更胜勒让德一筹。高斯的大致思路是这样的。
设一次测量得到了n个数据:a,b,c,...。 它们与真实值这间的误差x分别为:x-a,x-b,x-c,...。高斯引入了下面的概率密度函数:
这是大多数人印象中正态分布的第一次出现。的确,高斯在误差分析中强有力的使用了正态分布,它是如此的深刻和意义重大,以及影响深远。数学家们将在高斯发现的这个强有力的工具下,将统计与概率带入一个前所未有的深度。
融入社会科学
正态分布在高斯及拉普拉斯的努力下,在误差分析上取得了巨大的成功。从19世纪开始,数学家试图将其应用拓展到更宽广的领域。众多探索者之中,第一个获得重要成果的是比利时统计学家凯特勒 (Adolphe Quetelet, 1796-1874)。
凯特勒 (Adolphe Quetelet, 1796-1874)
我们知道,统计学最早可追溯到公元前,而概率论萌芽于中世纪。但是由于16世纪赌博的盛行和对机会获胜的好奇,使得在费马、惠更斯等数学家的努力下,概率论得到了前所未有的发展,可以说到了18世纪,概率论已经日趋成熟了。但是统计学却进步很缓慢。直到19世纪,随着自然科学和社会科学中各类大数据的常态化,加之概率论的发展成熟,才为统计学的理论研究和实践应用提供了条件。
首先,是统计学中抽样调查的使用。拉普拉斯首先使用了代表性抽样来估计人口数量,凯特勒沿用了拉普拉斯的方法和数据比例。但当时的抽样调查=面临很多的问题。比如,在众多的我们并不知晓的个体中,应该选取哪些个体作为样本?尤其在处理社会问题上,某一事件受到的影响因素往往很多,而又该把哪部分个体放在一起研究才会保证其"同质性"?在当时多少数学家认为不同质的个体放在一起研究意义是不大的。
在并没有随机调查的方法指导下,凯特勒需要找到一个合适的工具来解决"同质性"问题。1823年,凯特勒访问巴黎,深入学习了高斯正太误差理论和拉普拉斯中心极限定理,并受此启发而决定使用正态分布来处理"同质性"。即:凯特勒把一批数据是否充分好的拟合一个正态分布,作为该批数据是否同质的一个判断依据。
凯特勒的这个方法,对于处理当时的较多社会学统计问题都取得了较好的拟合效果,以实践为基础,正态分布为利器,他一生写了许多有关统计学方面的著作——《论人及其才能的发展》(1835)、《关于应用于道德科学、政治科学的概率论的书简》(1846)等。同时,因为他的卓越贡献而被统计学界称为"近代统计学之父"、"国际统计会议之父"。
自然科学的渗透达尔文的表弟——高尔登(Calton,1822-1911)是凯特勒的超级粉丝。而凯特勒在社会统计学上取得的成功,启发了高尔登将统计学引入到自然科学上的工作。
高尔登在1863年将正态分布应用于身高、考试成绩等统计数据,发现拟合度都是很好的,因此,他也深信"于正态分布曲线拟合得好是数据同质性的可靠标志"。但同时,更多的统计数据研究也让他产生了一些困惑。
如,他在考察亲子两代的身高数据时,发现它们居然遵循同一个正态分布。要知道,"受大量的影响不大的因素作用"是数据呈正态分布的条件 ,但是"遗传"在亲自两代的形状中占了主导因素。似乎在此产生了矛盾,经过多年的深入研究,高尔登用了一个"正态漏斗"的虚拟装置调和了这种矛盾。
如上图,当钉子的排数n趋向于无穷大时,各槽内球数近似服从正态分布。现在在装置的中间某处加一个横板将落下的小球截住,则落在横板上的小球依然服从正态分布。最后,将横板去掉,小球自然落下,这时会得到很多的小的正态分布。
高尔登借助这个实验说明:1.一个大的正态分布可以由许多小的正态分布叠加而成。对应到"亲自两代身高"问题上,遗传这个核心的影响因素,可以分解为许多个大量的影响不大的因素,这直接导致亲子两代服从于同一个正态分布。2.个体同质性表面的背后是诸多"异质"成分的叠加。
这样的研究振奋人心,高尔登进一步的将其运用到自然科学的统计研究上——人的肘长、身高,豌豆的性状等等,并最后导致了他关于回归等重要统计学工具的发现。
总之,自从高斯在概率中引入"正态分布"这一概念以后,它首先在物理的误差分析中扮演重要的角色,之后又被引入到社会科学和自然科学中,而到现在,它更是渗透到我们生活的方方面面。
,