大部分数学理论的发现其实都是源自于生活,或者人们遇到的一个难题,有人根据这个难题并提炼出一个模型来,人们得以在纯数学的领域进行研究,并最终诞生了许多伟大的成果。比如概率论,就是来自于赌徒们提出的尖酸问题。
赌桌上诞生过许多数学
一个赌徒获胜的概率是p,另外一个赌徒获胜概率是1-p,A,B 两人在赌场里赌博,A、B 各自的获胜概率是p,q=1-p,两人约定:若 A 赢的局数 X>np , 则A付给赌场 X-np 元;若X < np ,则B付给赌场np-X元。 问赌场挣钱的期望值是多少。
棣莫弗
这里的数学期望这个概念很重要,也不是那么难理解。举个例子,我们都知道掷硬币正面朝上的概率是1/2,那么如果每次掷硬币的都仿佛有个约定的规则在“制约”着出现的结果,假如我们掷10次之后呢?可能5次正面5次反面最符合我们的预期,当然实际上不可能会这么巧合,刚好是5正5反。但是这个结果表达了我们对于这个概率事件的期待值,于是这里的出现正面的数学期望就是5次了。
棣莫弗公式
赌徒把问了数学家棣莫弗,这个数学家虽然不是很有名,名字也有点刁钻古怪.但是你应该用到过他的数学成果,复数和三角函数之间的桥梁——棣莫弗公式正是这位仁兄的代表作,同时他也是一位概率论方面的大师。我们现在很容易看出来,赌徒的问题是一个简单的二项分布,这里就不再做二项分布的科普了。简单说下,就是一个概率事件中,只有两种结果,并且结果互斥,我们分析的就是这两种情况的期望值。棣莫弗很快求出来这个二项概率是:
赌徒问题答案
实际问题上,如果我们真的要去求期望,那么n只能是个有限整数,尽管这个n可以变得很大。于是一个自然而然的问题就出现了,假如我们实验无数次,这里的概率又会是什么样子呢?棣莫弗再接再厉,并且结合了同时期数学家斯特林的成果,成功地求出来这个密度函数:
正态分布公式首次出现
这个式子就是大家熟悉的标准正态分布公式,虽然中学时期的所有数学教材里都会提到正太公式,考试上也是热门,但是对于这个公式的来源以及重大意义却从来不提。可能有的老师上课的时候会跟学生们强调这个概率分布很重要,但是没有形象的案例来做支撑,总是让人觉得莫名其妙。棣莫弗得出的这个分布函数也是正态分布第一次出现在人类的数学成果里。虽然棣莫弗第一个得出了这个密度分布函数,但是他并没有对这个分布再进行深入研究,棣莫弗本质上并不是一个数理统计学家,他认为这只是一种看起来优美的概率分布曲线。他完全没有想到这个分布与误差分析有什么关系。
德国马克上的正态分布曲线
说到这里,高斯的工作在哪里呢?别急,先听高斯同志的又一次神作。
18,19世纪以来,天文学伴随着人们数学工具的支撑,也获得了空前的发展,特别是牛顿万有引力定律确定之后,人们第一次可以用数学来精准地描述地球外面的世界。这里对于行星轨道的确定尤其如此。
遥望星空
1772年,人们根据万有引力定律结合当时的观测资料分析认为,在火星和木星轨道之间可能存在着一颗尚未被发现的行星。但是当时的观测条件有限,并不能直接去观测到。于是就需要间接计算,然后推测这个未知行星可能出现的位置,在那边等它按时出现,这个发现行星的思路好像看似自然而然,其实难度很大。
行星轨道计算难度极大
1801年元旦,在西西里巴勒莫学院的天文学家朱塞普·皮亚齐,发现了谷神星,但是这个星体的轨道却不像之前的那几个传统行星一样确定。人们不知道这颗新星是彗星还是行星,这就需要更加精准的观测手段了。然而这颗星体相比于火星来说实在太过矮小,以至于稍微靠近大星体立刻就会被湮没,变得不可观测。当时的观测数据很有限,皮亚齐一共观测了这颗星体24次,都难以确定其轨道。这是个困难的问题,以至于当时许多天文学家束手无策。于是,高斯开始了他的表演。
最大的一颗小行星——谷神星
高斯拿到皮亚齐的观测数据,根据自己的创立的一种新型的数据分析方法,在一个小时之内就计算出了这个星体的轨道数据。当然为了结果的可靠,他还是等了检查了几个星期时间。1801年12月31日,人们在高斯预言的时间和轨道上果然发现了这颗星体。至此人们确定了这颗新星既不是彗星,也不是传统行星,它是人类发现的第一颗也是最大的一个小行星,直径大约950公里。
此项成果一出,青年高斯的能力又一次让众人惊叹。人们迫切地想要知道高斯如何处理数据的方法,但是高斯本人拒绝透露。在他看来这些都还是一些不太成熟的小技巧,虽然在实际上有很大用途,但是发表一个不成熟的结论是不太配得上自己身位的,于是高斯的方法被当做秘技一样不传。直到8年之后的1809年,高斯认为此项研究已经成熟,于是公布了他的方法,这个分析工具就是最小二乘法。
最小二乘法的诞生契机是尽量减小测量数据的累积误差,并且有一套规则。
最小二乘法规则
这个规则是勒让德提出来的,他在1805年第一个发布了最小二乘法的论文。
假设我们从来都没有接触过关于数理统计方面的知识,现在给我们一个测量的任务:让你测量一间教室的长宽高,并且尽量给出误差较小的结果。从经验上看,正统的做法是,我们似乎应该要在房间的不同位置测量多组数据,然后来求平均值。这么做,更保险,会过滤掉一些由于偶然误差造成的严重失真项。并且我们也会得出一个经验方法, 那就是测量的数据越多,求出来的算术平均值就越接近真实值。
高斯大神
这个方法几乎是保险的且显而易见。历史上的许多测量学家们也都是这么做的,好像最后的实践表明这种方法的确可以有效地减少系统误差。但是有个非常严重的问题,那就是人们从来都没有在数学理论上证明求算术平均值可以显著减少测量误差。
高斯的目的就是为了求解一种方法使得,系统累积误差最小,既然算术平均值在实践中已经被证明是有效的,那么我就从这里出发来逆推:
最大似然估计的定义
这里的估计值称作最大似然估计,高斯天才般地认为这里的最大似然估计就可以取到算术平均值!
根据上面式子的分析结果,就可以求出来这个概率分布函数了。这个形式,我们再熟悉不过了。
一般正态分布
正态分布的密度函数N(0,σ2)就是上述的表现形式。那么前面说的最小二乘法跟正态分布又有啥关系呢?
正态分布和最小二乘法的深刻关系
这里我们很明显就看出来,如果使得这个概率最大,那么要让所有的误差项e2 最小,这刚好不就是最小二乘法的定义嘛。因此,正态分布跟最小二乘法的关系实在非比寻常!
由于高斯的杰出工作,正态分布又叫高斯分布。高斯基于正态分布给出的最小二乘法,大大拓宽了正态分布的应用,这个密度函数在整个数理统计领域远远要超过其他任何分布。实际上正态分布也是存在最广泛的分布,甚至可以没有之一!
无时无刻不在的正态分布
人群中的身高分布,总是处在中间高度的人数最多,或高或矮都是极小的一部分人。学生的考试成绩分布,医学上关于质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;
实际上,有很多人从不同的领域出发,都推导出了相同的正态分布密度函数。除了棣莫弗和高斯以外,赫歇尔在1850年,麦克斯韦在1860年基于误差的旋转对称性推导出密度函数,他们的方法完全没有用到任何概率论的知识,仅仅是根据空间不变性就得出来。1941年,电气工程师兰登基于噪声稳定分布的思想也给出了正态分布密度函数。信息论创始人香农基于最大熵原理也推导出正态分布函数。
信息论创始人——香农
这些领域基本上毫不相干,甚至有些人用的方法跟概率论都没有关系,但是最终却得到了完全一致的结论。这也充分说明了,正态分布是一种广泛且极其普遍的分布方式。难怪有人赞叹道:
神说,要有正态分布,就有了正态分布。
神看正态分布是好的,就让随机误差服从了正态分布。
高斯尊为“数学王子”这点毋庸置疑,名下的定理,规律不计其数,但是如果要来排出最有影响力的一项,很多人都认为首选正态分布。这个分布成为许多统计方法的理论基础,人们在数据检测,线性回归,方差判断,回归分析中总是绕不去正态分布的影子。它就像是分析学里的微积分一样,给予着相关领域内所有成就不尽的源泉。
,