大学里面常用的预测算法(优思学院神奇的统计)(1)

在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。─C. R. 劳

从城邦政情到统计学

统计学是透过搜集、整理、分析、描述资料等手段,以推断所测量物的性质、本质乃至未来的一门学科,需要运用许多数学知识。统计起源于何时何地已经很难说清,有人说是古埃及,有人说是古巴比伦,也有史料记载是西元前二千年左右的夏朝,统治者为了征兵和征税而进行了人口统计。

到了周朝,“司书”一职首次在中国历史上出现,相当于今日的行政院主计总处处长。西方最早关于统计的记载则是《圣经.旧约》,引用了犹太人的人口统计结果。

人口统计若仅仅是小范围的,即使包括了人数、年龄、收入、性别、身高、体重等多项指标,也派不上大用场。随着统计人数的增加,例如一座城市的市民、一整个省的女性,以及统计指标的增加,例如健康状况、家庭经济状况和寿命等,才能逐渐体现出统计的规律和价值。

西元前四世纪,亚里斯多德撰写的“城邦政情”(matters of state)共包含了一百五十余种纪要,内容涉及希腊各个城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济情况及其比较分析。

“城邦政情”式的统计延续了二千多年,直至十七世纪中叶才逐渐被“政治算术”(political arithmetic)这个颇有意味的名称替代,并且很快演化为“统计学”(statistics)。最初,它只是一个德文词汇 statistik,保留了城邦(state)的词根,本义是研究国家和社会状况的数量关系。后来,欧洲各国相继翻译,法文为 statistique,义大利文为 statistica,然后是英文。

值得一提的是,英语中的统计学家和统计员是同一个字,正如数学家和数学工作者是同一个单词一样。日语最初把“统计学”译为“政表”、“政算”、“国势”、“形势”,一八八○年才确定为“统计”。一九○三年,横山雅南的著作《统计讲义录》被译成中文出版,“统计”一词也从日本传到了中国,与“数学”这个词语的来历相同。

既然统计学的主要工作是与资料打交道,资料通常又有随机性,就涉及了另外一个统计学术语─概率。随机意味着不确定性,但也并非没有规律可循,这时就需要用概率来描述。例如,经验告诉我们,投掷硬币出现正面朝上结果的概率约为1/2,投掷骰子结果为六点的概率是1/6。

更多时候,我们需要进行大规模的统计才能知道一件事发生的概率。例如某航班的准点率、某地某日的降水概率。而我们在透过计算获得概率的同时,也掌握了相应的统计规律。不过,统计与概率是有差异的。计算一个有四十位学生的班级是否有人同一天生日的概率,与具体统计他们的生日,两者并不一样,而且不同班级(即便人数相同)的统计结果也不相同。

草船借箭可有其事?

如同脚踏车的发明使得人们扩大了交流范围,弓箭的发明也拓宽了人们的活动范围。有了弓箭,人类便可走出山洞,离开茂密的森林,在广阔的丘陵或平原安家。弓箭不但增强人们的安全防御能力,也帮助他们获取更多猎物,为人类的繁衍创造良好的物质条件。

大学里面常用的预测算法(优思学院神奇的统计)(2)

弓箭大约诞生于三万年前的旧石器时代晚期,它是冷兵器时代最可怕的致命武器。弓箭由弓和箭两部分组成,其中的弓由有弹性的臂和有韧性的弦构成;箭则包括了箭头、箭杆和箭羽,箭头为铜或铁制,杆为竹或木质,羽为鵰或鹰的羽毛。射手拉弓时,手指上还有保护工具。

恩格斯(Friedrich Engels)说过,“弓、弦、箭已经是很复杂的工具,发明这些工具需要长期积累的经验和较为发达的智力。”弓箭的发明或许与音乐的起源有某种关系,二十世纪英国科学史家 J.D.贝尔纳(J. D. Bernal)认为,“弓弦弹出的汪汪粗音可能是弦乐器的起源”。

在《诗经.小雅》里有一首诗写到了“角弓”,即弓箭。这首诗劝告周王不要疏远兄弟亲戚而亲近小人,为民众做出表率。首章四句是:“骍骍角弓,翩其反矣。兄弟昏姻,无胥远矣。”骍骍指的是弦和弓调和的样子,翩是弯曲,昏姻即婚姻或姻亲,意为“把角弓调和绷紧弦,弦松弛的话会转向。兄弟姻亲是一家人,相互亲爱可别疏远”。

中国古代神话有“后羿射日”的故事。古典小说里一方面有许多神箭手,例如吕布辕门射戟、薛仁贵三箭定天下、养由基百步穿杨等,另一方面,打不赢就放箭的例子同样比比皆是,清代如莲居士的传奇小说《说唐》里的罗成武艺高强,最终却陷于淤泥并死于乱箭。

一般士兵的射术可没有神箭手那么精准。假设单次射中目标的概率为 0.1,没射中的概率就是 0.9,连续两次射不中的概率为 0.9×0.9=0.81。依此类推,一百次都射不中的概率为 0.9100≈0.00003,那么至少射中一次的概率为“1–0.00003=99.997%”。

即便要求至少射中目标三次,概率仍高达 98.41%。由此可见,与其费力去找神箭手,不如让一百名士兵乱箭齐发,效果更好。在罗贯中的历史小说《三国演义》里,长坂坡(今湖北荆门)一役成就了赵子龙的传奇,其实曹操下令不许放箭可能也发挥了不可或缺的作用。

再来看诸葛亮草船借箭,传说中取到了十万支箭。依据罗贯中的描述,当时江上大雾弥漫,士兵放箭基本上是闻声寻的,命中概率估计不到 0.1,中间还要调转船身,用另一面接箭,自然会射空。即便射中概率不变,至少也需要射一百万支箭。当时曹操的弓箭手仅一万名,代表每人需射一百支,但专家分析这不太可能,因为古时一个箭壶通常只装二十到三十支箭。

高斯的常态分布曲线

生活中偶有小机率事件发生。例如,据相关统计,飞机失事的机率约为三百万分之一。这个机率听起来很小,但每天都有无数乘客搭乘飞机,全世界的航班累计数量其实颇为惊人,因此偶尔还是会听到飞机失事的消息。

再看另一个例子,二○一○年南非世界杯足球赛期间,生于英国养于德国的“章鱼帝保罗”成为耀眼的明星。保罗八次预测,全部猜对比赛结果,尤其是西班牙战胜荷兰的那场决赛,更让全世界球迷为之侧目。假如没有人为操纵,保罗猜对一次的机率是 0.5,连续八次猜对的机率是 0.0039。我们只能说,小机率事件又一次发生了。

在统计学中,样本的选取也存在小机率事件。例如,从一个装着红球和蓝球的缸中随机拿出球来,哪怕缸中的球多半是红球,取出的样本仍可能是蓝球占多数,由此导出错误的结论:缸中的球多数是蓝色的。有鉴于此,统计学家想了一个办法来提高由样本推断总体特征的能力。

假设有一个装了非常多球的缸,其中红球、蓝球的比例为P:(1–P),P(P≦1)是某个未知的比例。一次从缸中拿出五个球,这是一个样本。设p是所有样本(每个样本均含五个球)中红球比蓝球多(即至少有三个红球)的样本所占比例(p≦1)。根据机率理论,可得 P 和 p 的关系如下:

P 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

p 0.01 0.06 0.16 0.32 0.50 0.68 0.84 0.94 0.99

这就说明,当缸中红球比例为 0.1 时,在抽取的样本中红球占多数的样本比例是很小的。确切地说,在一百个样本中,可能只有一个样本是如此。

如果只是加减和方幂运算,统计学恐怕成不了一门学科,更无法成为与数学并列的一级学科(机率理论是数学下面的二级学科)。幸好,统计学里还有高斯的常态分布理论。

大学里面常用的预测算法(优思学院神奇的统计)(3)

十九世纪下半叶,英国统计学家高尔顿(Francis Galton)和皮尔逊(Karl Pearson)在研究父母身高与子女身高之间的遗传关系时,发现了朝平均数回归的现象,也就是身高不会两极分化。

高尔顿做了著名的钉板实验,他在一块平整的木板上均匀放置了二十排钉子,下排的每根钉子恰好位于上排两根钉子的中间。然后他让一颗小圆球从最顶层中间处滚下来,小圆球碰到钉子后往左或往右滚落的概率各为 0.5。由于钉子的间距正好略大于小圆球的直径,小圆球会再次撞击钉子并往左右滚落,概率同样为 0.5。

高尔顿观察到,小圆球虽然一路碰撞滚落底部,却不会太偏离中心位置。大多数小圆球都集结在底部中心的位置,愈往两边数量愈少。最后,堆积的小圆球形成了一个钟形曲线,这正是由法裔英籍数学家棣美弗(Abraham de Moivre)于一七三三年提出,后以德国数学家高斯(他首先将其应用于天文学研究)的名字来命名的常态分布曲线:

大学里面常用的预测算法(优思学院神奇的统计)(4)

如果考虑滚落在中间6个钉距之间的小圆球,则其概率为上述函数在区间[–3, 3]上的定积分,大约是 99.73%。莎士比亚的诗文和忌日威廉•莎士比亚(W. Shakespeare)是英国大文豪,也被视为有史以来最伟大的文学家之一。 1985年秋天,有位莎翁研究专家在牛津大如果考虑滚落在中间六个钉距之间的小圆球,则其机率为上述函数在区间[–3, 3]上的定积分,大约是99.73%。

大学里面常用的预测算法(优思学院神奇的统计)(5)

莎士比亚的诗文和忌日

莎士比亚是英国大文豪,被视为有史以来最伟大的文学家之一。一九八五年秋天,某位莎翁研究专家在牛津大学博多利图书馆里发现了一首写在纸片上的九节诗。这张纸片已被收藏近二百年,上面的诗歌会是莎翁写的吗?

两年后,两位统计学家研究了这首诗,并与莎士比亚的写作风格进行比对,结果发现它们惊人的一致性。已知莎翁诗文著作中用词总量为 884,647 个,其中 31,534 个是不同的,它们出现的频率如下:

单词使用的频率 1 2 3 4 5 >100

不同的单词数 14376 4343 2292 1463 1043 846

由此可见,莎翁喜欢用新词,他使用一次就舍弃的词高达 45.6%,仅用两次的词占 13.8%。倘若对莎翁的部分作品做同样的统计,不同的词出现的频率会高一些。这首新发现的诗作共有四百二十九个单词,其中有二百五十八个是不同的,观测值与基于莎翁写作风格的预测值相对接近。与此同时,统计学家也调查了与莎翁同时代的著名诗人詹森(S. Johnson)、马娄(C. Marlowe)和邓恩(J. Donne)的写作风格,发现他们的预测值与这首诗的观测值有着统计学上的显著差异。

自此以后,莎士比亚的另外三部著作《罗密欧与茱丽叶》、《汤玛斯.莫尔爵士》和《爱德华三世》也用同样的方法加以验证。因为《罗密欧与茱丽叶》写的是义大利上流社会,而莎翁出身英国平民,过去三个世纪里,包括狄更斯(Charles Dickens)和马克.吐温(Mark Twain)等人都曾怀疑它不是莎士比亚的作品。

苏联作家萧洛霍夫(Mikhail Sholokhov)的传世之作《静静的顿河》(And Quiet Flows the Don)也曾遭受类似质疑。这部小说让萧洛霍夫获得一九六五年的诺贝尔文学奖。一九七四年,另一位流亡的苏联作家索忍尼辛(Aleksandr Solzhenitsyn,一九七○年诺贝尔奖得主)在巴黎公开提出质疑,主张萧洛霍夫当时才二十多岁,不可能写出如此广度和深度的鸿篇钜著,而且书中的内容和写作技巧也不平均。

这场争论一直持续到萧洛霍夫暮年,有人怀疑他抄袭了已故作家克留科夫(F. Kryukov)的作品。一九八四年,一位挪威奥斯陆大学的统计学家率领了一个小组,将萧洛霍夫无争议的作品、《静静的顿河》和克留科夫的作品分为三组,利用统计方法进行分析。

第一,他们统计不同词汇占总词汇量的比例,三组分别为 65.5%、64.6%、58.9%。第二,选择最常见的二十个俄语单词,统计它们出现的频率,三组分别为 22.8%、23.3%、26.2%。第三,统计出现不止一次的词汇所占比例,三组分别为 80.9%、81.9%、76.9%。

无论哪一类统计结果都显示,克留科夫的作品风格与《静静的顿河》之间存在着显著差异,而萧洛霍夫更像《静静的顿河》的作者。在中国,古典小说《红楼梦》的作者同样存有疑问,有红学家认为后四十回与前八十回在风格上有很大差异,因此怀疑是另一个作者所写。假如也使用统计学方法,或许可以帮助鉴别。

二十世纪印度裔美籍统计学家 C.R.劳(C. R. Rao)说过,“假如世上每件事情均不可预测地随机发生,那我们的生活将无法忍受。反之,假如每件事情都是确定的、完全可以预测的,那我们的生活又将十分无趣。”他还指出,“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。”

最后再回来说说莎士比亚。莎翁的生日与忌日都是四月二十三日,这一天也是西班牙语世界最伟大的作家、《唐吉诃德》作者塞万提斯(Cervantes)的忌日,他们在一六一六年的同一天去世。中国历史上最负盛名的戏剧家之一汤显祖也在这一年去世。这个机率实在太小了,小到我们无法估测,甚至完全可以忽略不计。

大学里面常用的预测算法(优思学院神奇的统计)(6)

【本文节录自《数学的故事》,时报文化出版,作者蔡天新。】

,