概率论到底多可怕用概率论告诉你

概率论到底多可怕用概率论告诉你(1)

本文来自公众号：超级数学建模微信号：supermodeling

除了与几何概型有关的贝特朗悖论，贝特朗于1889年还提出了另一个贝特朗盒子悖论，这个悖论有一个著名的现代版本，实际上不算是“悖论”，因为它没有逻辑矛盾。

但它是一个与博弈论相关的有趣的数学游戏。

概率论到底多可怕用概率论告诉你(2)

首先写在这儿让诸位娱乐一下。

三门问题

这个问题有好几个等效版本，最早一版的日期可追溯到19世纪的贝特朗。

该问题在数学本质上也等同于马丁·加德纳1959年提出的“三囚犯问题”【1】。

不过这些老版本长时间都默默无闻，只是到了100多年之后的1990年左右，却热门了一阵子，在公众中引起热烈的讨论。

其原因要归功于美国一个著名的，从上世纪80年代一直延续至今的电视游戏节目Let's Make a Deal。

由此例也足以可见现代媒体在公众中普及科学知识之威力。

当年的节目主持人蒙特霍尔（MontyHall）善于与参赛者打心理战，经常突如其来地变换游戏规则，给参赛人和观众都来个猝不及防。

既使得观众们困惑不已，又迫使参赛者“脑筋急转弯”，三门问题及各种变通版本便是他经常使用的法宝。

后来有人便将此游戏以主持人的名字命名，也称之为蒙特霍尔问题【2】。

在三扇关闭了的门后面，分别藏着汽车和两只山羊。

如果参赛者选中了后面有汽车的那扇门，便能赢得该汽车作为奖品。

显而易见，这种情况下，参赛者赢得汽车的概率是1/3。

图1：三门问题

不过，主持人有一次稍微将游戏规则改变了一点点。

当参赛者选择了一扇门但尚未打开之际，知道门后情形的主持人说：

“等等，我现在给你第二次机会。

首先，我将打开你没有选择的两扇门中有山羊的一扇，你可以看到门内的山羊。

然后，你有两种可能性：改变你原来的选择（交换），或者保留原来的选择（不交换）。”

主持人的意思是说：在参赛者选择之后，他打开一扇有山羊的门，留下一扇未开之门，让参赛者决定要不要将原来的选择与剩下的未开之门“交换”？

要不要交换？我们不从“碰运气”而是从“概率”的角度来思考这个问题。

如果不交换，保持原状的话，得汽车的概率是1/3。

如果交换的话，是否能增加抽到汽车的概率呢？

答案是会。

转换选择（交换）可以增加参赛者的机会，如果参赛者同意“换门”，他赢得汽车的概率从1/3增加到2/3。

让我们来分析一下整个游戏过程中，由于参赛者的不同选择而产生的各种具体情况，以及在这些情况下选择“交换”后的结果。

参赛者指定3道门中的一道，有三种可能的情况，每种选择的几率相等（1/3），见图2中的a、b、c:

（a）参赛者挑选有汽车的第1道门，主持人挑两头羊的任何一头，开门。交换将失败。

（b）参赛者挑选有羊的第2道门，主持人打开第3道门。交换将赢得汽车。

（c）参赛者挑选有羊的第3道门，主持人打开第2道门。交换将赢得汽车。

图2：参赛者“同意转换”得到汽车的概率变成2/3。

在后两种情况，参赛者均可利用转换选择而赢得汽车，只有第一种情况将使得参赛者因转换选择而倒霉。

参赛者的转换选择，使得三种情况中的两种赢，一种输。

所以选择“交换”，将赢的概率增加到2/3。

也可以换一种思维方式来理解这个问题。

因为3道门中2道是羊，1道是汽车。

所以参赛者最初选到汽车的概率是1/3，选到羊的概率是2/3。

如果参赛者先选中汽车，换后一定输；如果先选中羊，换后一定赢。

因此选择“交换”而赢的概率，就是开始选择羊的概率为2/3。

也许三门问题的解释仍然有些使人困惑之处。

但如果将门的数目增加到10道门（主持人开启8道有“羊”的门，留下1扇），100道门（主持人开启98道有“羊”的门，留下1扇），甚至1000道门（主持人开启998道有“羊”的门，留下1扇）。

这些情况下，参赛者选择“交换”使概率增加的结论便显而易见了。

例如，图3显示的是10道门的情形。

图3：十门问题

如果门的数目增加到10，其中9道门中是羊，1道是汽车。

参赛者开始也选中3号门，但3号门是汽车的概率只有1/10。

然后，主持人开启了8道有羊的门，剩下2号门以及参赛者选中的3号，并问参赛者是否要“交换”？

这次参赛者的脑袋比较清醒：3号门是汽车的可能性是1/10，剩下的9/10的可能性都在2号门，交换使得概率增大9倍，当然要换，傻子才不换！

其实说“傻子才不换”，是有些不公平的。

我们来想想看所谓的“贝叶斯派”会怎么说这个问题？

三门问题存在一个客观的概率分布（举10门为例）。

“有”汽车的概率分布情况：有车之门概率为1，其余9门概率为0。

不过这个客观概率只有上帝（主持人）知道，外面的人只能凭主观猜想。

他们所谓的概率只是他们根据已知的信息进行猜测的主观概率。

这儿有两种基本的猜测方法（最开始的第一次，两种方法都使用概率均分，每个门的概率均为1/10）：

1. （主观地）认为选中那道门的概率不再改变，永远=1/10，其余的9/10在其它门中均分。

因此，后来，每当主持人打开1道有羊的门，其余的门的概率变化（增加）。

但第一次选定之门概率不变（1/10）。

因此参赛者认为“要交换”！

2. （主观地）认为选中那道门的概率与其它门的概率同样如下变化：1/10，1/9，……，1/2。

因此，后来两道门的概率均为1/2，换不换无所谓！

笔者认为这两种都是他们各自的主观概率，那些概率值并不是客观存在，而是两个人的主观判定。

两种方法最后都不会得到客观概率，除非再打开一道门。

本福特定律

法蘭克·本福特（FrankBenford, 1883–1948）本来是一个美国电气工程师，也是一名物理学家，在美国通用电气公司（GE）实验室里工作多年直到退休。

这位工程师在50多岁的时候，却迷上了一个与概率有关的课题。

课题得到的结论便是现在我们所说的“本福特定律”。

事实上，本福特定律的最早发现者并不是本福特，而是美国天文学家西蒙·纽康。

纽康于1877年成为美国航海天文历编制局局长，并组织同行们重新计算所有主要的天文常数。

繁杂的天文计算经常需要用到对数表，但那个时代没有互联网，没有阿里云，对数表被印成书本，存于图书馆。

细心的纽康发现一个奇怪的现象：对数表中包含以1开头的数的那几页比其他页破烂得多，似乎表明计算所用的数值中，首位数是1的概率更高。

因此他在1881年发表了一篇文章提到并分析了这个现象【3】。

但没有引起人们的注意，直到57年之后的1938年，本福特又重新发现这个现象。

说来令人奇怪，科学定律的发现有时候来自于一些毫不起眼，小得不能再小的现象。

本福特的发现便是如此：以1开头的数字比较多，这也算是一个定律吗？本福特发现这种现象不仅仅存在于对数表中，也存在于其它多种数据中。

于是，本福特检查了大量数据而证实了这点【4】。

本福特定律是一个乍听起来有点奇怪并违反直觉的现象。

我们举一个例子说明它。

设想某银行有1000多个储存账户，金额不等。

比如说，张本有存款23587元、老李1345元、小何35670元、刘红9000元、王军450元……等等。

奇怪的本福特定律不感兴趣存款金额本身，而感兴趣这些数值的开头第一位有效数字是什么，指的是这个数的第一个非零数字。

例如8.1、81、0.81的第一位有效数字都是8。

比如说，刚才几个人存款数的第一位数字分别是2、1、3、9、4。

所以，本福特定律也叫“首位数字定律”。

一个数的第一位（非零）数字可能是1到9之间的任何一个。

现在，如果我问，在刚才那个银行的上千个存款数据中，第一位数字是1的概率是多大？

不需要经过很多思考，大部分人都会很快地回答：应该是1/9吧。

因为从1-9，9个数字排在第一位的概率是相等的，每一个数字出现的概率都是1/9，大约11%左右。

图4：本福德定律（首位数定律）及其应用实例

这听起来十分正常的思维方法却与许多自然得到的数据所遵循的规律不一样。

人们发现，很多情况下，第一个数字是1的概率要比靠直觉预料的11%大得多。

数字越大，出现在第一位的概率就越小，数字9出现于第一位的概率只有4.5%左右。

各个数字出现在第一位的概率遵循如图4左图所示的概率分布。

本福德和纽康都从数据中总结出首位数字为n的概率公式是：

P（n）=log_d（1 1/n）

其中d取决于数据使用的进位制，对十进制数据而言，d=10。

因此，根据本福德定律，首位数是1的概率最大，log₁₀2=0.301，十成中占了三成；首位数是2的概率log₁₀（3/2）=0.1761；然后逐次减小，首位数是9的概率最小，只有4.6%。

图4右图所示的是符合本福德首位数法则的几个例子：人口统计、基本物理常数、斐波那契数、阶乘。

本福德收集并研究了20229个统计数据，分成20组，包括诸如河流面积、人口统计、分子及原子重量、物理常数等多种来源的资料。

数据来源虽然千差万别，却基本上符合本福德的对数法则，见图5所示的数据表。

表中的最后一列数值，是根据本福特的对数规律公式计算得到的每个数字出现于首位的概率，读者可以将它与真实数据相比较。

本福特定律适用范围异常广泛，自然界和日常生活中获得的大多数数据都符合这个规律。

尽管如此，但毕竟还是有其应用范围，主要是受限于如下几个因素：

1.这些数据必须跨度足够大，样本数量足够多，数值大小相差几个数量级；

2. 人为规则的数据不满足本福特定律。

比如说，按照某种人为规则设计选定的电话号码、身份证号码、发票编号，为造假而人工修改过的实验数据等，都不符合本福特法则。

上的随机数据也不符合第一数字定律。

图5：本福德从大量数据中得到的首位数字概率表

如何理解本福德定律

尽管本福德和纽康都总结出了首位数字的对数规律，但并未给出证明，直到1995年美国学者Ted Hill才从理论上对该定律作出了解释，进行了严谨的数学证明【5】。

虽然本福德定律在许多方面都得到了验证和应用，但对于这种数字奇异现象人们依旧是迷惑不解。

到底应该如何直观理解本福德定律？为什么大多数数据的首位数字不是均匀分布而是对数分布的？

有人探求数“数”的方法，来直观理解本福德定律。

他们的意思是说，当你计算数字时，顺序总是从1开始，1,2,3,...,9，如果到9就终结的话，所有数起首的机会都相同，但9之后的两位数10至19，以1起首的数则大大多于其他数字。

之后，在9起首的数出现之前，必然会经过一堆以2,3,4,...,8起首的数。

如果这样的数法有个终结点，然后又重新从1开始的话，以1起首的数的出现率一般都应该比较大。

可以用这种理解方法来解释街道号码（地址）一类的数据。

一般来说，每条街道的号码都是从1算起，街道长度有限，号码排到某一个数就终止了。

另一条街又有它自己的从1开始的号码排列，这样的话，看起来，1开头的号码是要多一些的。

但这种解释也太不“数学”了！

况且，这种理解无法说明另外一类数据为什么也符合本福德原则。

比如说，“物理常数”的集合、出生率、死亡率等，就不是从1开始计算到有限长度就截止的那种数据了。

另一种解释是认为“首位数字定律”的根源是由于数据的指数增长。

指数增长的序列，数值小的时候增长较慢，由最初的数字1增长到另一个数字2，需要更多时间，所以出现率就更高了。

举个例子来深入说明这个道理。

考虑你有100美元存到银行里，年利是10%，25年中，你每年的存款金额将是（$，只保留了整数部分）：

100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985

这是一个指数增长的序列。

在这组数据的25个数中，首位数字为1的有8个（32%）；2的4个；3的3个……9的只有1个（4%）。

那是因为从首位为1增加到首位为2，经过了更长的时间（8年），从首位为2，只经过4年就变成了首位为3，而首位为9的话，下一年就不是9了。

所以，指数增长规律的数列的确符合本福德法则。

读者也许会有疑问：你上面的数列选择从100开始，1打头的比较多，如果从别的数字开始，规律是否会改变呢？

读者可以试验一下，从别的数开始得到的数据列，也一样符合本福德法则。

此外，你还可以将美元换算成人民币，得到的数据仍然会遵循本福德法则，这也说明本福德定律具有“尺度不变性”。

帮助侦破“数据造假”

不管你如何诠释本福德定律，它是一个客观存在，并且十分有用！

由于大多数财务方面的数据，都满足本福德定律。

因此，它可以用作检查财务数据是否造假。

美国华盛顿州侦破过一个当时最大的投资诈骗案，金额高达1亿美元。

诈骗主谋凱文·劳伦斯及其同伙，以创办高技术含量的连锁健身俱乐部为名，向5000多个投资者筹集了大量资金。

然后，他们挪用公款用作自身享乐，为他们自己买豪宅、豪华汽车、珠宝等。

为了掩饰他们的不法行为，他们将资金在海外公司和银行间进行频繁转账，并且人为做假账，给投资者造成生意兴隆的错觉。

所幸当时有一位会计师（Darrell Dorrell ）感觉不对头，他将70000多个与支票和汇款有关的数据收集起来，将这些数据首位数字发生的概率与本福德定律相比较，发现这些数据通过不了第一数字法则的检验。

最后经过了3年的司法调查，终于拆穿了这个投资骗局。

2002年，劳伦斯被判20年牢狱。

2001年，美国最大的能源交易商安然公司宣布破产，并传出公司高层管理人员涉嫌做假账的传闻。

据说安然高层改动过财务数据，因而他们所公布的2001-2002年每股盈利数据不符合本福特定律【6】。

此外，本福德定律也被用于股票市场分析、检验选举投票欺诈行为等。

图6：安然公司数据vs本福德定律

（图片来源：The wall street journal【6】）

美国税务局也利用本福德规则来检验报税表，揪出逃税漏税行为。

据说有人曾经用此定律来检验美国前总统克林顿10年内的报税数据，不过没有发现破绽。

参考资料：

【1】Gardner, Martin (1959). "Mathematical Games"column, Scientific American, October 1959, pp. 180–182.

【2】Bohl, Alan H.; Liberatore, Matthew J.; and Nydick, Robert L.(1995). "A Tale of Two Goats ... and a Car, or The Importance ofAssumptions in Problem Solutions". Journal of RecreationalMathematics 1995, pp. 1–9.

【3】Newcomb, S (1881). "Note on the frequency of use of thedifferent digits in natural numbers". American Journal of Mathematics. 4(1): 39–40.

【4】Benford, F. (1938), The law of anomalous numbers, Proc.Amer.

PhilosophicalSoc. 78, 551–572.

【5】Hill, T. P. "A Statistical Derivation of theSignificant-Digit Law." Stat. Sci. 10, 354-363, 1996.。

【6】“The wall streetjournal”

https://www.wsj.com/articles/accountants-increasingly-use-data-analysis-to-catch-fraud-1417804886

征稿启示

中国科学探索中心微信公众号欢迎赐稿！

稿件内容以反伪破迷为核心思想，科技哲学、科学与公众、世俗人文主义、科技伦理等领域均可涉及，旨在将科学探索结果无偏见地告知公众，避免公众上当受骗。

稿件一经采用，我们将奉上稿酬。

投稿邮箱：cfi@crisp.org.cn

中国科学探索中心

崇尚科学反伪破迷

您的关注和转发，是对科学事业最大的支持！

,

概率论到底多可怕用概率论告诉你

最新推荐

热门推荐

概率论到底多可怕 用概率论告诉你

最新推荐

热门推荐

概率论到底多可怕用概率论告诉你