幸存者偏差,原文是"survivorship bias",这个典故,出自二战时期美军对战斗机的防御能力的研究。

天才瓦尔德

提出这个概念的学者叫瓦尔德•亚伯拉罕 (Wald Ábrahám),他出生在奥匈帝国的克劳森堡,是一个犹太人。由于纳粹的反犹政策,瓦尔德成为欧洲逃亡美国的犹太科学家中的一员,到了美国之后,他在哥伦比亚大学得到一个教职。

美国数学最终结果(看似高大上的幸存者偏差)(1)

美国海军分析中心直到1980年才公开瓦尔德的这项研究。

在第二次世界大战期间,瓦尔德和控制论创始人诺伯特·维纳(Norbert Wiener)、信息论创始人克劳德·艾尔伍德·香农(Claude Elwood Shannon)、决策理论和贝叶斯分析方法的先驱伦纳德·吉米·萨维奇(Leonard Jimmie Savage)、诺贝尔经济学奖得主米尔顿·弗里德曼(Milton Friedman)等人,都在秘密地为美军服务。

这帮人一起在哥伦比亚大学统计研究小组(SRG)工作,据说,瓦尔德是这个组中最聪明的人。

美国数学最终结果(看似高大上的幸存者偏差)(2)

瓦尔德•亚伯拉罕 (Wald Ábrahám,1902-1950)

现在回想起来,由于当时欧洲的科研环境恶劣,美军所网罗到的人才数量,真是堪称站到了人类科技树的顶端。

接着来说说很多所谓"理中客"张口必谈的 "幸存者偏差"。

美军的需求

有一天,统计研究小组接到一个比较另类的研究课题:"如何加固轰炸机的装甲,才能提高它们被击中后的生存率?"

美国军方根据在战斗中获得的数据,提出"四个5%"理论:

如果在每次战斗中,己方被击落的战机数量比对方少5%,油耗比对手低5%,弹药比对手多5%,机动性比对手高5%,这样就可以最终成为胜利方。

于是,基于此理论,美国海军就请这些专家们来设计战机的改进方案。

军方为统计研究小组提供了一些资料,主要是飞机上弹孔的分布,给专家们参考。

美国数学最终结果(看似高大上的幸存者偏差)(3)

从图中可以看到,这些弹孔分布并不均匀,翅膀上比较多,引擎上比较少。

当时,军方普遍认为:应该减少装甲总量,然后在受攻击最多的部位增加装甲。这样飞机可以轻一点,但是防护作用不会减弱,因为防御的效率提高了。

其实,在把课题交给SRG研究时,军方已经得出了上述的结论了。天才们唯一需要讨论的是:"受攻击最多的部位"需要增加多少装甲才是最合适的。

于是,美军找到瓦尔德,希望得到答案。

美国数学最终结果(看似高大上的幸存者偏差)(4)

万万没想到的是,瓦尔德伸出双手,啪啪啪打脸军方,彻底否定他们的想法,给出了相反的答案。

瓦尔德认为:需要加装防护装甲的地方,不应该是留有弹孔的地方,反而是没有弹孔的地方应该多加防护,即飞机的引擎。

瓦尔德解释:飞机各部位被击中的机率,应该是均等的。但是,引擎上的弹孔却比其余部位少,这说明,那些被击中引擎的飞机,根本没有机会返航就坠毁了。而军方提供的数据,都来自成功返航的飞机,这恰恰说明,即使翅膀被打得千疮百孔,仍能安全返航。

众人大吃一惊,但是越想越有道理。接着,瓦尔德又举了一个更容易懂的例子:

如果,我们去战地医院的病房看看,就会发现腿部受伤的病人比胸部中弹的病人多,但这并不是因为胸部中弹的人少,而是胸部中弹后就很难撑到医院了。

这个比喻说服了所有人。

这件事后,相关人员不断在各种场合提及,随被广为传播,是为"幸存者偏差"。

伊尔-2的践行

几乎同时,大洋彼岸的前苏联,有个飞机设计师叫谢尔盖·伊留申,他应该是对此理论心有戚戚焉,不自觉的在设计中践行了瓦尔德的理论——这就是有"空中坦克"之称的伊尔-2战机。

为啥叫"空中坦克"呢?很明显,人家就是一个装了翅膀的坦克。

美国数学最终结果(看似高大上的幸存者偏差)(5)

伊尔-2重要部位装甲包裹示意图。

伊留申在设计之初就对之前的强击机做了战损统计,分析之后他认为飞行座舱、油箱和发动机等关键部位非常重要,所以他就把伊尔-2关键部位的装甲大幅加强,称之为"飞行坦克"是颇为形象的。

伊尔-2的装甲结构也是革命性的,它并没有把装甲铺装在表面,而是将装甲植入机体结构,虽然增加了重量,牺牲了一部分飞行性能,但战场生存能力却得到大幅提高。

据统计,在返航的伊尔-2战机中,约 50%都带有各种各样的战伤,可绝大多数都能在野战机场完成修复——经常被打成筛子的后机身为木制、机翼和尾翼是铝制,所以比较容易维修。

后来连斯大林都称赞"伊尔-2就是红军的面包和空气"。

美国数学最终结果(看似高大上的幸存者偏差)(6)

华为创始人任正非提到的"布满弹孔"的飞机,就是这架伊尔-2。

"幸存者偏差"的概念之后被引入金融和商业等领域,像我们经常看到的"死人不会说话"、"沉默数据"、"读书无用论"等,都涉及这一概念。

而克服"幸存者偏差"的最好方法就是"双盲实验"——即实验必须有"对照组",并且"对照组"和"实验组"都不清楚自己的身份(实验主导者也不能知道),以消除主观偏见。

,