《信任的进化》是一个看似简单的小游戏,但其中所包含的意义却一点都不简单。作品深入浅出地讨论了「合作」和「信任」是怎样出现,为何「出卖」难以消失等赛局理论议题,无须数学公式,玩完游戏后也可以学到很多东西。

在此先简述一下游戏,首先,玩家需要面对一个「信任游戏」︰

被游戏误导人生的青年(看似简单的游戏)(1)

每一局中,你可以向图中的机器投入1枚硬币,对方就会得到3枚硬币。如果双方都投放硬币(合作),就各赚2枚硬币(收到3枚、付出1枚)。然而结果揭晓前,双方都不知道对方会否投币,所以你可以选择不投币(欺骗),假如对方乖乖投币,就损失1枚硬币,而你就净赚3枚;假如双方都存心欺骗,则大家什么也没有得到。仔细想一下就会发现,无论对方选择「合作」抑或「欺骗」,你选择「欺骗」总之赚得比较多。问题是,游戏设计非常对称,对方思考后会得出相信结论,于是大家会「理性」地互相欺骗,反而不及互相合作所得。

假如不是只玩一局,而是多局呢?一次欺骗,可能就会毁掉信任,那么合作似乎是较好的选择。可是如果你一直合作,可能会被对方背叛;对方一直合作,也可能因为对方是个老好人,欺骗他可以多赚一笔。于是我们开始要思考策略问题,游戏中列出五个角色,各代表一种策略︰

被游戏误导人生的青年(看似简单的游戏)(2)

先合作,再跟随对方选择的「复读机」;一直欺骗的「千年老油条」;一直合作的「万年小粉红」;先合作,如被对方欺骗便会欺骗到底的「黑帮老铁」;「福尔摩星儿」先以「合作、欺骗、合作、合作」的策略试探,如被对方欺骗就变成「复读机」,否则就化身「千年老油条」。

阿克塞尔罗的电脑竞赛

被游戏误导人生的青年(看似简单的游戏)(3)

在游戏的备注中,设计者解释了这个游戏背后的理论基础——主要是赛局理论中,关于重复囚徒困境的研究。事实上,一开始的「信任游戏」,正是囚徒困境的设定。作者亦指出游戏奠基于阿克塞尔罗的《合作的进化》。这是非常重要的一本书,阿克塞尔罗是密西根大学的政治科学家,1980年左右,他举行了一系列的电脑竞赛,让不同程序(策略)进行重复囚徒困境,以了解合作如何产生。

虽然当时学界已经知道囚徒困境的重要,但阿克塞尔罗认为那时候的研究方法,无助了解在重复囚徒困境中如何有效选择,于是他希望以电脑竞赛的形式进行研究。在电脑竞赛中,参加者设计一个程序,就每步决定合作或背叛,而且程序可以根据过去结果作出抉择。

被游戏误导人生的青年(看似简单的游戏)(4)

阿克塞尔罗希望找来熟悉囚徒困境的人,并让他们设计的程序互相对赛,以确保竞赛「可以网罗这个领域最尖端的知识」。他找来赛局理论的专家提交程序,第一次竞赛中,14个参赛者来自5个学科︰心理学、经济学、政治科学、数学和社会学。此外,阿克塞尔罗亦加入一个随机程序,随机选择合作或背叛(几率各半)。

最简单的「以牙还牙」

被游戏误导人生的青年(看似简单的游戏)(5)

竞赛采用循环方式,每个程序都会对上其他参赛程序。结果相信大家都清楚,由「复读机」胜出,不过那时候叫作「以牙还牙/一报还一报」由多伦多大学的数学及心理学教授拉普伯特提出。有趣的是,「以牙还牙」同时是参赛程序中最简单的一个。阿克塞尔罗指出,不少人都知道「以牙还牙」的强大,所以不少参赛者都有使用其原则,但这些较复杂的程序,都及不上只有4行程序码的「以牙还牙」本身。

另一个有趣的发现是,一个特性成为得分高低的分水巅︰友善,即永不首先背叛。在第一次竞赛中,前8名均是「友善」的程序,余下的则否。而友善的程序当中,得分最低的一个,是最不「宽容」的——一旦被背叛,就会一直背叛对方。阿克塞尔罗同时提醒,「友善」程序的成绩较佳,是因为它们互相对赛时一直合作取得高分,足以拉高分数。在这类竞赛中,环境非常重要,任何策略的成绩都取决于其他策略——在其他人都是「千年老油条」的世界中,孤独的「复读机」只会取得最低分(因为第一次交手永远被出卖)。

第二轮电脑竞赛

被游戏误导人生的青年(看似简单的游戏)(6)

程序的表现不能单看其策略,还得视乎对手,因此阿克塞尔罗认为单看一次竞赛结果并不足够。此外,他认为第一次竞赛结果显示,在如何应对方面还有很多地方需要学习,即使是专家仍会犯错。所以他举办第二轮竞赛,除了第一轮的参赛者外,亦透过小型电脑使用者期刊的公告招募程序。结果他共收到62个参赛程序,参赛者来自美国、加拿大、英国、挪威、瑞士和纽西兰6个国家,由10岁的电脑迷到演化生物学教授也有。所有第二轮竞赛的参赛者,都会先收到一份关于第一轮结果的详细分析,以便他们可以更成熟的设计策略。

第二轮竞赛的胜出者,仍然是最简单的「以牙还牙」。「友善」的规则仍然较具优势——前15名中仅得第8名一个叫作「哈灵顿」的程序「不友善」,最后15名则只有一个「友善」程序。而友善的程序当中,如果能够迅速回应对方的背叛,表现就会较好。

电脑模拟「生态」竞赛

被游戏误导人生的青年(看似简单的游戏)(7)

接下来,阿克塞尔罗在竞赛中加入生态角度,那就像《信任的进化》中的「多次大赛」,每个程序的「后代」数量按得分高低来增减,然后再进行竞赛。电脑模拟了上千个「世代」的生态变化,结果「以牙还牙」一直领先。到第50代左右,排名为最后三分之一的程序基本上已经消失。由此时开始,留下来的程序如何取得高分就变得重要︰假如高分来自与其他成功的程序互动,就可以变得更加成功;但如果高分来自利用其他程序,一旦被利用的程序「绝种」,得分就会开始下跌,以致面临同一命运。

阿克塞尔罗特别提到「哈灵顿」这个例子,它是第二轮竞赛前15位中唯一「不友善」程序,在200代以前,「哈灵顿」所占的「人口比率」一直增加,因为它能够利用其他程序。但到200代左右情况逆转,当那些「失败者」都绝种后,它就缺乏「猎物」,到第1000代时灭绝。

被游戏误导人生的青年(看似简单的游戏)(8)

除了「友善」、「宽容」、「迅速回应背叛」三项特质外,阿克塞尔罗认为「以牙还牙」的另一个有助其成功的特质是「清晰」。因为任何试图利用它的程序,下一步就会被背叛,「以牙还牙」不为人所利用,而且这一点很容易辨认到,所以其清晰是一大优势。

在自私的世界,合作还有可能发展出来

被游戏误导人生的青年(看似简单的游戏)(9)

参与电脑竞赛毕竟是事先设计的程序,在《合作的进化》中,阿克塞尔罗尝试说明,如果整个群体都采取「以牙还牙」策略,采取其他策略者难以「入侵」这个群体——即取得更高分数以站稳阵脚(但这取决于未来互动的重要程度)。当然,如果整个群体都毫不信任对方、永远背叛的话,任何单一入侵者都不会成功,然而一小群采取「善良」策略的入侵者却能成功。与之相反的是,假如未来的互动重要——简单理解为未来碰头的机会够高——「以牙还牙」就不会被入侵。

阿克塞尔罗又以战争时期和生态系统的例子说明,只要条件成熟,即使没有友谊甚至远见,合作仍有机会产生。当然,一如《信任的进化》所说,在可能犯错或引起误会的世界,「不信任」难以消灭。不过阿克塞尔罗的研究重要之处,在于说明了即使没有中央管理、参与者以自身利益为目标,合作仍然有可能发展出来。

被游戏误导人生的青年(看似简单的游戏)(10)

更精彩的研究,可见于阿克塞尔罗《合作的复杂性》一书,他应用遗传演算法到重复囚徒困境上,让随机产生的策略(只按过去三次交手结果做决定)互相竞赛和「交配」,以演化出新策略。结果发现,这方法能够产生带有「以牙还牙」影子的策略,例如「三次合作后会继续合作」、「被出卖后立即背叛对方」、「对方重新合作后会同样合作」及「三次互相出卖后继续背叛」等。

,