囚徒困境
维库,知识与思想的自由文库
|
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映個人最佳選擇並非团体最佳選擇。雖然困境本身只屬模型性質,但現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。 單次發生的囚徒困境,和多次重複的囚徒困境結果不會一樣。 在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。 囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同伙可為自己帶來利益(縮短刑期),也因為同伙把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同伙會在獄中及街頭受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。
[编辑] 经典的囚徒困境1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择:
用表格概述如下:
[编辑] 解說如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。 这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛,结果二人判決均比合作為高,總體利益較合作為低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 [编辑] 一般形式整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。实验经济学常用這種博弈的一般形式分析各种论题。以下是實現一般形式的其中一例: 有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了參與者知道對方選擇的可能性1 。然后,庄家翻开兩個参与者卡片,根據以下規則支付利益:
T、R、P、S符号表
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。 T>R>P>S (解:从5>3>1>0获得以上不等式) 若以整体获分而言,将得出以下不等式。 2R>T+S或2R>2P (解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。) 而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。 以上理论是道格拉斯·霍夫施塔特创建的。 [编辑] 现实的例子上述例子可能顯得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,將結果劃成同樣的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模擬生物面對无止境的囚徒困境博弈。囚徒困境可以廣為使用,說明這種博弈的重要性。以下为各界例子: [编辑] 政治学例子:军备竞赛在政治学中,兩国之间的军备竞赛可以用囚徒困境來描述。两国都可以聲稱有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。兩國都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但结果卻顯得「非理性」(例如會对经济造成都有损坏等)。这可視作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。 [编辑] 经济学例子:关税战两个国家,在关税上可以有以两个选择: 当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。) [编辑] 商业例子:广告战两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。 此二公司可以有二选择:
若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。 [编辑] 自行车赛例子自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的環法自由車賽中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。 [编辑] 与囚徒困境相关的各事件[编辑] 异想威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境。在新西兰,报亭即无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”。[3] [编辑] “認罪減刑”不可行囚徒困境的结论是许多国家中認罪減刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。 [编辑] 公用品悲劇现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲劇就是一例:「公用品悲劇是指凡是屬於最多數人的公共财产常常是最少受人照顧的事物」,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。 [编辑] 重复的囚徒困境罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。 阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。 最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%-5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。 通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。 重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现。(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使。)这可能是一次性博弈和重复性博弈中的理性行为不同的例子。 对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位,因为第一回合的损失。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。 一般有两种方法得到最佳策略:
尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)[1]领导,包括了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。 如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。 另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的)。 囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇。 [编辑] 学习心理学和博弈论当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。 群体中背叛的可能性,可以被合作的经验所削弱[6],因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。 [编辑] 相关的博弈[编辑] 封闭袋子交易霍夫施塔特2 曾提出,像囚徒困境一类的问题,若以简单博弈的形式来说明,人们会较容易理解。例如他以“封闭袋子交易”的简单博弈来说明此论题: 在这場博弈中,由于背叛可获得巨大利益,必然有多人选择背叛。这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场。 [编辑] 是敌是友?“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weak equilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。 这个支付矩阵是:
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来。 在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。 在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。) [编辑] 注释
获知其他人策略不被考虑的理由是:即使有人能获知他人策略,“背叛”仍然是最佳的策略,无论他获知对方选择“合作”或“背叛”都是如此。如果人的自私不改变的话,囚徒困境还是存在,永远达不到团体最大利益。所以知不知他人策略对囚徒困境的存在几乎没有影响。
道格拉斯·霍夫斯塔特 (1985). 元逻辑命题:追问思维和模式的本质. 班坦·戴尔出版集团. ISBN 0-46-504566-9. - 参阅 第29章 囚徒困境计算机竞赛和合作的进化。 3. ^ 除了解释没有小偷小摸,异想还用于解释志愿投票之类的事情(在非投票者被认为是搭便车者的地方)。可能,这还可以用来解释维基百科贡献:文本在如下的假定下被添加——如果没人贡献,相似的人也将不会去贡献(即从效果到缘由的争论)。或者,解释要依赖于可预料的未来行动(不需要神奇的联系)。为未来的交流作模型需要增加有限的维,就像在重复的囚徒困境一节中给定的。 4. ^ 例如参看2003年的研究贝叶“斯纳什均衡;假说的统计检验”:关于概念的讨论,和是否能运用于真实的经济或统计情形(来自特拉维夫大学)。 5. ^ 2004年度囚徒困境锦标赛结果显示高波·拉姆琼的南安普敦大学策略位于前3名,尽管与GRIM策略相比,有较少的胜利和更多的失败。(注意,在囚徒困境锦标赛中,博弈的目标不是“赢得”比赛——通过经常背叛,这很容易就能达到。)同样需要指出的是,即使在软件策略(由南安普敦大学的小组开发)之间没有隐含结论,以牙还牙也不总是任何既定竞赛的绝对赢家。说得更确切些,它在一系列竞赛中的最终结果胜过它的对手。(在任何项目中,给定的策略能稍微比以牙还牙更适应竞赛,但是以牙还牙更稳固)。这同样适用于附加宽恕变量的以牙还牙和其他最佳策略:在任何一天,它们可能无法“赢得”一个对抗策略的特别组合。 6. ^ 这个争论——关于出于信任的合作的发展——出自《群众的智慧》,此书表明,长久的资本主义能够围绕教友派信徒的核心形成,这些教友派信徒们总是体面地同他们的生意合伙人交易(而不是背叛和食言——一种已经阻碍了早先的、非强制履行的长期境外合同的现象)。这表明,和可靠的商人作交易使合作拟子(meme)传播给其他交易者,这些交易者又把它传播到更远的地方,直到高水平的合作在一般商业活动中成为有利可图的策略。 [编辑] 参看文献
[编辑] 参见[编辑] 外部链接
|



