第一章囚徒困境与纳什均衡
赵国洪
**********
@
一、经典案例——囚徒困境
经典案例——囚徒困境
两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”:
如果两人都坦白则各判8年;
如果一人坦白另一人不坦白,坦白的放出去,不坦白的判15年;
如果都不坦白则各判1年。
这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?
1950年,斯担福大学客座教授、数学家图克(Tucker)为形象地说明博弈过程,构造了著名的“囚徒困境”模型。
(15,0)
(0,15)
(1,1)
乙
甲
合作
合作
背叛
背叛
(8,8)
经典案例——囚徒困境
从表面上看,他们应该互相合作,保持沉默。但他们不得不仔细考虑对方可能采取什么选择。
甲、乙两个人都十分精明,而且都只关心减少自己的刑期,并不在乎对方被判多少年(人都是有私心的嘛)。
甲会这样推理:假如乙不招,我只要一招供,马上可以获得自由,而不招却要坐牢1年,显然招比不招好;假如乙招了,我若不招,则要坐牢15年,招了只坐10年,显然还是以招认为好。无论乙招与不招,我的最佳选择都是招认。还是招了吧。
自然,乙也同样精明,也会如此推理。
经典案例——囚徒困境
就是说,对方背叛,你也背叛将会更好些。这意味着,无论对方如何行动,如果你认为对方将合作,你背叛能得到更多;如果你认为对方将背叛,你背叛也能得到更多。你背叛总是好的。
于是两人都作出招供的选择,这对他们个人来说都是最佳的,即最符合个体理性的选择。
照博弈论的说法,这是本问题的惟一平衡点。只有在这一点上,任何一人单方面改变选择,他只会得到较差的结果。这一点就是纳什均衡(Nash Equilibrium)。
经典案例——囚徒困境
纳什均衡的思想
在博弈达到纳什均衡时,局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益,于是各方为了自己利益的最大化而选择了某中最优策略,并与其他对手达成了某种暂时的平衡。
这种平衡在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
纳什均衡的思想
再简单一点说,一策略组合中,所有的参与者面临这样的一种情况:当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,他的收益将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
在“囚徒困境”变形的博弈中,A和B都坦白就是一个纳什均衡,这对双方来说都是最优选择。同时在这个博弈中,其均衡对双方来说是全局最优的。当然博弈达到纳什均衡,并不一定是对参与者最有利的结果,更不意味着是对整个社会作为一个整体而言最有利的结果。
第一章囚徒困境与纳什均衡ppt课件 来自淘豆网m.daumloan.com转载请标明出处.