博弈论不是“三十六计”
《三十六计》在很大程度上是一本阴谋诡计之书。诡计有三个问题:首先,诡计都有巨大的风险,诡计要想成功,你不但必须严密封锁信息,而且还得假设对手是比较愚蠢的;第二,诡计是不能长期使用;还有一个更大的问题,那就是它们说的都是“零和”游戏。真实世界中,除了战争,很少有这样你死我活的局面。
计谋要是太多,愚蠢的人就不够用了。博弈论研究的是“理性人”之间的博弈。博弈论假设人是理性的,表现为三个要求:第一,你得知道你想要什么,并且对你想要的东西有一个明确的排序;第二,你的行动是在一定的规则之下,争取得到你想要的东西;第三,你知道对手也是这么想的,而且对手也知道这些规则。人有时候会被某种情绪劫持,这种情况不是博弈论的研究内容。
博弈论研究的就是一群聪明人,在一定的规则之下,如何选取最有利于自己的策略。传统上一说到博弈都是研究怎么选择更高明的策略,而我想告诉你的是,如果各方都足够理性,那么最终决定局面的不是策略,而是规则。
博弈论要求你假设,你能想到的,别人也能想到,那你怎么办。你的任何行动都得考虑对手的反应。这里面没有阴谋,全是阳谋。
跟其它学问一样,我认为博弈论的一个重大好处是能陶冶情操。你的气质会得到提升,你会是一个更清醒的人。当一般围观群众对身边的大事长吁短叹的时候,你能观察到其中的博弈格局。就算没有机会插手,你至少知道这件事儿的关节在哪里,你至少不会有不切实际的幻想。博弈论还能让你更积极主动。博弈论的精神绝不是冷眼旁观,而是要做一个player!要敢于为了得到自己想要的东西而采取主动的行动。
怎么对付“非理性”的人
博弈论的前提是双方都是理性的。如果一方是非理性的,那么有两种情况。如果另一方不知道他是非理性的,那么非理性的一方最终会损失重大,可能就没命了,可是理性的一方也会遭受损失。而如果理性的一方知道对方是非理性的,那为了避免自己受害,就会选择让步。所以,做出非理性的样子,让对方知道自己是非理性的,这对自己有好处。理性的人可能会假装非理性。这就是为什么有些人会在公共场合搞哭闹、好像不管不顾一样。
群鸦的战争
博弈论的三个基本概念:“帕累托最优”、“压倒性策略”和“纳什均衡”。
Player,在游戏中叫玩家,在体育比赛中叫选手,在博弈论中叫参与者——其实都是一个意思,博弈论(Game Theory)说的都是game。有一点参与游戏的精神,你就有权在规则范围内采取对自己最有利的行动,你就是积极主动的,你就会平等对待对手——你就既不是一个浑浑噩噩整天根据别人设定做事的人,也不会有整个世界绕着自己转的幻觉。博弈论要求我们每次做判断都要考虑对方——不是考虑怎么对对方好,而是考虑对方会怎么做,然后你怎么做。
帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时,使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了,这个局面就叫“帕累托最优”。
“压倒性策略(Dominant Strategy)”,这个策略压倒其他一切策略,不管对手怎么做,这个策略对你来说都是最好的。
纳什均衡的意思就是这么一种局面,在这个策略组合里,没有任何一方愿意单方面改变自己的策略。
数学只是博弈论的辅助工具,博弈论的思想并不体现在数学中。学习博弈论,宁可有思想没数学,也不要有数学没思想。
理想青年喜欢帕累托最优,理性青年寻找纳什均衡。
以和为贵
博弈论研究的一般都是“非合作博弈”,参与者并不是心往一处想劲往一处使齐心合力办大事,而是每个人想的都是怎么让自己赢。出发点是非合作的,结果却可以达成合作。
这也是经济学的光荣传统。从亚当·斯密开始,人们就已经知道哪怕每个人都是自私的,各人都是为了自己的利益工作,全社会却能达成高水平合作。博弈论研究的合作可不是要搞“思想道德教育”去劝人行善,也不是让一个强权去管制人民,而是寻求能让人自愿合作的机制。好的合作,一定得是个纳什均衡。
如果一个博弈中有个多个纳什均衡,人们应该如何做选择呢?聚焦点就是在众多可能的纳什均衡中最显眼的那一个,人们会自动在这一点上达成合作。聚焦点的作用是协调。有些聚焦点是设计出来的,有些聚焦点属于历史路径依赖。有了聚焦点思维,我们就应该在没有聚焦点的时候主动提出一个聚焦点,促成合作,你可以先下手为强。聚焦点的最大价值就是它的存在本身。传统文化和社会习俗其实也是作为聚焦点起到了协调合作的作用。请注意,聚焦点能这么有用,有一个关键的前提,那就是各方没有根本的利益冲突。我们都希望能促成这次合作,我们需要解决的只是在哪里合作。想要合作的人们需要聚焦点。只要你能找到借口,任何借口都可以是聚焦点。事实上,即便有一定的利益冲突,只要合作的愿望大于冲突,我们还是可以使用聚焦点。
不纵容,但要宽容
防止背叛,最直观的办法就是把单次博弈变成重复博弈。为什么旅游景点的饭菜质次价高?因为那是单次博弈。你下次就不来了,他能骗一把是一把。而像麦当劳这样的连锁店,哪怕是开在旅游景点,也会保证质量,因为它要为整个品牌的声誉负责。很多商家说我们要做一百年,有些商店搞会员制,这些都是重复博弈。重复博弈之所以有效,是因为背叛者会受到惩罚。最直接的惩罚就是下次我也背叛你,让你得不到合作的好处。
一群人要想合作,至少要满足下面两个条件中的一个:第一,是合作对自己有好处,人们本来就想合作;第二,是不合作会受到惩罚。利益和惩罚只是硬条件。如果内部没有起码的信任,合作就是脆弱的。
80年代,密西根大学的政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)组织了一个博弈竞赛。博弈的内容就是囚徒困境,你要决定什么情况下合作什么情况下背叛。各路学者提交了不同的策略算法,大家两两轮流博弈,看看最后谁的收益大。出乎意料的是,最后胜出的是一个非常简单的策略,英文叫“Tit for Tat”,一般翻译成“以牙还牙”。这个策略是 :(1)不管跟谁,第一轮我都选择合作;(2)第一轮过后,我就复制对手上一轮的做法。你上一轮要是跟我合作,我下一轮也跟你合作。你要是背叛了我,我下一轮也背叛你。
以牙还牙,简单、粗暴、有效。但是你可能不知道的是,以牙还牙其实是一个脆弱的策略。这个策略对错误很不友好。计算机模拟总是精确的,但真人博弈可能会操作失误。在真实世界中,以牙还牙并不是最好的策略,它不够宽容。博弈论专家提出一个改进版的以牙还牙:对方背叛我一次,我继续合作;只有当对方连续背叛我两次,我再报复。研究表明,在有可能出错的博弈中,这个办法的效果比以牙还牙更好。
真实生活中别人可能犯无心的错,你可能误判。中国人有句话叫“退一步海阔天空”,强人通常不喜欢这句话,但是其实这句话很有道理——宽容能避免脆弱。不过请注意,这句话的关键词是“一步”。退一步是宽容,退两步就是纵容了。
有句话说“要跟你的朋友保持较近的距离——而对敌人,要更近!(Keep your friends close and your enemies closer)”古巴导弹危机之后,美苏两国一看这样真不行,千万别因为误会大打出手,所以双方建立了一个“热线”,任何事情先打电话问问,消除误会。
装好人的好处
如果双方都明确知道对方是理性的人,那有限次重复博弈就不会有合作。可是社会上有些人就愿意当好人,他就愿意合作。那么当你面对一个好人的时候,你是合作还是背叛呢?你的理性选择是合作。
“KMRW定理”说,在不完全信息博弈中,参与者不知道对方是好人还是理性人,那么只要博弈重复的次数足够多,合作能带来足够的好处,双方都会愿意维护自己是好人的这样一个声誉,前期尽可能地保持合作,到最后才选择背叛。
你在大多数情况下无法区分一个好人和一个理性人。张维迎在《博弈与社会》这本书里讲到,KMRW定理可以解释“大智若愚”。“智”,就是人要自私,一切行动都是为了自己的利益。“愚”,就是宁可吃亏也不背叛别人。每一轮都选择背叛,看似自私,其实那是“小智”。而如果宁可吃点亏也要选择合作,你就会建立一个良好的声誉,就会有更多的人跟你合作,从长期来这才是“大智”。
理性人有充分的理由不暴露自己是个理性人,你应该假装自己是个好人。那装好人要装到哪一步为止呢?有限次重复博弈的实验中,双方通常是到了倒数第二次博弈才暴露自己的理性人面目,选择背叛。博弈论专家绝对不会建议你去做真正的好人。好人经常对世界有一厢情愿的期待。有的好人认为他能感化别人,他觉得如果我这次跟人合作,哪怕吃了亏,下一次别人也会因为不好意思、或者为了回报我而跟我合作。博弈论专家会说这种想法非常危险。事实上,如果你身处一个比较险恶的社会环境,那你不但不应该做好人,而且应该装坏人。
不过话说回来,做真正的好人的确有个重大好处,那就是你会自我感觉很好。为了维持这个良好感觉,你宁可牺牲金钱的利益。好人跟好人之间形成了一个想象的共同体。这其实是一个幻觉,但是没办法,想象的共同体是最强大的社会力量。这种感觉有时候会如此强烈,以至于我们认为物质利益都是不值得的。这其实也是理性的!只要你知道自己心中什么最重要就行。博弈论不在乎具体的价值观,但是博弈论要求你对你想要的东西有个清晰的、稳定的排序。你得知道为了什么东西可以牺牲什么东西。
布衣竞争,权贵合谋
这个博弈格局是如果利益很大,而参与者很少,这些参与者就会联合起来。只要上了这张桌子,稳稳当当就能瓜分天下,何必斗个你死我活呢?
网上流传一句话叫“上流社会人捧人,中流社会人比人,下流社会人踩人”。这句话说得很难听,但是有几分道理。合作的利益大就不会竞争,背叛的成本低才会背叛。
怎么打破这个局面?一个办法就是扩大市场准入,让更多的参与者进来,让商家的协调没那么容易。另外一个办法就是依靠政府的力量反垄断,相当于全体消费者联合起来去对付那些巨头。
有一种困境叫自由,有一种解放叫禁止
博弈论是人类理性行为的第一性原理。
破解囚徒困境的方法,自由论者可能更喜欢用像重复博弈或者协调这样自发的方式达成合作,但是老百姓有个更直观的解决方案:让政府管。最高级的看法是,你应该把政府也当作一个player。而且政府也应该把自己视为一个player。既然是参加博弈的player,政府也需要博弈论。
先下手为强
动态博弈的本质不是轮流出招,而是你可以改变游戏的规则。
有个经典的博弈局面,英文叫“chicken”,是“小鸡”的意思,意思是比比谁胆小。在一条笔直的公路上,甲乙两个人各自开一辆车相向而行,眼看就要撞在一起了。游戏规则是谁先打方向盘靠边谁就胆小,谁就是小鸡。当然两边首先都肯定不想死,转方向盘是必然的,问题就在于谁先转。博弈论专家不是靠胆大工作的,我们的建议是你可以当着对手的面,把自己这辆车的方向盘给卸了。你这个动作明确告诉对方自己肯定不会转方向盘,因为你的车已经没有方向盘了,你只能走直线。那么现在两辆车会不会相撞就完全取决于对方。只要对方不想死——你知道他肯定不想死——他就只能转方向盘,这样你就赢了。
你改变了游戏规则。本来游戏规则是两个人都可以选择是做小鸡还是死,而你把规则改成了只有对手能选择做小鸡还是死。你放弃了自己的选项,但把做小鸡的唯一可能性交给了对方。
“it's
better to ask forgiveness than permission”——与其事先请求允许,不如事后请求原谅。如果你算准了你做了这件事对方也没办法,那你就应该直接做。
既然大家都不想死为什么不一开始就服软呢?答案是先升级再服软就不算是小鸡了。我们都已经证明了自己的勇敢,双方都推动了危机升级,这时候只要有个台阶,我们谈判解决,各退一步,不算丢脸。双方都坚持了原则,保全了颜面,双方都可以宣称下次对方再也不敢了。事实上也真不敢了。悬崖策略是非常危险的,它很容易因为出错而变成真的灾难。
其实你让对方先出手,你就已经错了。最好的办法给对方一个威慑,让他根本不敢出手。“威慑有三个要素:实力、决心和让对手知道。”第一,我有实力摧毁你;第二,我有决心摧毁你;第三,你得知道我有实力和决心摧毁你。从博弈论的角度,还有特别重要的一点,那就是双方都不想被摧毁——双方都得是充分理性的才行。
其身不正,虽令不从
动态博弈有两个基本概念,一个叫威胁,一个叫承诺。所谓威胁,就是我要求你不要去做某件事——我说如果你做了,我就会对你进行惩罚。所谓承诺,就是我要求你去做某件事——如果你做了,我就会给你一个奖励。威胁和承诺在本质上是一样的,都是我事先说好,会根据你下一步的行动采取一个相应的行动。
托马斯·谢林提出一个关键的概念,叫做“可信性”。不可信的威胁和承诺说了也是白说,只会让人觉得你这个人不靠谱。但是可信的威胁和承诺则是非常有用的。可信不可信,取决于事后的利益格局。只有你事后别无选择,履行自己的威胁或者承诺符合你在那个时候的利益,事前最优和事后最优一致,那才是可信的。不可信,是因为“事前最优”和“事后最优”的不一致。
可信=别无选择
为了发出可信的威胁或者承诺,你必须主动束缚自己的手脚。我大概总结了一下,有三种办法。第一个办法是给别人惩罚你的权力;第二个办法是主动取消自己的选项;第三个办法是建立声望。声望最大的好处就是它允许你无需花费任何成本就能提出可信的威胁和承诺。损害声望,就是对你失信最大的惩罚。
后发优势的逻辑
先发者暴露信息,后发者利用信息。如果你已经领先,就不要主动冒险了。应该让落后者先发起不确定性。落后者不改变打法就一点机会都没有,他想赢就必须冒险——而领先者只需跟随就行。
占据市场主导地位的大公司通常不愿意首先做一些特别激进的创新。我们现在做得很好还折腾什么?激进的创新往往是小公司发起的。而面对激进的小公司,大公司如果觉得它的新打法可能会威胁到自己,其实也很容易应对。一个办法是干脆收购这个小公司,当然还有一个办法是直接模仿小公司。
后发优势=先发者的信息+后发者的出手权。
信息是模仿机会,出手权是创新机会。
先发优势在于占领,后发优势在于信息和这时候才有的出手权。如果先发者能占住,后发者只能被迫创新,那么这时候先发者的正确做法是模仿后发者——可是因为各种原因,先发者常常做不到。学习前人经验可以让你少走弯路。但是如果你想赢,想超过前人,那你就必须得有一个前人没有的超车动作才行。
真正的“诡道”是随机性
冯·诺依曼说,想要真的迷惑对手,你必须把谎话和实话混合起来。
因为没有纯策略的纳什均衡,所以博弈论不能告诉你应该怎么踢才能赢这一把。但是,如果你要参加很多次罚点球,博弈论就可以给你一个指导,帮助你用一个“系统”取胜。博弈论要求你使用“混合策略(mixed strategies)”。你的混合概率选择,应该把对手能得到的最大报偿给最小化。“最小最大值定理(Minimax theorem)”这是博弈论的一个基本定理,它涉及到非常复杂的数学,但是这个精神是容易理解的——第一,你要按照一定的概率,混合自己的打法;第二,你混合打法的这个规律,必须是让对手无法利用的。英雄做事,必须完全没有可以被敌人利用的规律。
随机性,才是真正的“诡道”。混合策略不是阴谋而是阳谋。使用混合策略,你就算把决策方式告诉对手他也没办法。阳谋不怕被识破……归根结底,大家都是纳什均衡的奴隶。
博弈设计者
一般人遵守规则,少数人违反规则,有的人制定规则。设计一个博弈,比参加一个博弈要难得多,这是管理者的学问。
1961年, 经济学家威廉·维克里(William Vickery)提出一种竞拍方法,可以让竞拍者放心大胆地出价,现在被称为“维克里拍卖(Vickrey auction)”,也叫“次价密封投标拍卖(Second-price sealed-bid auction)”。这个拍卖方法是暗标,每个竞拍者只出价一次,放在信封里不让别人看到。出价最高的人中标——但是,他最后付钱不是出自己竞标的价格,而是出第二名竞标报价。这听起来有点反直觉,但正因为这样,竞标者才可以放心大胆地报出自己所能出的最高价,而不用担心因为不懂行情而吃亏!维克里靠对拍卖的研究获得了1996年的诺贝尔经济学奖。
冥冥之中有定数
博弈论的出发点是自由。你首先得是一个自由的player,能够独立自主地选择博弈策略,才谈得上使用博弈论。但博弈论的结局通常是不自由。作为一个理性的人,你的策略总是纳什均衡中的一个——如果纳什均衡只有一个,你就只有这一个选择。
就好像生物演化是基因的竞争,文化演化是“模因(Meme)”的竞争一样,博弈的演化,是策略的竞争。如果使用一个策略能带来好的报偿,人们就会模仿这个策略,这个策略就会流行开来。
永无止境的博弈
“游戏”和“博弈”,在英文里是同一个词,都叫game。新手容易动感情,老手都是理性的。而且光有理性还远远不够,你必须选择正确的策略才行。如果游戏里的对手比较弱,你还可以尝试各种各样的玩法,享受任性;游戏难度增加,你就没有太多选择;要打最高难度,很多时候只有一种正确的打法。而如果对手跟你一样也是个人类玩家,那你就算把什么都做对了也不一定能赢。
所有人都意识不到博弈的时候,可能你诗情画意都能赢;少数人意识到博弈的时候,谁意识到博弈谁赢;大家都意识到博弈了,那就只能比执行力——或者看谁能意识到新的博弈。
也许你有足够的前瞻思维能预期未来的博弈局面,也许你能举一反三熟练应对各种博弈局面,或者,现在你至少是个敢于博弈的player。
总结
“纳什均衡”是博弈论里最重要的思想,也是祛除妄念的清醒剂。纳什均衡的意思是说如果博弈各方都是足够聪明的人,大家最终的策略选择一定是这么一个局面:在这个局面里大家都认命了,谁也无法单方面改变策略去谋求一个对自己更好的结局。
纳什均衡是谋略计算的终点。
如果各方有强烈的合作意愿,而博弈有不止一个纳什均衡,那我们就需要一个“聚焦点”。
如果合作对所有人都有好处,但背叛对背叛者有直接的好处,那就是“囚徒困境”。
为了解脱囚徒困境,如果博弈是可重复的,我们应该寻求对背叛者进行惩罚。“以牙还牙”是最经典的做法,但适当的宽容更能促成合作。
在残酷世界里选择做好人表面上看是非理性的——但只要博弈有比较多、哪怕只是“有限次的重复”,做好人其实是有利的。
如果参加博弈的人数比较少,合作的利益比较大,各方就会形成串通和“合谋”,尽管这么做不一定对社会有好处。
有时候主动放弃一部分自由、让第三方“监管”,反而能促进自由,而监管者也应该把自己当作博弈的一方。
如果能迅速占领某种资源或者造成既成事实,那就“先下手为强”;如果先出手的一方守不住,那“后发”者反而会因为得到了关键信息和出手权而获得优势。
想要让别人按照你的意志行事,最好的办法是给他一个“可信的威胁或者承诺”。
有些博弈只有“混合策略的纳什均衡”,最高级的玩法不是欺骗对手,而是随机选择策略。
如果双方信息不对称,传达信息最好的办法是“发信号”,这意味着你要用行动去证明自己。
纳什均衡是博弈的结局,可是真实世界从来都没有结局——这是因为博弈局面总在变化,我们甚至可以主动改变博弈。
博弈论的最高级应用是“设计博弈”,比如说制定一场拍卖的规则,但这非常不容易。
而博弈论的最高视角,则是观察不同博弈策略在人群中的演化。我们看到的是,博弈永无休止。
补充阅读:Player作风
博弈的首要精神是做个“player”。
player的自我修养:一个合格的player,应该拥有四个作风——有限、务实、慎重、客观。
有限:Player 身份只是我们众多身份中的一个,博弈不是人生的全部。能接受失败的人,才有资格争取胜利。赢了就忘乎所以,输了就哭天抢地,那是最土的行为。
务实:博弈论不是研究把不可能变成可能,而是怎么实现最可能。“降维打击”是个幻想,任何成熟的领域都根本没有给你降维打击的机会。如果你以为你知道华尔街不知道的,那最大的可能是你不知道自己不知道。
慎重:任何争论中,感情的强烈程度和所涉及到利益的价值成反比。作为player,你不能轻易挑起争端,不能轻易表态,不能轻易透露相关信息。你要是有影响,就得注意影响。
客观:参加博弈,其实就是老老实实地考虑这些因素 ——1. 这个博弈是什么,我想要什么;2. 我现在有什么,我可以放弃什么;3. 对手的情况。你输入相关的条件,寻求一个限制条件下的最优解。管用的公关必须站在对方视角说话,先同步,才能领导。
善为士者不武,善战者不怒,善胜敌者不与,善用人者为之下。Player,那是有气质的。