博弈生存无弹窗免费在线阅读-第1部分-吉米小说网

　
　　
　　╭╮╭╮　　╭╮╭╮　　
　　　　⌒　　　　　∨　　　　
　　（﹏）。。　（﹏）　　
╰╯

基本术语（1）
前面已经指出，博弈论研究的对象是理性的行动者或参与者如何选择策略或如何作出行动的决定。理性的人是对现实的人的基本假定，即假定参与者努力用自己的推理能力使自己的目标最大化。“理性的”与“道德的”不是一回事，理性的与道德的有时会发生冲突，但是理性的人不一定是不道德的。我们在第八章会阐述理性的人怎么会产生道德的行为。

博弈涉及哪些内容呢？

　
第一，博弈涉及至少两个独立的博弈参与者（player）。

每个参与者通过采取行动，努力使自己的效用或利益最大化。但是，他的行动的好处或支付的获得取决于另外的参与者。下文有时将参与者称为行动者。

“囚徒博弈”或“囚徒困境”是一个被广泛谈论和研究的博弈。两个共同作案偷窃的小偷被带进警察局单独关押，如果一方与警方合作，招认并供出自己与对方以前所做违法之事，而对方不招认，招认方将不受重刑，无罪释放，另一方则会被判重刑10年；如果双方都与警方合作共同招认，各被判刑5年；而如果双方均不承认有罪，因警察找不到其他证明他们以前违法的证据，则只能对他们的小偷行为进行惩戒，各判刑3个月。这两个小偷如何作出选择？

在这个囚徒困境中，囚徒的最后结果——是当场释放还是被判刑（10年、5年、3个月），不仅取决于该囚徒的决定，而且还取决于另外一个囚徒的决定。

而在买卖的交换行为中，买东西的人要尽量以低的价格买到，但是他是否能买到取决于卖者是否能卖；卖东西的人尽量想以高的价格将东西卖出去，但价格太高，买者不接受，因此卖东西的人能否将物品卖出去取决于买者。

第二，博弈涉及行动者存在着策略（strategy）选择的可能，博弈论用策略空间来表示参与者可以选择的策略。

赤壁一战，曹兵大败，曹操落荒而逃，在选择是走通往华容道的小路，还是选择大路时，他面临着在两个策略之间进行选择。囚徒困境中的小偷面临着“不招认”还是“招认”的选择。每个参与者从策略空间中选取他的策略，如果没有选择的可能，理性的人是无法作出计算的，对自己的目标也就无能为力。从这个意义上来讲，我国改革开放走向市场经济，就是使得每个经济主体发挥其理性的作用，使之发挥主动性，而在计划经济下则没有可选择的余地。

第三，参与者在不同策略组合下会得到一定的支付（payoff）。

我们往往用支付矩阵来表示参与者在各种策略组合下的支付，有时用函数来表示。囚徒困境的支付矩阵为：

甲乙不招认招认不招认各判刑3个月乙：判刑10年，

甲：当场释放招认甲：判刑10年

乙：当场释放各判刑5年我们再来分析一交易过程的支付矩阵。在一卖主甲和一买主乙之间的“买—卖”博弈中——这是一讨价还价过程，假定通过讨价还价后确定了一价格。在此价格下，卖者卖成后获得的效用为6，卖不成的效用为0；买者买成的效用为4，买不成的效用为0。而如果他们之间的交易不成功，无论是买主还是卖主都要等待和进行讨价还价，假定等待和讨价还价的成本均为1，则支付矩阵为：

乙甲买成买不成卖成（6，4）（5，0）卖不成（0，3）（0，0）

第四，对于博弈参与者来说，存在着一博弈结果。

所谓结果是参与者最终对策略的选择造成的确定性的支付。如在曹操败走华容道的博弈中，诸葛亮在“埋伏大路”与“埋伏通往华容道的小路”之间进行选择，而曹操在“走大路”和“走通往华容道的小路”之间进行选择。在这个博弈中，双方猜测对方的行为，看谁猜得准。博弈的最终结果是，诸葛亮派关羽埋伏在通往华容道的小路，而曹操选择走小路，被诸葛亮抓住。这就是曹操与诸葛亮之间的博弈的结果。

第五，博弈涉及均衡。

均衡是经济学中的重要概念。那么什么是均衡，它的含义是什么？

均衡即是平衡的意思，在英文中是equilibrium。在经济学中，均衡意即相关量处于稳定值。在供求关系中，如果在某一商品市场的某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能将商品卖出去，此时我们就说，该商品的供求达到了均衡。此时的价格可称之为均衡价格，产量可称之为均衡产量。均衡分析是经济学中的重要分析。

那么什么是博弈论的均衡呢？所谓博弈均衡，它是一稳定的博弈结果。均衡是博弈的一种结果，但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的，因而是可以预测的。

纳什均衡是一种最常见的均衡。它的含义是：在对方策略确定的情况下，每个参与者的策略是最好的，此时没有人愿意先改变或主动改变自己的策略。

在上面的“买—卖”的博弈中，（卖出，买进）是一纳什均衡，这个博弈可以解释为什么在现实中讨价还价后买卖能做成，因为这对双方来说都是最优选择。同时在“买—卖”博弈中，其均衡对双方来说是全局最优的。

第六，重要的均衡——纳什均衡。

纳什均衡（Nash　Equilibrium）是博弈分析中的重要概念。1950年身为研究生的纳什写了一篇论文——《n人博弈的均衡问题》，该文只有短短一页纸，可就是这短短一页纸成了博弈论的经典文献。在这篇论文中，纳什给出了博弈均衡的定义，这样的均衡被人们称之为纳什均衡。

基本术语（2）
那么什么是纳什均衡呢？简单说就是，一策略组合中，所有的参与者面临这样的一种情况：当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略，他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

在囚徒困境中存在惟一的纳什均衡点，即两个囚犯均选择“招认”，这是一稳定的结果。

　
有些博弈的纳什均衡点不止一个。如下述“夫妻博弈”（或称性别之战）中有两个纳什均衡点。丈夫帕特和妻子克里斯商量晚上的活动。丈夫喜欢看拳击，而妻子喜欢欣赏歌剧。但两人都希望在一起度过夜晚，双方的支付矩阵如下：

丈夫妻子歌剧拳击歌剧（2，1）（0，0）拳击（0，0）（1，2）

在这个“夫妻博弈”中有两个纳什均衡点：（歌剧，歌剧），（拳击，拳击）。在有两个或两个以上纳什均衡点的博弈中，其最后结果难以预测。在“夫妻博弈”中，我们无法知道，最后结果是一同欣赏歌剧还是一起去看拳击。

是不是所有的博弈均存在纳什均衡点呢？不一定存在纯策略纳什均衡点——所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略。但至少存在一个混合策略（mixed　strategy）均衡点——所谓混合策略是指参与者采取的不是惟一的策略，而是其策略空间上的一种概率分布。这就是纳什于1950年证明了的纳什定理。我们下面将在“警察与小偷的故事”例子中给出混合策略的说明。

我国研究纳什均衡的专家谢识予博士在《纳什均衡论》中用通俗的话表达了纳什均衡含义：给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你最好的策略。这就是说，双方在对方的策略下自己现有的策略是最好的策略。即：此时双方在对方给定的策略下不愿意调整自己的策略。这里的策略包括混合策略。

纳什均衡是博弈论中的重要概念，同时也是经济学的重要概念。诺贝尔经济学奖获得者萨缪尔森有一句幽默的话：你可以将一只鹦鹉训练成经济学家，因为它所需要学习的只有两个词：供给与需求。博弈论专家坎多瑞（Kandori）引申说：要成为现代经济学家，这只鹦鹉必须再多学一个词，这个词就是“纳什均衡”。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大，对其他社会科学意义同样重大。我在书后的附录中用数学语言给出了纳什均衡及纳什均衡存在定理。

博弈的类型
根据参与者能否形成约束性的协议，以便集体行动，博弈可分为合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。

所谓合作性博弈是指参与者从自己的利益出发与其他参与者谈判达成协议或形成联盟，其结果对联盟方均有利；而非合作性博弈是指参与者在行动选择时无法达成约束性的协议。人们分工与交换的经济活动就是合作性的博弈，而囚徒困境以及在第八章讨论的公共资源悲　　
剧都是非合作性的博弈。

博弈又分静态博弈和动态博弈。静态博弈指参与者同时采取行动，或者尽管参与者行动的采取有先后顺序，但后行动的人不知道先采取行动的人采取的是什么行动。动态博弈指参与者的行动有先后顺序，并且后采取行动的人可以知道先采取行动的人所采取的行动。

从知识的拥有程度来看，博弈分为完全信息博弈和不完全信息博弈。信息是博弈论中重要的内容。完全信息博弈指参与者对所有参与者的策略空间及策略组合下的支付有“完全的了解”，否则是不完全信息博弈。严格地讲，完全信息博弈是指参与者的策略空间及策略组合下的支付，是博弈中所有参与者的“公共知识”的博弈。对于不完全信息博弈，参与者所做的是努力使自己的期望支付或期望效用最大化。

这只是对博弈论的简单介绍。关于其中的详细内容，读者需参阅有关书籍。

　
博弈案例（1）　

1囚徒博弈与我国应试教育的困境

囚徒困境可以用来说明许多现象。我国目前的应试教育就是一个囚徒困境。

囚徒博弈是完全信息下的静态博弈，两个小偷各种策略组合下的支付是他们之间的“公共知识”（我们在下一章中将讨论什么是“公共知识”）。

　
我们上面已经分析了囚徒对局下各个策略下的结果或支付，以及它的均衡。它的均衡是双方均选择“招认”的策略。

可以这么说，最近10多年来，我国基础教育的问题是如何摆脱应试教育的困境问题。目前给中小学生“减负”不仅是学生家长的呼声，也是教育专家和教育管理部门的呼声，也可以说是全社会的呼声。教育管理部门这几年做了一系列的工作，但收效甚微，并没有从根本上解决问题。学校不断给学生增加负担是目前教育的实际状况。

大家普遍认为应试教育是扼杀学生的创造性，无论是专家还是家长，都在呼吁改变应试教育的模式。但是无论是专家，还是意识到教育问题的普通老百姓以及没有意识到教育问题的老百姓，其小孩都在接受着这种教育。

在现有的教育体制下，学生（或学生家长）有两个可选择的策略：“减负”和“增负”。学生的精力是有限的，如果选择“减负”策略，意味着学生有更多的时间学习课本以外的东西，这样学生的素质得到提高，因此，“减负”策略往往与素质教育联系在一起；而如果选择“增负”策略，则意味着学生花大量的时间做大量的习题，以“学透”、“学精”课本规定的东西，此时，学生没有时间学习课本以外的没有规定的内容。“减负”的结果是学生的全面发展；而“增负”的结果是学生获得高的分数。

在这样的博弈结构下，学生（或学生家长）如何选择呢？每个学生这样想：其他人采取的是“增负”教育策略的话，如果我采取“减负”教育策略，我的考试分数不如他人，在求学方面我会落后，接受不了好的教育，在未来求职时我也赶不上他人。在他人采取“增负”的策略下，我也应当采取“增负”策略。如果其他人采取的是“减负”策略，我应当采取什么策略呢？还是应当采取“增负”策略！因为，如果其他人采取的是“减负”策略的话，如果我采取的是“增负”策略，我的考试分数会比其他人高，我会上好的学校，在未来的职业竞争中我会处于优势。因此，无论其他人采取的是什么策略，我采取“增负”策略都是最好的。当每个学生都这样想的时候，全社会便进入了应试教育这样一个囚徒困境之中。

如果我国现有的考试制度没有改变，现在假设所有的学生都选择“减负”策略，即除了做少量的巩固性的作业外，不补课、不做其他的练习题，情况会是什么样子？

假设这种状态会出现，我们说，这种状态会很快消失，而立即会出现所有学生都进入“增负”的这样一个状态。可以说，均选择“减负”策略的状态是不稳定的，而“增负”的状态

《博弈生存》

下载本书

博弈生存- 第1部分