博弈论读书笔记(五)重复博弈

≯℡__Kan透↙ 提交于 2020-02-07 17:29:53

2.3重复博弈

从这里开始,就进入博弈论比较难以理解的地方了。我也不跟着书上的章节走,根据自己的理解和书上的例子来写,如果理解有什么不对的地方,欢迎各位大佬的指正。

首先我们来明晰博弈论到底在讨论些什么:

对于这个问题,前面几章的内容可能对大家会造成一定的误导。因为根据前面几章的例子,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。

这句话本身没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒一样,选择“保证对方不会背叛并且自己在此情况下能获得最大利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明白我的意思)。例如第一章第一节中囚徒困境双方都选择招认(因为选择合作即不招认,结果可能是被背叛)。

但是一旦进入了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),而要考虑多次重复博弈的总收益。这个时候就需要参与双方共同商定一个“协议”(例如双方说好都选择不招认),这个协议必须是对于双方都有利的(至少由于选择单次博弈的纳什均衡,例如双方不招认总比双方都招认要好),并且协议中会对不遵守规则的进行惩罚,以便于对每个人来说选择合作是最好的结果。

从这里我们就可以理解“博弈论教你如何制定规则的”这句话了。

好了,这一章最核心的思想在这里已经讲完了,虽然我可能说的不是那么清晰,不过还是希望你能认真理解上面所说的,这会对下面的概念理解有很大帮助。

2.3.A两阶段重复博弈

先给出几个先行的定义和定理:

定义:对个定的阶段博弈G,令G(T)表示G重复T次的有限重复博弈,并且在下一次博弈开始前,所有以前的博弈都可以被观测到。G(T)的收益为T次阶段博弈收益的简单相加。

这个定义最重要的是引出一个重复博弈中收益的概念,即T次博弈的收益简单相加,后面我们会提到贴现的概念,不过到这里先理解到简单相加就行。

定理:如果阶段博弈G有唯一的纳什均衡,则对任意有限的T,重复博弈G(T)有唯一的子博弈精炼解:即G的纳什均衡结果在每一阶段重复进行。

这个定理只说明了在有限次重复博弈中只有唯一的纳什均衡的情况,而多个纳什均衡和无限重复博弈的情况会在后面给出。

这两个定理和定义比较容易理解,我们也不给出例子,之后我们先讨论两阶段博弈中有多个纳什均衡的情况。

看如下博弈:

 

L2

M2

R2

P2

Q2

L1

1,1

5,0

0,0

0,0

0,0

M1

0,5

4,4

0,0

0,0

0,0

R1

0,0

0,0

3,3

0,0

0,0

P1

0,0

0,0

0,0

4,1/2

0,0

Q1

0,0

0,0

0,0

0,0

1/2,4

先做几点说明:

首先,博弈的参与者依然是两个人,上面为参与者2左边为参与者1。

其次,这个博弈进行两次,两次参与者相同,并且参与者都知道博弈的整个过程(即博弈者在第二阶段是知道第一阶段双方选择的是什么)。

我们暂且将这种博弈称为两阶段博弈。

 

在这个博弈中,我们很容易发现有4个纳什均衡:(L1,L2),(R1,R2),(P1,P2),(Q1,Q2)

在单次博弈中,我们是很难预测出这个博弈的结果的(由于有多个纳什均衡,故而双方将无法预测对方会选择哪个)。但是在二阶段博弈中,这个问题便会有办法解决。

好了,为了方便理解,我们回到这一节开头所说的制订协议的部分,要求在这个博弈中的纳什均衡事实上就是想办法指定一个对双方来说都没有理由背叛的协议,并且这个协议尽可能使双方的收益足够高(这也可以认为是双方不会背叛的原因)。这里我们先给出结果,并且证明这个结果是符合纳什均衡和子博弈精炼的。

对于双方来说,最希望并且最有可能实现的结果是(M1,M2),(R1,R2)。第一阶段(M1,M2)的目的是让双方获得的利益最大化,而第二阶段(R1,R2)而非(M1,M2)的原因是双方都有理由偏离(M1,M2)去背叛协议,因为博弈只有两阶段,第一阶段背叛的话,第二阶段就会受到惩罚(如何惩罚将会在下面做出说明),第二阶段的背叛则没有办法让他得到惩罚。

只后就是关于惩罚的问题,惩罚的规则如下:

倘若第一阶段参与者1没有选择M1,则参与者2在第二阶段选择Q2

倘若第一阶段参与者1没有选择M1,则参与者2在第二阶段选择P1

倘若两人都没有选择M1和M2则参与者双方第二阶段选择(R1,R2)

我们可以很容易得到,对于合作双方得到的利益为4+3=7,对于背叛的情况,背叛者的收益为5+1/2而没有背叛者的收益为4(不考虑背叛者不理智使得博弈的结果为(0,0)的情况)。所以这个情况中第二阶段的惩罚者没有理由重新谈判来达到新的纳什均衡。所以就最后的收益来说,这个协议下两个理性人的选择都是(M1,M2),(R1,R2),并且这个结果是子博弈精炼的。有一点要说明的是,这个博弈的结果是(M1,M2),(R1,R2)这个战略组合本身,而非之前所说的协议本身,协议只是证明过程。

当然,这个博弈很明显是为了证明结论特意设计的,但是无所谓,我们需要的是其中的思想。

2.3.B无限重复博弈

之前讨论的是有限次数的博弈,使用了二阶段博弈当作了例子,这次我们将结论扩展到无限的重复博弈情况。

这里我们要给出一个贴现因子的概念:

贴现因子δ,即下一次博弈所得的收获转化成当前利益的比率。举个例子,如美元的购买力会随着时间的变化贬值,那么一年后你得到10美元可能换算到现在相当于9.8美元,那么贴现因子就为0.98。

那么我们会有:

 

 

 

下面给出一个如下博弈,设每个人所持的贴现因子为δ:

 

L2

R2

L1

1,1

5,0

R1

0,5

4,4

考虑两个参与者都采取触发战略:倘若在之前的博弈中没有人选择过L,则双方都选择R,即(R1,R2)。倘若在之前的博弈中出现过L,即信任破裂则双方都会选择纳什均衡(在这个例子中纳什均衡远没有合作的收益高)L即(L1,L2)。

我们来计算一下收益:

 

 

 

很容易得到,在这个无限重复博弈当中,当贴现因子δ>1/4的时候,对于双方来说,选择合作,即便合作并不是在纳什均衡中。

这里我们可以看到即便在只有一个纳什均衡的无限重复博弈中,都会存在双方选择合作的情况。

一般的,我们会有如下定理:

弗里德曼定理也叫无名氏定理:

令G为一个有限的完全信息静态博弈,令(e1,…,en)表示G的一个纳什均衡下的收益,且(x1,…,xn)表示G的其他任何可行收益。如果对每一个参与者i有xi>ei,且如果贴现因子∂足够接近于1,则无限重复博弈G(∞,∂)存在一个子博弈精炼纳什均衡,其平均收益可到达(x1,…,xn)。

 

这个定理的证明和其中一些定义的详细解释由于篇幅原因不列举出来,但是我相信你已经明白了其中核心的思想。

下面我们给出一个例子来对这个定理加深理解:

2.3.C古诺双头垄断下的共谋

还是之前古诺双头垄断的例子,不过我们这次假设双方进行无限次的博弈,并且设双方的贴现因子为δ。

接下来,我们来计算在下述触发战略成为无限重复博弈的纳什均衡时,贴现因子δ的值:

在第一阶段生产垄断产量的一半,qm/2第t阶段,如果前面t-1阶段两个企业的产量均为qm/2 ,则生产qm/2,否则,生产古诺产量qc

根据上一节的计算方法,当满足如下式子的时候,两企业使用触发战略就会成为纳什均衡。

                            max (a-qj-1/2qm-c)qj subject to qj

当然因为这里是使用的是最优的合作方式(使用的是垄断产量的一半),但事实上,我们可以根据不同的贴现因子来确定我们合作时产量的大小。

假设使用的合作的收益为um,对应背叛后首次收益为ud,接下来的收益为uc。当下式成立的时候,触发战略为纳什均衡:

                            1/(1-δ)·1/2um>=ud+δ/(1-δ)·uc

则我们可以求出求令触发战略成为博弈精炼纳什均衡的解:
                                                 δ>9/17

但是我们依然可以使用另一种方法(就如同协议在上一节的解释一样,这里只是对纳什均衡的一种达成方法):阿布勒将这一思路运用到古诺模型中,比我们使用任意的贴现因子更具有一般性,在这个模型中,δ>=1/2就可以达到垄断产量,这优于上一个模型,考虑下面的战略:

在第一阶段生产垄断产量的一半,qm/2第t阶段,如果t-1阶段两个企业的产量均为qm/2 ,否则,生产古诺产量x,如果t-1阶段两个企业的产量均为x,则生产qm/2,则生产x。

这里x会根据贴现因子计算出来,这个博弈的主要思路在于,当一方背叛了最优合作(垄断产量的一半),则会进入惩罚使产量为x(x并非古诺博弈的均衡值)。而在惩罚的过程中又会有可能背叛,如果有人背叛,则继续执行惩罚,如果没人背叛惩罚,则回到合作(垄断产量的一半)。

这里δ,x须满足:

合作的收益>惩罚的收益>背叛惩罚的收益

具体计算过程不再一一列举。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!