博弈论一锅炖

别等时光非礼了梦想. 提交于 2020-08-11 19:33:10

序:

博弈是信息学和数学试题中常会出现的一种类型,算法灵活多变是其最大特点,而其中有一类试题更是完全无法用常见的博弈树来进行解答。 寻找必败态即为针对此类试题给出一种解题思路。

此类问题一般有如下特点:

1、博弈模型为两人轮流决策的非合作博弈。即两人轮流进行决策,并且两人都使用最优策略来获取胜利。
2、博弈是有限的。即无论两人怎样决策,都会在有限步后决出胜负。
3、公平博弈。即两人进行决策所遵循的规则相同。

理论铺垫:

1、定义P-position和N-position:

其中P代表Previous,N代表Next。直观的说,上一次move的人有必胜策略的局面是P-position,也就是“先手必败”,现在轮到move的人有必胜策略的局面是N-position,也就是“先手可保证必胜”。

1)无法进行任何移动的局面(也就是terminal position)是P-position;

(2)可以移动到P-position的局面是N-position;

(3)所有移动都导致N-position的局面是P-position。

2、P/N状态有如下性质:

1)若面临末状态者为获胜则末状态为胜态否则末状态为必败态。

(2)一个局面是胜态的充要条件是该局面进行某种决策后会成为必败态。

(3)一个局面是必败态的充要条件是该局面无论进行何种决策均会成为胜态

3、状态定义:

 P点: 即必败点,某玩家位于此点,只要对方无失误,则必败;
 
 N点: 即必胜点,某玩家位于此点,只要自己无失误,则必胜。

几种常见类型详解:


一、巴什博弈:

1、问题模型:
只有一堆n个物品,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个,最后取光者得胜。

2、解决思路:
当n=m+1时,由于一次最多只能取m个,所以无论先取者拿走多少个,后取者都能够一次拿走剩余的物品,后者
取胜,所以当一方面对的局势是n%(m+1)=0时,其面临的是必败的局势。所以当n=(m+1)*r+s,(r为任意自然数,s≤m),
如果先取者要拿走s个物品,如果后取者拿走x(≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持
这样的取法,那么先取者肯定获胜。总之,要保持给对手留下(m+1)的倍数,就能最后获胜。

3、变形:
条件不变,改为最后取光的人输。

结论:当(n-1%(m+1==0时后手胜利。

4、题目练习:HDOJ:2188 2149 1846

二、威佐夫博奕:

1、问题模型:有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中取同样多的物品,规定每次至少取一个,多者不限,
最后取光者得胜。

2、解决思路:A:设(ai,bi)(ai ≤bi  ,i=012,…,n)表示两堆物品的数量并称其为局势,如果甲面对(00),那么甲已经输了
,这种局势我们称为奇异局势。前几个奇异局势是:(00)、(12)、(35)、(47)、(610)、(813)、(915)、
(1118)、(1220)。任给一个局势(a,b),如下公式判断它是不是奇异局势: ak =[k(1+5/2],bk= ak + k (k=0,,n 
方括号表示取整函数)。(证明见百度百科)

3、满足上公式的局势性质:

(1)任何自然数都包含在一个且仅有一个奇异局势中。

     由于ak是未在前面出现过的最小自然数,所以有ak > ak-1 ,而 bk= ak + k > ak-1 + k-1 = bk-1 > ak-1 。所以性质成立。

(2)任意操作都可将奇异局势变为非奇异局势。

    若只改变奇异局势(ak,bk)的某一个分量,那么另一个分量不可能在其他奇异局势中,所以必然是非奇异局势。如果使(ak,bk)
    的两个分量同时减少,则由于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势

(3)采用适当的方法,可以将非奇异局势变为奇异局势。

     假设面对的局势是(a,b),若 b = a,则同时从两堆中取走 a 个物体,就变为了奇异局势(00);如果a = ak ,b > bk,
     那么,取走b  – bk个物体,即变      为奇异局势;如果 a = ak ,  b < bk ,则同时从两堆中拿走 ak – ab – ak个物体,变
     为奇异局势( ab – ak , ab – ak+ b – ak);如果a > ak , b= ak + k,则从第一堆中拿走多余的数量a – ak 即可;如果
     a < ak ,b= ak + k,分两种情况:
     第一种:a=aj (j < k),从第二堆里面拿走 b – bj 即可; 
     第二种:a=bj (j < k),从第二堆里面拿走 b – aj 即可。

4、结论:两个人如果都采用正确操作,那么面对非奇异局势,先拿者必胜;反之,则后拿者取胜。

5、练习:poj 1067

友情链接

三、Fibonacci博弈:

1、问题模型:

 有一堆个数为n的石子,游戏双方轮流取石子,满足: 

(1)先手不能在第一次把所有的石子取完; 

(2)之后每次可以取的石子数介于1到对手刚取的石子数的2倍之间(包含1和对手刚取的石子数的2倍)。 约定取走最后一个石子的人为
赢家。

2、解决思路:
    当n为Fibonacci数时,先手必败。即存在先手的必败态当且仅当石头个数为Fibonacci数。 

    证明:
    根据“Zeckendorf定理”(齐肯多夫定理):任何正整数可以表示为若干个不连续的Fibonacci数之和。如n=83 =55+21+5+2,
    我们看看这个分解有什么指导意义:假如先手取2颗,那么后手无法取5颗或更多,而5是一个Fibonacci数,那么一定是先手取走这5颗
    石子中的最后一颗,同理,接下去先手取走接下来的后21颗中的最后一颗,再取走后55颗中的最后一颗,那么先手赢。

    反证:
    如果n是Fibonacci数,如n=89:记先手一开始所取的石子数为y

   (1)若y>=34颗(也就是89的向前两项),那么一定后手赢,因为89-34=55=34+21<2*34。

   (2)y<34时剩下的石子数x介于5589之间,它一定不是一个Fibonacci数,把x分解成Fibonacci数:x=55+f[i]++f[j],若,如
    果f[j]<=2y,那么对B就是面临x局面的先手,所以根据之前的分析,后手只要先取f[j]个即可,以后再按之前的分析就可保证必胜。

3、练习题目:NYOJ 取石子游戏

四、尼姆博弈:

1、问题模型:
  有三堆各若干个物品,两个人轮流从某一堆取任意多的物品,规定每次至少取一个,多者不限,最后取光者得胜。

2、解决思路:
  用(a,b,c)表示某种局势,显证(000)是第一种奇异局势,无论谁面对奇异局势,都必然失败。第二种奇异局势是
(0,n,n),只要与对手拿走一样多的物品,最后都将导致(000)。

  搞定这个问题需要把必败态的规律找出:(a,b,c)是必败态等价于a^b^c=0(^表示异或运算)。

  证明:
       (1)任何p(a,b,c)=0的局面出发的任意局面(a,b,c’);一定有p(a,b,c’)不等于0。否则可以得到c=c’。

       (2)任何p(a,b,c)不等于0的局面都可以走向 p(a,b,c)=0的局面

       (3)对于 (4,9,13) 这个容易验证是奇异局势 

       其中有两个8,两个4,两个1,非零项成对出现,这就是尼姆和为  零的本质。别人要是拿掉13里的8或者1,那你就拿掉对应的9 
       中的那个8或者1;别人要是拿掉13里的4,你就拿掉4里的4;别人如果拿掉13里的3,就把10作分解,然后想办法满 足非零项成对
       即可。

3、推广一:
  如果我们面对的是一个非奇异局势(a,b,c),要如何变为奇异局势呢?假设 a < b< c,我们只要将 c 变为 a^b,即可,因
为有如下的运算结果: a^b^(a^b)=(a^a)^(b^b)=0^0=0。要将c 变为a^b,只从 c中减去 c-(a^b)

4、推广二:
  当石子堆数为n堆时,则推广为当对每堆的数目进行亦或之后值为零是必败态。

5、练习:hdoj 1847

五、公平组合博弈(Impartial Combinatori Games):

1、定义:

(1)两人参与。

(2)游戏局面的状态集合是有限。

(3)对于同一个局面,两个游戏者的可操作集合完全相同

(4)游戏者轮流进行游戏。

(5)当无法进行操作时游戏结束,此时不能进行操作的一方算输。

(6)无论游戏如何进行,总可以在有限步数之内结束。

2、模型:给定一个有向无环图和一个起始顶点上的一枚棋子,两名选手交替的将这枚棋子沿有向边进行移动,无法移动者判负。事实上,
这个游戏可以认为是所有公平组合游戏(Impartial Combinatori Games)的抽象模型。其实,任何一个ICG都可以通过把每个局势看成
一个顶点,对每个局势和它的子局势连一条有向边来抽象成这个“有向图游戏”。

3、解决思路:

现在,假定我们给出两个游戏G1 和 G2。如果我们只知道单个游戏的P-状态和N-状态我们能够正确地玩好游戏和G1 + G2吗?答案是否定
的。不难看出两个P-状态的和总是P-状态,P-状态和N-状态的和总是N-状态。但是两个N-状态的和既可能是P-状态也可能是N-状态。因
此,只知道单个游戏的P-状态和N-状态是不够的。
为了正确地玩好游戏和我们需要推广P-状态和N-状态,它就是Sprague-Grudy函数(或者简称为g函数,介绍在文末)

4、Sprague-Grudy定理:

令N = {0, 1, 2, 3, ...} 为自然数的集合。Sprague-Grundy 函数给游戏中的每个状态分配了一个自然数。结点v的Grundy值等于没有
在v的后继的Grundy值中出现的最小自然数.

形式上:给定一个有限子集 S ⊂ N,令mex S(最小排斥值)为没有出现在S中的最小自然数。定义mex(minimal excludant)运算,这是施
加于一个集合的运算,表示最小的不属于这个集合的非负整数。例如mex{0,1,2,4}=3、mex{2,3,5}=0、mex{}=0。

对于一个给定的有向无环图,定义关于图的每个顶点的Sprague-Garundy函数g如下:g(x)=mex{ g(y) | y是x的后继 }5、性质:

(1)所有的终结点所对应的顶点,其SG值为0,因为它的后继集合是空集——所有终结点是必败点(P点)。

(2)对于一个g(x)=0的顶点x,它的所有后继y都满足g(y)!=0——无论如何操作,从必败点(P点)都只能进入必胜点(N点)。对手走完只
能把N留给我们。

(3)对于一个g(x)!=0的顶点,必定存在一个后继点y满足g(y)=0——从任何必胜点(N点)操作,至少有一种方法可以进入必败点(P点)
就是那种我们要走的方法。

6、应用:

(1)可选步数为1-m的连续整数,直接取模即可,SG(x) = x % (m+1);2)可选步数为任意步,SG(x) = x;3)可选步数为一系列不连续的数,用mex(计算每个节点的值) 

7、练习:hdoj 1847 1536 3980

博弈的王道——『Sprague-Grundy函数和Sprague-Grundy定理』

**SG函数:

首先定义mex(minimal excludant)运算,这是施加于一个集合的运算,表示最小的不属于这个集合的非负整数。例mex{0,1,2,4}=3、
mex{2,3,5}=0、mex{}=0。

对于任意状态 x (玩家当前面临的石子个数), 定义 SG(x) = mex(S),其中 S 是 x 后继状态的SG函数值的集合。如 x 有三个后继状
态分别为 SG(a),SG(b),SG(c ),那么SG(x) = mex{SG(a),SG(b),SG(c )}。 这样 集合S 的终态必然是空集,所以SG函数的终态为 
SG(x) = 0,当且仅当 x 为必败点P时。

结论:

1.当SG[x] = 0时,x为必败状态。
2.当SG[x] > 0时,x为必胜状态。

【实例】取石子问题:

有1堆n个的石子,每次只能取{ 1, 3, 4 }个石子,先取完石子者胜利,那么各个数的SG值为多少?
SG[0]=0,f[]={1,3,4},
x=1 时,可以取走1 - f{1}个石子,剩余{0}个,所以 SG[1] = mex{ SG[0] }= mex{0} = 1;
x=2 时,可以取走2 - f{1}个石子,剩余{1}个,所以 SG[2] = mex{ SG[1] }= mex{1} = 0;
x=3 时,可以取走3 - f{1,3}个石子,剩余{2,0}个,所以 SG[3] = mex{SG[2],SG[0]} = mex{0,0} =1;
x=4 时,可以取走4 - f{1,3,4}个石子,剩余{3,1,0}个,所以 SG[4] = mex{SG[3],SG[1],SG[0]} = mex{1,1,0} = 2;
x=5 时,可以取走5 - f{1,3,4}个石子,剩余{4,2,1}个,所以SG[5] = mex{SG[4],SG[2],SG[1]} =mex{2,0,1} = 3;





下面以x = 5时做样例分析:

当玩家面对还有5个石子的状态时,他可取{1,3,4}个石子,那么5的后继状态集合就是{4,2,1}。
那么mex{SG[4],SG[2],SG[1]} =mex{2,0,1} = 3 ,可得出SG[5] = 3 > 0,为必胜态。
以此类推…

   x     0  1  2  3  4  5  6  7  8....
SG[x]    0  1  0  1  2  3  2  0  1....

由上述实例我们就可以得到SG函数值求解步骤,那么计算1~n的SG函数值步骤如下:

1、使用 数组f []将 可改变当前状态 的方式记录下来。

2、然后我们使用 另一个数组S[] 将当前状态x 的后继状态标记。

3、最后模拟mex运算,也就是我们在标记值中 搜索 未被标记值 的最小值,将其赋值给SG(x)。

4、我们不断的重复 2 - 3 的步骤,就完成了 计算1~n 的函数值。

解题模型:

1.把原游戏分解成多个独立的子游戏,则原游戏的SG函数值是它的所有子游戏的SG函数值的异或。

  即SG(G)=SG(G1)^SG(G2)^...^Sg(Gn)。

2.分别考虑每一个子游戏,计算其SG值。

 SG值的计算方法:(重点)

   a.可选步数为1~m的连续整数,直接取模即可,SG(x) = x % (m+1)(Bash game)。

   b.可选步数为任意步,SG(x) = x(Nim game)。

   c.可选步数为一系列不连续的数,用模板计算。

i.打表模板

int f[N],SG[MAXN],S[MAXN];//f[] - 可改变当前状态 的方式   S[] - 当前状态的后继状态集合
//打表
void getSG(int n) {
	int i,j;
	memset(SG,0,sizeof(SG));
	for(i = 1; i <= n; i++) { 
		memset(S,0,sizeof(S));
		for(j = 0; f[j] <= i && j <= N; j++)
			S[SG[i-f[j]]] = 1;//S[]数组来保存当前状态的后继状态集合
		for(j = 0;; j++) if(!S[j]) {//模拟mex运算
				SG[i] = j;
				break;
			}
	}
}

ii.深搜模板

//注意 f数组要按从小到大排序 SG函数要初始化为-1 对于每个集合只需初始化1遍
//n是集合f的大小 f[i]是定义的特殊取法规则的数组
int f[110],SG[10010],n;
int SG_dfs(int x)
{
    int i;
    if(SG[x]!=-1)
        return SG[x];
    bool vis[110];
    memset(vis,0,sizeof(vis));
    for(i=0;i<n;i++)
    {
        if(x>=f[i])
        {
            SG_dfs(x-f[i]);
            vis[SG[x-f[i]]]=1;
        }
    }
    int e;
    for(i=0;;i++)
        if(!vis[i])
        {
            e=i;
            break;
        }
    return SG[x]=e;
}

3.若SG(G)=SG(G1)^ SG(G2)SG(Gn) > 0,局势为N,先手必胜,反之局势为P,先手必败。 普遍优先使用打表法,只用在打表无法使用的时候再使用深搜。

                                                                                ---南昌理工学院ACM集训队
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!