机器学习(三十九)——博弈论(2), Exploration & Exploitation
博弈论 智猪博弈问题 智猪博弈问题是John Nash于1950年提出的问题。 在一个猪圈里养着一头大猪和一头小猪,在猪圈的一端放有一个猪食槽,在另一端安装有一个按钮,它控制着猪食的供应量。假定: 猪按一下按钮,就有8单位猪食进槽,但谁按按钮就会首先付出2单位成本; 若大猪先到食槽,则大猪吃到7单位食物,而小猪仅能吃到1单位食物; 若小猪先到,则大猪和小猪各吃到4单位食物; 若两猪同时到,则大猪吃到5单位,小猪仅吃到3单位。 显然,在这里按按钮有两个成本: 直接成本:2单位成本。 间接成本:先按按钮的猪,肯定会最后到达食槽。 因此,这个问题写成策略矩阵,则是: 小猪 按 等待 大猪 按 3,1 2,4 等待 7,-1 0,0 该博弈不存在占优战略均衡,因为尽管小猪有一个严格占优战略,但大猪并没有占优战略。 为了解决这个问题,Nash提出了重复剔除的占优战略均衡(iterated dominance equilibrium)。 其具体做法如下: Step 1 :大猪没有劣战略,策略保持不变。 Step 2 :小猪有一个劣战略: “按”。 “按”的支付值: 1, -1 “等待”的支付值: 4, 0 Step 3 :剔除小猪的劣战略“按”。 Step 4 :剔除之后,大猪有一个劣战略:“等待”。 Step 5 :剔除大猪的劣战略“等待”,剩下最后一个战略组合: 大猪:“按” + 小猪: