纳什均衡

博弈论读书笔记(五)重复博弈

≯℡__Kan透↙ 提交于 2020-02-07 17:29:53
2.3重复博弈 从这里开始,就进入博弈论比较难以理解的地方了。我也不跟着书上的章节走,根据自己的理解和书上的例子来写,如果理解有什么不对的地方,欢迎各位大佬的指正。 首先我们来明晰博弈论到底在讨论些什么: 对于这个问题,前面几章的内容可能对大家会造成一定的误导。因为根据前面几章的例子,我们可以很容易地认为,博弈论就是在讨论在某个规则下,参与者最优的策略和参与者之间达到的平衡。 这句话本身没有错误,但是我们很容易理解为:这个平衡是像最开始那两个囚徒一样,选择“保证对方不会背叛并且自己在此情况下能获得最大利益”的战略所达到的平衡(这句话有点难以理解,不过我相信你能明白我的意思)。例如第一章第一节中囚徒困境双方都选择招认(因为选择合作即不招认,结果可能是被背叛)。 但是一旦进入了重复博弈那么我们就不能只考虑眼前的利益(即保守地只去选择单次博弈的纳什均衡),而要考虑多次重复博弈的总收益。这个时候就需要参与双方共同商定一个“协议”(例如双方说好都选择不招认),这个协议必须是对于双方都有利的(至少由于选择单次博弈的纳什均衡,例如双方不招认总比双方都招认要好),并且协议中会对不遵守规则的进行惩罚,以便于对每个人来说选择合作是最好的结果。 从这里我们就可以理解“博弈论教你如何制定规则的”这句话了。 好了,这一章最核心的思想在这里已经讲完了,虽然我可能说的不是那么清晰

国科大 高级人工智能

。_饼干妹妹 提交于 2020-01-13 21:54:28
大家好!又到了期末时间,各位国科大的师弟师妹们,师兄帮你们总结了高级人工智能的考点,如果你好好复习了,那么这篇博文能帮你上90;如果没有也不要怕,认真看了这篇博文,也能保你70。下面我们开始吧,更多考试知识点请关注公众号“算法岗从零到无穷”。转载请注明出处。 目录 往届考试知识点 知识点罗列 概念 搜索 深度学习 命题逻辑与一阶谓词逻辑 命题逻辑 一阶谓词逻辑 群体智能 强化学习 博弈论 老师上课讲的考点 行为主义 符号主义 必复习的知识点 有时间可复习的知识点 关注我 例题讲解 大胆押题 选择题 计算题 参考博客 往届考试知识点 BP GAN 搜索 田忌赛马 Transaction Database 感知机 玻尔兹曼机 A*搜索 语义网络:一阶谓词逻辑,模糊逻辑 蚁群优化算法和粒子群算法 网络交互博弈 遗传算法 信息熵 deep belief networks 人工智能三大分支 野人与传教士 多臂赌博机 每年的大题都是强化学习 知识点罗列 概念 人工智能概念性定义:机器智能,类脑智能,群体智能 人工智能三大学派:符号主义学派,联结主义学派,行为主义学派 搜索 深搜一般来说时间复杂度大但空间复杂度小,广搜空间相反。深度优先适合深度大的树,不适合广度大的树,广度优先正相反 图A*算法是最优的条件是一致性;树A*算法是最优的条件是可采纳性 传教士和野人问题的A* 搜索 爬山法搜索

机器学习(三十八)——博弈论(1)

China☆狼群 提交于 2019-12-23 13:38:14
博弈论 博弈论(game theory)是一门单独的学科,和RL并无统属关系。然而由于RL,特别是MARL大量应用到了相关的知识,所以这里也把它写在RL系列里了。 历史 博弈论最早可追溯到“齐威王田忌赛马”,但它真正的发展是在20世纪下半叶。 RL的历史相对比较晚,因此从渊源来看,RL=博弈论+控制论+ML。 参考: https://blog.csdn.net/sobermineded/article/details/79601986 博弈论历史、发展与应用 教程 《Game Theory An Introduction》,Steven Tadelis著。 Steven Tadelis,经济学家。Harvard博士(1997),UCB教授。 概述 要理解博弈论,可以通过博弈论和决策论的区别开始。 决策论 是研究局中人在给定其他环境参数条件下的最优选择问题。 博弈论 研究的是当局中人充分考虑到其他局中人对其战略选择的反应后(即局中人都具有同样充分的理性时)进行最优战略的选择。 博弈论的直接目标不是找到一个玩家的最佳策略,而是找到所有玩家的最理性策略组合。我们称最理性策略组合为 均衡(equilibrium) 。 从宏观上可以将博弈论研究的问题分为: 合作博弈 和 非合作博弈 。现代狭义的博弈论一般是指非合作博弈。 非合作博弈根据参与博弈的参与人做决策的先后顺序可以分为

通过几个例子理解博弈论与纳什均衡

旧时模样 提交于 2019-12-02 02:08:19
转载自知乎 https://zhuanlan.zhihu.com/p/25781797 喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO,即 GameTheory Optimal,翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口,通俗一点的解释可以是:在游戏中,你可以采取一种最优策略,使得自己的损失最小,同时游戏中的对手也必须采取相对应的策略,否则只会扩大你的受益。 讲到GTO,就不得不提到博弈论中非常著名的一个理论:纳什均衡(Nash Equilibrium)。该理论是由著名的经济学家,博弈论创始人,诺贝尔奖获得者约翰·纳什提出的,也就是电影《美丽心灵》的男主角原型。该理论是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。 约翰·纳什证明了在每个参与者都只有有限种策略选择,并允许混合策略的前提下,纳什均衡一定存在。上边的解释还是有点拗口,这里通过几个例子,更直观的理解一下这个理论。 囚犯的困境 假设有两个小偷A和B联手闯入民宅盗窃被抓,警方将两人置于不同的房间进行审讯,并给出如下政策:如果一个犯罪嫌疑人坦白并交出了赃物,两人都会被判有罪。如果另一个犯罪嫌疑人也坦白,则两人各被判刑8年;如果另一个犯罪嫌人抵赖

【博弈论】信竞博弈论入门笔记_SG函数_纳什均衡

回眸只為那壹抹淺笑 提交于 2019-12-01 07:28:22
背景 本人长期徘徊于弥补多项式短板/写字符串爽题/码毒瘤数据结构/看数学书这四件奇怪的事情上,因此水平很菜。 以前接触过一点简单的博弈论,但那实在是太简单了,就是对抗搜索(Min-Max)。 近期训练,做到了一道SAMParent-Tree上倍增之后博弈的题目,SAM都码完了,一看那个博弈,越看越慌,发现自己根本不会:何止不会,一分都拿不到。 于是开始恶补博弈论,发现很妙,但是挺好理解的。 本文因为作者被作业抓走了,暂时没有完成纳什均衡的内容。 update:发现那道促使我学习博弈论的题目是道假题,具体可以看我在anti-NIM里的内容 一些资料 oi-wiki 基本可以博弈论入门了 SG函数入门及例题 这篇文章良心 anti-NIM问题入门 很短,anti-NIM建议把SG搞懂之后作为一个应用加深了解 纳什均衡的一个例子 初步演示纳什均衡在OI中的用法 纳什均衡/划线法 这篇文章我弄出来,只是为了说明划线法(哔——)得不得了 纳什均衡/靠谱计算方法 个人认为是比较靠谱的纳什均衡计算方法(疯狂diss划线法) 纳什均衡/混合策略 (FBI Warning)这玩意儿太神仙了,个人计划如果有时间找一本博弈论的书来学习这一块内容,但讲道理OI里面大概是不会出现这种东西的(搞个纳什均衡出来就不错了)。 纳什均衡/生动例子(雾 这可是我太爷爷的太爷爷关注的up主[doge]手动滑稽