增强学习算法

马里奥AI实现方式探索 ——神经网络+增强学习

元气小坏坏 提交于 2020-02-28 08:44:28
目录 马里奥AI实现方式探索 ——神经网络+增强学习 神经网络 M-P模型 早期神经网络 深度神经网络 总结 增强学习 马尔可夫决策过程(MDP) 基于NEAT算法的马里奥AI实现 基于Deep Reinforcement Learning的马里奥AI实现 总结 马里奥AI实现方式探索 ——神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智能的相关算法来进行自动化通关一直是一个热门的话题,最近最火的相关东东就是传说中的alphaGo啦。而在游戏的自动化测试当中,这种算法也是非常实用的,可以大量的减少测试人力成本。 首先,对于实现马里奥AI当中涉及到的神经网络和增强学习的相关概念进行整理,之后对智能通关的两种方式进行阐述。(本人才疏学浅,在神经网络和增强学习方面基本门外汉,如有任何纰漏,还请大神指出,我会第一时间改正。) 神经网络 像飞机的灵感来源于鸟类,雷达的灵感来源于蝙蝠,红外线的灵盖来源于蛇,而本文要讨论的神经网络灵感来源于我们自己,人类大脑的神经元结构。从神经元结构被提出,到时下火热的无以复加的深度神经网络,发展过程也可为一波三折。我们按照时间的顺序

阅读笔记——增强学习2

懵懂的女人 提交于 2020-02-04 00:51:57
前言:本人文学素养较差,且阅读来源为外文翻译书籍,所以本篇博客诸多解释和引用的内容在阅读上可能会造成不适和理解障碍,敬请谅解!博客中涉及到多处数学表达式,我是在本地使用word编辑的,内容是直接从本地粘过来的,所以这些数学公式在博客的网页上能否很好的显示我也不太清楚,就这样吧。。。~ 阅读来源:《机器学习》 Tom M.Mitchell 著 机械工业出版社 增强学习2 昨天说到了agent的学习策略,也就是采用评估函数〖 π〗^* (s)=〖argmax〗_a [〖r(s,a)+γ V〗^π (δ(s,a))]。但是这个评估函数涉及到了回报函数r和状态转移函数δ,在这两个函数至少一个未知的情况下agent都无法根据这个评估函数进行实际的学习。 为了昨天那一大堆成果,我们引入一个新的评估函数Q(s,a),它的定义是其值是从状态s开始并使用a作为第一个动作时的最大折算累积回报。根据昨天的内容,易知Q(s,a)=r(s,a)+〖γV〗^* (δ(s,a))。因为Q(s,a)正是〖 π〗^* (s)=〖argmax〗_a [〖r(s,a)+ γV〗^π (δ(s,a))]中为选择状态s上的最优动作a应最大化的量,故有〖 π〗^* (s)=〖argmax〗_a (Q(s,a)),这个就是最优动作a,说白了就是层级的等量替换