强化学习

强化学习(四)用蒙特卡罗法(MC)求解

 ̄綄美尐妖づ 提交于 2020-08-17 13:05:42
    在 强化学习(三)用动态规划(DP)求解 中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。     蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。 1. 不基于模型的强化学习问题定义     在动态规划法中,强化学习的两个问题是这样定义的:     预测问题,即给定强化学习的6个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 给定策略$\pi$, 求解该策略的状态价值函数$v(\pi)$     控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集$S$, 动作集$A$, 模型状态转化概率矩阵$P$, 即时奖励$R$,衰减因子$\gamma$, 求解最优的状态价值函数$v_{*}$和最优策略$\pi_{*}$      可见, 模型状态转化概率矩阵$P$始终是已知的,即MDP已知,对于这样的强化学习问题

谷歌联手伯克利给机器人上网课!观看8位医生手术视频学缝合

巧了我就是萌 提交于 2020-08-16 23:59:34
      大数据文摘出品    来源:Techxplore    编译:张睿毅、Andy   前段时间,文摘菌曾提过价值53万一只的波士顿动力机器狗,也有进行太空探索的昆虫机器人,万万没想到的是,这次来了一个和大家一样上网课的机器人。   不知道你有没有想过这种场景,去医院做手术时,医生助手已经不是可爱的护士小姐姐,而是 两只冷冰冰的机械臂,以快准狠的手法帮你缝合伤口 。   最近在Google Brain,英特尔还有UC伯克利的合作研究中,研究人员通过用手术教学视频来对机器人进行“训练”,让其能模仿手术过程。      之前,UC伯克利的教授有用过YouTube视频指导机器人学习各种动作(比如跳跃和跳舞), 而Google则是有训练机器人理解场景中的深度还有动作。   于是这次的团队,决定 将之前的研究成果结合起来,应用于最新项目Motion2Vec。   Motion2Vec:机器人也要上网课   Motion2Vec算法,能用真实手术视频来指导机器人学习相关手术动作。   在最近发布的论文里,研究人员简单介绍了他们如何用YouTube视频来训练 两臂达芬奇(da Vinci)机器人在针刺机上进行缝合操作。   它从模仿学习的视频演示中,获得以运动为中心的操作技能。其中表示的算法一致性、可解释性和监督学习的负担是该项目模仿学习中的关键问题

如何运用深度强化学习,让机器人运动更灵活智能?

ⅰ亾dé卋堺 提交于 2020-08-16 19:06:24
对大脑的工作领域,我们知之甚少,但是我们知道的是,大脑能够通过反复尝试来学习知识。当我们做了合适的选择时,大脑就会给我们奖励,但当我们做了错误的抉择时,大脑就会惩罚我们。 如果我们可以利用强大的计算能力,在软件中对这个具体过程进行建模,这就是强化学习。 强化学习是机器学习中的一个领域,其最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展,最终经Bellman之手将其抽象为 马尔可夫决策过程 (Markov Decision Process,MDP)。 DeepMind DQN 强化学习的经典应用案例有: 非线性二级摆系统(非线性控制问题)、棋类游戏、机器人学习站立和走路、无人驾驶、机器翻译、人机对话 等。 不过,强化学习比较快的入门方法是交互式的: 先阅读基础知识,掌握强化学习的发展脉络和整体框架概念; 尝试运行与实现基础算法,上手写代码,做出视觉demo; 然后再进一步系统地学习强化学习,包含基础理论及解法等。 那么,如何才能入门强化学习?如何掌握其框架和算法理论?别急,今天,给大家推荐一份由 开课吧 提供赞助, 《强化学习资料包——从入门到进阶》 。包含了 入门篇 和 进阶篇 两大部分内容。非常适合想深耕强化学习(RL)的同学。本号主为大家争取到了免费名额 (前200还可以获得8份独家人工智能知识图谱哦) 。 目前, 2000+ 看过这个资料的同学

田亮:坚信大数据的变革力量

一个人想着一个人 提交于 2020-08-16 17:43:51
简介: 我和田亮的交流耗时较久,甚至用上了他出差的所有碎片时间,而他的回答始终谨慎、认真、高效。历任搜狐、阿里巴巴、新浪微博,10年如一日始终深耕大数据领域,阿里云 MVP田亮能在百舸争流中成为大数据和人工智能领域的佼佼者,似乎也就不奇怪了。 以下为田亮的专访内容,推荐阅读(约5分钟)。 兴趣导向职业,信心坚定抉择 在读研期间我就深深痴迷于大数据这个领域,与几个同学一起做了很多这方面的应用实践,大数据是一个机遇与挑战共存的方向,毕业时我就坚定了这个择业目标,整个职业履历也聚焦在分布式计算系统、大数据云计算平台以及机器学习算法与AI。 以我个人对大数据10年的研究来说,大数据变革可以分上下两半场,前5年聚焦在云计算基础设施方面,企业级应用从自建到逐步迁云,技术选型上摆脱IOE的垄断,有了新的技术思路与选择。后5年聚焦在大数据的应用场景上,企业级数据应用不再是大数据变革的目标,而是更多地渗透到人们日常生活中,改变大家的生活方式,甚至未来社会经济发展的模式。 大家都知道大数据与云计算是密不可分的共同体,大数据促使云计算迭代,云计算支撑着大数据业务的落地与发展。随着移动互联网的高速发展,每日数据增长达到几何级别,这对大数据计算提出了前所未有的挑战,包括研发效率,运维成本,数据安全,容灾等环节。于是我们尝试寻找更具性价比的优化方案,同时积极调研下一代大数据计算解决方案

强化学习(二)马尔科夫决策过程(MDP)

无人久伴 提交于 2020-08-16 03:47:19
    在 强化学习(一)模型基础 中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。     MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。 1. 强化学习引入MDP的原因     强化学习的8个要素我们在第一节已经讲了。其中的第七个是环境的状态转化模型,它可以表示为一个概率模型,即在状态$s$ 下采取动作$a$ ,转到下一个状态$s'$ 的概率,表示为$P_{ss'}^a$。     如果按照真实的环境转化过程看,转化到下一个状态$s'$ 的概率既与上一个状态$s$有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性,也就是假设转化到下一个状态$s'$ 的概率仅与上一个状态$s$有关,与之前的状态无关。用公式表示就是:$$P_{ss'}^a = \mathbb{E}(S_{t+1}=s'|S_t=s, A_t=a)$$     对于马尔科夫性本身,我之前讲过的 隐马尔科夫模型HMM(一)HMM模型 ,

实战解析朝生暮死的Redis拓展应用—过期策略和LRU,继续强化学习

风流意气都作罢 提交于 2020-08-16 02:53:05
今天,我们继续Redis的拓展应用,继续深化了解、强化学习效果。 拓展 4:朝生暮死 —— 过期策略 Redis 所有的数据结构都可以设置过期时间,时间一到,就会自动删除。你可以想象 Redis 内部有一个死神,时刻盯着所有设置了过期时间的 key,寿命一到就会立即收割。 你还可以进一步站在死神的角度思考,会不会因为同一时间太多的 key 过期,以至于忙不过来。同时因为 Redis 是单线程的,收割的时间也会占用线程的处理时间,如果收割的太过于繁忙,会不会导致线上读写指令出现卡顿。 这些问题 Antirez 早就想到了,所以在过期这件事上,Redis 非常小心。 过期的 key 集合 redis 会将每个设置了过期时间的 key 放入到一个独立的字典中,以后会定时遍历这个字典来删除到期的 key。除了定时遍历之外,它还会使用惰性策略来删除过期的 key,所谓惰性策略就是在客户端访问这个 key 的时候,redis 对 key 的过期时间进行检查,如果过期了就立即删除。定时删除是集中处理,惰性删除是零散处理。 定时扫描策略 Redis 默认会每秒进行十次过期扫描,过期扫描不会遍历过期字典中所有的 key,而是采用了一种简单的贪心策略。 ​1、从过期字典中随机 20 个 key; 2、删除这 20 个 key 中已经过期的 key; 3、如果过期的 key 比率超过 1/4

学术分享丨基于主动探索的智能抓取机器人

*爱你&永不变心* 提交于 2020-08-15 07:52:12
   随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《基于主动探索的智能抓取机器人》。   论文: Deng, Y., Guo, X., Wei, Y., Lu, K., Fang, B., Guo, D., Liu, H., Sun, F. (2019). Deep Reinforcement Learning for robotic Pushing and Picking in Cluttered Environment. 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).doi:10.1109/iros40897.2019.8967899    1. 研究背景   近年来,电子商务的发展推动了物流产业项目的繁荣,全球物流市场收入预计在2021年达到224亿美元。人力成本的快速上涨,使智能化的物流装备在提高物流效率等方面的优势日渐突出。我国物流行业正在从劳动密集型转向技术密集型,机器人代替人工是未来的趋势。   目前,物流自动化的难点在于仓储物流,80

基于多智能体RL实现多轮连续交互,IteR-MRL图像分割达医用标准

那年仲夏 提交于 2020-08-15 04:45:05
  机器之心专栏    作者:Xuan Liao、Wenhao Li等       如何提高交互式图像分割算法的效率?上海交大和华师大的研究者提出了一种基于多智能体深度强化学习的新型算法。   现有的交互式图像分割算法虽然能迭代式地更新分割结果,但很大程度上忽略了对连续交互之间动态性的探索,造成分割效率大大降低。   在 CVPR 2020 的一篇论文中,来自上海交大和华师大的团队联合提出了一种基于多智能体深度强化学习(MARL)的新型交互式三维医疗图像分割算法(IteR-MRL)。通过将迭代更新的交互式图像分割的动态过程建模成马尔可夫过程,并使用 MARL 解决,IteR-MRL 实现了更少的交互次数和更快的收敛速度,在多个医疗图像数据集上超过了现有算法。      论文地址:https://arxiv.org/abs/1911.10334    现有交互式图像分割策略的缺点   目前的三维图像自动分割算法很难达到医用标准。为了得到更佳的分割结果,交互式的图像分割策略成为有价值的研究方向,此类策略通过引入少量的用户提示实现对分割结果的迭代优化。   现有的交互式算法虽然能迭代式地对分割结果进行多轮更新,但它们仍然独立地考虑每一轮更新的分割结果,很大程度上忽略了连续交互的动态性。    该研究的贡献   为了更好地利用交互式图像分割的动态性

哈佛大学《CS50 Python人工智能入门》公开课 (2020)

[亡魂溺海] 提交于 2020-08-14 22:33:06
课程介绍 本课程探讨现代人工智能基础上的概念和算法,深入探讨游戏引擎、手写识别和机器翻译等技术的思想。通过实践项目,学生在将图形搜索算法、分类、优化、强化学习以及其他人工智能和机器学习的主题融入到他们自己的Python程序中,从而获得图形搜索算法、分类、优化和强化学习背后的理论知识。课程结束时,学生将获得机器学习库的经验,以及人工智能原理的知识,使他们能够设计自己的智能系统。 目录 搜索(Search) 知识(Knowledge) 不确定性(Uncertainty) 优化(Optimization) 学习(Learning) 神经网络(Neural Networks) 语言(Language) 观看地址 英文+机翻中文字幕: https://www.bilibili.com/video/BV1FT4y1E7QF 原版地址(PPT+习题): https://cs50.harvard.edu/ai/2020/ PPT课件下载 :关注公众号:机器学习算法与Python实战(ID:tjxj666)后台回复:cs50 来源: oschina 链接: https://my.oschina.net/statistician/blog/4395105

干货丨ICRA2020论文分享:一种基于层次强化学习的机械手鲁棒操作

笑着哭i 提交于 2020-08-14 13:18:05
  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,与大家分享ICRA2020论文《一种基于层次强化学习的机械手鲁棒操作》。    1. 研究背景   机械手内操作(in-hand manipulation)是指使用单只机械手,通过移动手指、手掌等部位来改变物体在手中的相对位置和姿态。这种能力对于机器人实现人类水平的灵巧操作极为重要,因为在日常生活中有很多类似的任务,例如抓取一件工具并调整它在手中的位置和旋转角度。我们注意到,在实现复杂的操作目标时,人在操作物体时常常改变抓取物体的手指接触点位置,从而极大的提高物体在手中的位姿范围。      传统上,手内操作有两类解决方案,一类是基于模型的方法(model-based method),通过对抓取的动力学建模,来控制手指移动带动物体姿态。这种办法好处在于稳定性强,模型简单,但问题在于难以实现较长和复杂的手内操作流程,特别是目标位姿和起始位姿相距很远的情况,因为它们很难规划手指接触点的移动;另一类方法是无模型方法(model-free method),通常使用深度强化学习的方法。这类方法优点在于不需要系统模型,但缺点在于稳定性差,并且需要大量数据进行训练。而我们的方法结合了这两种方法