干货丨ICRA2020论文分享:一种基于层次强化学习的机械手鲁棒操作

笑着哭i 提交于 2020-08-14 13:18:05

  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,与大家分享ICRA2020论文《一种基于层次强化学习的机械手鲁棒操作》。

  1. 研究背景

  机械手内操作(in-hand manipulation)是指使用单只机械手,通过移动手指、手掌等部位来改变物体在手中的相对位置和姿态。这种能力对于机器人实现人类水平的灵巧操作极为重要,因为在日常生活中有很多类似的任务,例如抓取一件工具并调整它在手中的位置和旋转角度。我们注意到,在实现复杂的操作目标时,人在操作物体时常常改变抓取物体的手指接触点位置,从而极大的提高物体在手中的位姿范围。

  

  传统上,手内操作有两类解决方案,一类是基于模型的方法(model-based method),通过对抓取的动力学建模,来控制手指移动带动物体姿态。这种办法好处在于稳定性强,模型简单,但问题在于难以实现较长和复杂的手内操作流程,特别是目标位姿和起始位姿相距很远的情况,因为它们很难规划手指接触点的移动;另一类方法是无模型方法(model-free method),通常使用深度强化学习的方法。这类方法优点在于不需要系统模型,但缺点在于稳定性差,并且需要大量数据进行训练。而我们的方法结合了这两种方法:在底层使用传统的动力学建模方式保持稳定的抓取和实现简单基本的操作单元,在中层通过深度强化学习来进行规划,选择不同的操作单元,最终实现稳定且复杂的操作流程。我们的方法结合了两种方法的优点:在底层通过使用基于模型的操作单元,保证了手指与物体之间持续稳定的抓取;在中层使用强化学习进行规划,从而实现较长和复杂的手内操作流程。

  2. 研究方法

  在底层,我们使用柔性力矩控制器定义了三个操作单元,分别是reposing,sliding和flipping。Reposing是指在不改变手指与物体接触点的前提下,通过控制机械手改变物体的位姿;sliding是指在不改变物体位姿的前提下,沿着物体滑动指尖改变接触点;flipping是指将指头从一侧移动到另一侧,从而改变抓握方式。在中层,我们使用深度强化学习网络学习在给定目标位姿下选择底层操作单元,最终形成一条由大量不同操作单元组成的序列,实现复杂的操作目标。

  

  3. 实验内容

  我们在仿真中进行了实验,实验环境是受到重力影响的2D环境,使用三指机械手操作物体到达目标位置。

  在实验一中,我们操作物体到达指定的位姿。我们与端到端的强化学习和基于搜索的方法进行对比,实验表明我们的方法具有更高的成功率和更低的掉落率,并且在操作过程中机械手能够持续鲁棒的握住物体。

  

  在实验二中,我们测试了在物体性质(形状,质量)以及观测值有噪声的情况下的算法性能,实验表明,我们的方法在此情况下仍能够工作,显示了鲁棒性。

  

  在实验三中我们在正方形上对我们的方法进行了测试,证明了其可拓展到其他不同的形状。

  

  4. 结论

  本文提出一种基于层次强化学习的手内鲁棒控制方法,通过定义底层操作单元并结合中层的深度强化学习网络,实现了改变物体位姿以及改变手指接触点位置之间来回切换的操作方法,从而极大的提高了物体的工作空间。

  参考文献:

  [1].Kumar, Vikash, Emanuel Todorov, and Sergey Levine. "Optimal control with learned local models: Application to dexterous manipulation." 2016 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2016.[2].Zhu, Henry, et al. "Dexterous manipulation with deep reinforcement learning: Efficient, general, and low-cost." 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019.[3].Andrychowicz, OpenAI: Marcin, et al. "Learning dexterous in-hand manipulation." TheInternational Journal of Robotics Research 39.1 (2020): 3-20.

  论文链接:

  https://arxiv.org/abs/1910.10985

  项目链接:

  https://sites.google.com/view/learninghierarchicalcontrol/home

  
作者简介

  

  李珽光,博士毕业于香港中文大学电子工程系,师从孟庆虎教授。2016年在南京大学自动化系取得学士学位。博士期间研究课题为混合层次强化学习模型在可移动操作平台的应用,方向包括室内移动机器人探索和机械手内操作。博士期间在ICRA、IROS等国际学术会议发表学术文章。

  

  Krishnan Srinivasan,斯坦福大学(Stanford)在读博士生。

  

  孟庆虎,香港中文大学正教授。

  

  原文祯,卡耐基梅隆大学(CMU)助理教授。

  

  Jeannette Bohg,斯坦福大学(Stanford)助理教授。

  本文由CAAI认知系统与信息处理专委会供稿

  CAAI认知系统与信息处理专委会

  2014年成立,每年组织中国科学热点论坛、机器人工程赛、人工智能热点研讨会等多项特色活动,成功召开了多届认知系统和信息处理国际会议(ICCSIP)。第五届认知系统和信息处理国际会议(ICCSIP 2020)将于2020年12月18-20号在中国珠海横琴岛召开,希望推动认知、心理、智能、机器人等领域的融通交汇。此外,还将特别设立科技抗疫专题,欢迎各界人士依托此平台为全球科技抗疫贡献力量。

  欢迎注册中国人工智能学会认知系统与信息处理专业委员会:

  http://app01.cast.org.cn:7001/cast/reg.jsp?sid=E66

  同时2019年创办了“Cognitive Computation and Systems”国际期刊,目前已经出版了四期,并正式被EI Compendex检索,且无需版面费。

  期刊投稿网址:

  http://digital-library.theiet.org/content/journals/ccs

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!