学术分享丨机器人操作学习系列分享:模仿学习

拟墨画扇 提交于 2020-08-04 09:42:44

  随着学会的队伍不断发展壮大,分支机构的发展愈发完善,丰富多彩的分支活动与学术分享也频频呈现。疫情期间,CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松,学习充电不间断”的理念,邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读,与大家分享《机器人操作学习系列分享:模仿学习》。

  人类从婴幼儿时期就学会模仿别人来获得许多新技能,这种行为被称为模仿学习。我们古代中国就有很多形容人们模仿学习中成语,有如“邯郸学步”、“画虎成狗”、“鹦鹉学语”等都是形容模仿不到位的情况,又如“惟妙惟肖”、“栩栩如生”、“有模有样”等模仿极佳的状态。因此,智能体如何通过模仿学习避免出现那些尴尬的状态,而达到完美的状态,也是亟待研究的课题。

  

  目前模仿学习也成为许多研究领域的重要课题,包括心理学、神经科学、人工智能和机器人学。模仿学习是机器学习诸多领域的交叉点。它对应于一个复杂的优化问题,可以用不同的方式形式化,例如结构化输出预测问题或半监督学习问题。模仿学习还与强化学习、在线主动学习、多智能体学习、特征建构等有着密切的关系。

  

  从机器学习的角度来看,模仿学习是一种解决控制和顺序决策问题的学习方法。在模仿学习社区内,机器人获得专家的示例数据主要包括运动示教、遥操作、动作捕捉,视觉实例等等。最近,相关研究领域可分为以下子领域:行为克隆,奖励推断,从观察中学习,纠正交互。

  1、行为克隆(Behavioral Cloning)

  行为克隆是模仿学习中最简单方法,采用直接模仿的方式。在这种情况下,从所提供的例子归纳问题通常被简化为一个有监督的学习问题,而不必对教师的意图作出假设。基于监督学习从示教数据学习机器人的策略,通过以任意一条专家示教轨迹的任意一个时刻的状态 s 作为算法的输入, 与 s 对应的动作 a 设置为算法的输出,就可以应用传统的监督学习算法来解决这个模仿学习的问题。比如,通过控制一个机器臂的七个关节的角度来执行一个指定的动作,可以设计神经网络的输出为这七个关节的角度值或者这七个关节角度的概率分布来解决这个问题。如果采用高斯分布的话,可以设计神经网络输出对应角度的均值和方差。直接采用上述监督学习的思路来解决模仿学习问题的方法,虽然然很简单,但是在某些领域却拥有着很不错的表现。在理想想情况下所学的策略能够在新场景中重现所示例的行为。

  2、奖励推断 (Reward Inference)

  奖励推断旨在提取专家的运动/操作意图,而不是动作本身的低级细节。此类方法通常包括逆强化学习(IRL)、学徒学习(apprenticeshiplearning)或逆最优控制(inverseoptimal control)。该类方法通过假设专家最大化某个奖励函数来实现操作动作,学习者的目标是找到解释专家行为的奖励函数。推断获得的奖励函数可进一步通过RL算法来学习任务的策略。IRL范式(IRL paradigm)有以下几个优点: 1) 如果奖励函数是世界上物体或特征的函数,可自然地从人移植到机器人,而不存在遇到对应问题。2) 奖励函数通常是稀疏的,因此提供了一种自然的方法,从少量的训练数据进行归纳,即使在非常大的状态空间中也是如此。3) 人类的行为可能会编码有关任务的大量背景信息,这种信息很容易在奖励函数中进行编码,但在策略中编码起来较复杂,并且可以在以后的上下文中重新使用。

  最值得注意的是,从根本上IRL问题是不适定的(ill-posed)-存在无限多个奖励函数,且它们会导致相同的最优策略。因此,许多IRL算法之间的区别在于如何消除歧义或显示对某些奖励函数偏好的指标。最大熵(Maximum Entropy)IRL通过利用概率框架(probabilistic framework)和最大熵原则消除了可能的奖励函数的歧义,较好地解决了示例者次优性和不适定的问题。具体来说,在给定奖励函数下,给所有会获得同等回报的轨迹分配相同的概率,然后使用这种分布以更好地匹配示例的特征计数,同时避免具有除数据指示偏好之外的任何其他偏好。

  目前,IRL算法常采用高斯过程或神经网络来建立具有状态特征的非线性奖励函数。这种表示法需要仔细的正则化以避免过度拟合。这对于经验收集昂贵的机器人技术来说尤其成问题。一些最近的IRL方法已经显示出可以在实际的机器人领域中工作,它通过交替奖励优化和策略优化步骤或将IRL框架转化为执行特征匹配的更直接的策略搜索问题来规避此障碍。如果有条件的话,可以通过将IRL问题转换为纯监督问题,使用分级演示来摆脱推理时间策略优化或MDP求解的需要。另外,主动学习技术已被用来降低IRL的计算复杂度,以及对示例者的信息性做出non-I.I.D假设的策略。

  3、从观察中学习 (Learning from Observation)

  模仿学习是一个agent尝试使用另一个执行该任务的agent(通常是expert)生成的信息来学习如何执行特定任务的过程。按照惯例,模仿者可以访问由专家生成的状态和动作信息。但是,动作信息很难直接获得,而且要求动作信息会阻止从大量现有的宝贵学习资源(例如,在线视频)中进行模仿学习。例如,机器人可以观察人类正在执行的任务,但只能访问原始像素数据,而不能访问世界的真实基础状态,也不能访问人类采取的行动。这个问题被称为“从观察中学习”(LfO),近年来的LfO引起了极大的关注,其中,模仿者只能访问专家生成的状态信息(例如,视频帧)。在LfO的极端情况中,agent被期望从单帧目标状态图像而不是完整的观测轨迹中进行学习。图 1 介绍了当前LfO算法的分类。

  

  图 1. LfO控制算法的分类的图形表示。这些算法可以分为两组:(1)基于模型的算法,其中算法可以使用前向动力学模型或逆动力学模型。(2)无模型算法,其本身可以归类为对抗性方法和奖励工程。

  对抗性训练技术在计算机视觉领域取得了一些最新的令人兴奋的进展。其中一个这样的进展是在姿势估计领域,该领域能够通过关键点检测来检测杂波视频中对象的位置和方向,这样的关键点信息在LfO中也可能被证明是有用的。虽然有少量努力将这些进展纳入LfO,但仍有许多工作需要研究。实际上,当前LfO算法很少在物理机器人上成功测试过。也就是说,大多数讨论结果仅在模拟域中进行。例如,尽管对抗性方法当前为许多基线实验LfO问题提供了最新的性能,但是这些方法显示出很高的样本复杂性,因此仅被应用于相对简单的模拟任务。因此,LfO中的一个开放问题是找到方法来适应这些技术,以便可以将它们用于像机器人应用一样禁止高样本复杂性的场景。

  4、纠正交互 (Corrective Interactions)

  与其从完整的批量示例中学习,不如经常请求(可能是部分的)纠正示例或其他形式的反馈来学习策略,这通常是有利的。例如,一个人可以在倒水时进行干预,并且调整杯子的角度和机器人倒水时的角度。这为在最需要数据的情况下收集数据提供了一种自然的机制——例如,正在发生错误的情况,或者机器人非常不确定该做什么的情况。模仿者主动要求用户在可信度低或风险较高的状态空间区域进行额外示例,而其他方法则依靠人工用户来识别何时发生了错误。更高层次的信息也可以用来进行更稳健的校正,比如更正的基于预测的注释和高级有限状态机中的动作建议。TAMER框架没有使用纠正性的示例,而是利用有关机器人性能的实时数字人工反馈来纠正和塑造行为。机器人还可以在需要的时候主动寻求帮助,例如,通过自然语言。

  本文由CAAI认知系统与信息处理专委会供稿

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!