在过去的几十年里,计算机科学家一直试图训练机器人来处理各种任务,包括家务和制造过程。用来训练机器人完成手工任务的最著名的策略之一是模仿学习。
正如其名称所暗示的那样,模仿学习需要通过人类的示范来教机器人如何做某事。虽然在一些研究中,这种训练策略取得了非常有希望的结果,但它往往需要大量的、有注释的数据集,其中包含人类完成特定任务的数百个视频。
纽约大学的研究人员最近开发了VINN,这是一个替代性的模仿学习框架,不一定需要大型训练数据集。这种新方法在一篇预先发表在arXiv上的论文中提出,其工作原理是将模仿学习的两个不同方面解耦,即学习一项任务的视觉表征和相关动作。
进行这项研究的研究人员之一Jyo Pari说:"我很想看看我们如何能够简化模仿学习,模仿学习需要两个基本组成部分,一个是学习你的场景中什么是相关的,另一个是你如何能够采取相关的特征来执行任务。我们想把这些传统上被耦合成一个系统的组件解耦,并了解它们各自的作用和重要性。"
大多数现有的模仿学习方法将表征和行为学习结合到一个系统中。另一方面,帕里和他的同事创造的新技术侧重于表征学习,这是人工智能代理和机器人学习识别场景中任务相关特征的过程。
我们采用了自监督表示学习的现有方法,这是视觉界的一个流行领域,这些方法可以接受没有标签的图像集合,并提取相关的特征。将这些方法应用于模仿是有效的,因为我们可以通过对表征进行简单的近邻搜索,确定示范数据集中哪张图像与机器人目前看到的图像最相似。因此,我们可以直接让机器人复制类似示范图像中的动作。
利用他们开发的新的模仿学习策略,帕里和他的同事能够在模拟环境中增强视觉模仿模型的性能。他们还在一个真正的机器人上测试了他们的方法,有效地教它如何通过看类似的示范图像来打开一扇门。
我觉得我们的工作是未来工作的基础,可以利用表示学习来增强模仿学习模型,然而,即使我们的方法能够进行简单的近邻任务,它们仍然有一些缺点。
在未来,新的框架可以帮助简化机器人学中的模仿学习过程,促进其大规模实施。到目前为止,帕里和他的同事只用他们的策略来训练机器人完成简单的任务。因此,在他们接下来的研究中,他们计划探索可能的策略,使他们能够在更复杂的任务上实施。
弄清楚如何在更复杂的任务上利用最近的邻居的鲁棒性与参数模型的能力是一个有趣的方向,该研究团队目前正在努力扩大VINN的规模,使其不仅能够做一个任务,而且能够做多个不同的任务。