“机器人能从机器梦中学习吗?”

对于机器人专家来说,有一个挑战高于其他所有挑战:泛化——创造能够适应任何环境或条件的机器的能力。自1970年代以来,该领域已经从编写复杂程序发展到使用深度学习,教机器人直接从人类行为中学习。但一个关键瓶颈依然存在:数据质量。为了改进,机器人需要遇到能够推动其能力边界的场景,在其掌握的边缘操作。这个过程传统上需要人类的监督,操作员仔细挑战机器人以扩展其能力。随着机器人变得越来越复杂,这种动手的方法面临着扩展问题:对高质量训练数据的需求远远超过人类提供数据的能力。

现在,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一组研究人员开发了一种新颖的机器人训练方法,这可能显著加速适应性智能机器在现实环境中的部署。这个新系统名为“LucidSim”,利用生成性人工智能和物理模拟器的最新进展,创建多样化和真实的虚拟训练环境,帮助机器人在没有任何现实世界数据的情况下,在困难任务中达到专家级表现。

视频缩略图
播放视频

LucidSim:机器人能从机器梦中学习吗?
视频:麻省理工学院 CSAIL

LucidSim结合了物理模拟和生成性人工智能模型,解决了机器人技术中最持久的挑战之一:将模拟中学到的技能转移到现实世界。“机器人学习中的一个基本挑战长期以来一直是‘模拟到现实的差距’——模拟训练环境与复杂、不可预测的现实世界之间的差异,”麻省理工学院 CSAIL 的博士后研究员 Ge Yang 说,他是 LucidSim 的首席研究员。“以往的方法通常依赖于深度传感器,这简化了问题,但错过了关键的现实世界复杂性。”

这个多方位的系统是不同技术的结合。LucidSim 的核心使用大型语言模型生成各种结构化的环境描述。这些描述随后通过生成模型转化为图像。为了确保这些图像反映现实世界的物理特性,使用了一个基础的物理模拟器来指导生成过程。

一个想法的诞生:从墨西哥卷饼到突破

LucidSim 的灵感来自一个意想不到的地方:在马萨诸塞州剑桥的 Beantown Taqueria 外的一次对话。“我们想教配备视觉的机器人如何利用人类反馈来改进。但后来,我们意识到我们一开始并没有一个纯粹的基于视觉的策略,”麻省理工学院电气工程与计算机科学(EECS)本科生、LucidSim 的共同首席作者 Alan Yu 说。“我们在街上走的时候一直在谈论这个,然后我们在墨西哥卷饼店外停了大约半个小时。那就是我们灵光一现的时刻。”

为了生成他们的数据,团队通过从模拟场景中提取深度图(提供几何信息)和语义掩码(标记图像的不同部分)来生成逼真的图像。然而,他们很快意识到,由于对图像内容的组成进行严格控制,模型会使用相同的提示生成相似的图像,而这些图像之间并没有区别。因此,他们想出了从 ChatGPT 中获取多样化文本提示的方法。

然而,这种方法只产生了一张图像。为了制作短小而连贯的视频,作为机器人“小体验”,科学家们将一些图像魔法与团队创建的另一种新技术“运动中的梦”结合在一起。该系统计算每个像素在帧之间的运动,将单个生成的图像扭曲成一个短的多帧视频。“我们超越了领域随机化,这是一种在2017年开发的方法,将随机颜色和图案应用于环境中的物体,至今仍被认为是首选方法,”Yu 说。“虽然这种技术生成多样化的数据,但缺乏现实感。LucidSim 解决了多样性和现实感的问题。令人兴奋的是,即使在训练期间没有看到现实世界,机器人也能识别和导航现实环境中的障碍物。”

团队特别对将 LucidSim 应用于四足运动和跑酷以外的领域感到兴奋,这是他们的主要测试平台。一个例子是移动操作,其中移动机器人被要求在开放区域处理物体;此外,颜色感知也至关重要。“如今,这些机器人仍然从现实世界的演示中学习,”Yang 说。“虽然收集演示很容易,但将现实世界的机器人遥操作设置扩展到数千项技能是具有挑战性的,因为人类必须物理上设置每个场景。我们希望通过将数据收集转移到虚拟环境中,使这一过程更容易,从而在质量上更具可扩展性。”

谁是真正的专家?

团队将 LucidSim 与另一种替代方案进行了测试,其中专家教师演示技能供机器人学习。结果令人惊讶:由专家训练的机器人表现不佳,仅成功率为15%——即使将专家训练数据的数量增加四倍也几乎没有改变结果。但当机器人通过 LucidSim 收集自己的训练数据时,情况发生了戏剧性的变化。仅仅将数据集的大小翻倍,成功率就飙升至88%。“而且,给我们的机器人更多的数据单调地提高了它的性能——最终,学生变成了专家,”Yang 说。

斯坦福大学电气工程助理教授 Shuran Song 表示:“机器人技术中模拟到现实转移的主要挑战之一是实现模拟环境中的视觉现实感。”她没有参与这项研究。“LucidSim 框架通过使用生成模型为任何模拟创建多样化、高度真实的视觉数据,提供了优雅的解决方案。这项工作可能会显著加速在虚拟环境中训练的机器人在现实世界任务中的部署。”

从剑桥的街道到机器人研究的前沿,LucidSim 正在为新一代智能、适应性机器铺平道路——这些机器学习在我们复杂的世界中导航,而无需踏足其中。

Yu 和 Yang 与四位 CSAIL 的同事共同撰写了论文:Ran Choi,麻省理工学院机械工程的博士后;Yajvan Ravan,麻省理工学院 EECS 的本科生;John Leonard,麻省理工学院机械工程系的 Samuel C. Collins 机械与海洋工程教授;以及 Phillip Isola,麻省理工学院 EECS 的副教授。他们的工作部分得到了 Packard 奖学金、Sloan 研究奖学金、海军研究办公室、新加坡国防科学与技术局、亚马逊、麻省理工学院林肯实验室和国家科学基金会人工智能与基础交互研究所的支持。研究人员在11月初的机器人学习会议(CoRL)上展示了他们的工作。