在许多自动化愿望清单的顶部,有一项特别耗时的任务:家务。
许多机器人专家的宏伟目标是开发出合适的硬件和软件组合,使机器能够学习“通用”策略(指导机器人行为的规则和策略),这些策略在所有条件下都能有效。然而,现实情况是,如果你有一个家用机器人,你可能并不太关心它是否能为你的邻居服务。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员考虑到这一点,决定尝试找到一种解决方案,以便轻松训练适用于特定环境的强大机器人策略。
“我们的目标是让机器人在干扰、分心、不同的光照条件和物体姿态变化下,在单一环境中表现出色,”麻省理工学院CSAIL的Improbable AI实验室研究助理、最近一篇关于该工作的论文的主要作者Marcel Torne Villasevil说。“我们提出了一种方法,利用计算机视觉的最新进展即时创建数字双胞胎。任何人只需用手机就可以捕捉到现实世界的数字复制品,得益于GPU并行化,机器人可以在模拟环境中比在现实世界中更快地进行训练。我们的方法通过利用少量现实世界的演示来启动训练过程,从而消除了对广泛奖励工程的需求。”
将你的机器人带回家
当然,RialTo比简单地挥动手机(砰!)让家用机器人为你服务要复杂得多。它首先使用你的设备通过NeRFStudio、ARCode或Polycam等工具扫描目标环境。一旦场景重建完成,用户可以将其上传到RialTo的界面,以进行详细调整,添加必要的关节到机器人等。
经过精细调整的场景被导出并带入模拟器。在这里,目标是基于现实世界的动作和观察来开发策略,例如抓取柜台上的杯子。这些现实世界的演示在模拟中被复制,为强化学习提供了一些有价值的数据。“这有助于创建在模拟和现实世界中都能良好工作的强大策略。使用强化学习的增强算法帮助指导这一过程,以确保策略在模拟器外应用时有效,”Torne说。
测试表明,RialTo为各种任务创建了强大的策略,无论是在受控实验室环境还是更不可预测的现实世界环境中,相比于使用相同数量的演示的模仿学习,提升了67%。这些任务包括打开烤面包机、将书放在架子上、将盘子放在架子上、将杯子放在架子上、打开抽屉和打开橱柜。对于每个任务,研究人员在三个逐渐增加的难度级别下测试系统的性能:随机化物体姿态、添加视觉干扰物和在任务执行期间施加物理干扰。当与现实世界数据结合时,该系统在许多视觉干扰或物理干扰的情况下表现优于传统的模仿学习方法。
“这些实验表明,如果我们关心在特定环境中非常强大,最好的想法是利用数字双胞胎,而不是试图通过在多样化环境中进行大规模数据收集来获得鲁棒性,”Improbable AI实验室主任、麻省理工学院电气工程与计算机科学(EECS)副教授、麻省理工学院CSAIL首席研究员及该工作的高级作者Pulkit Agrawal说。
至于局限性,RialTo目前需要三天才能完全训练。为了加快这一进程,团队提到改善基础算法和使用基础模型。模拟中的训练也有其局限性,目前在无缝的模拟到现实转移以及模拟可变形物体或液体方面仍然困难。
下一个层次
那么,RialTo的下一步是什么?在之前工作的基础上,科学家们正在努力保持对各种干扰的鲁棒性,同时提高模型对新环境的适应能力。“我们的下一个目标是采用预训练模型的方法,加速学习过程,最小化人类输入,并实现更广泛的泛化能力,”Torne说。
“我们对我们的‘即时’机器人编程概念感到非常兴奋,机器人可以自主扫描其环境并学习如何在模拟中解决特定任务。虽然我们当前的方法有局限性——例如需要人类提供一些初始演示,并且训练这些策略需要大量计算时间(最多三天)——但我们认为这是实现‘即时’机器人学习和部署的重要一步,”Torne说。“这种方法使我们更接近一个未来,机器人不需要覆盖每种场景的预先存在的策略。相反,它们可以快速学习新任务,而无需广泛的现实世界互动。在我看来,这一进展可能会比单靠普遍的、包罗万象的策略更快地加速机器人技术的实际应用。”
“为了在现实世界中部署机器人,研究人员传统上依赖于从专家数据中进行模仿学习的方法,这可能成本高昂,或者依赖于强化学习,这可能不安全,”华盛顿大学计算机科学博士生Zoey Chen说,她并未参与该论文。“RialTo直接解决了现实世界RL(机器人学习)的安全约束和数据驱动学习方法的高效数据约束,采用其新颖的真实到模拟再到真实的管道。这一新颖的管道不仅确保了在现实世界部署之前的安全和强大的模拟训练,而且显著提高了数据收集的效率。RialTo有潜力显著提升机器人学习,并使机器人更有效地适应复杂的现实世界场景。”
“模拟通过提供廉价、可能是无限的数据来进行策略学习,已经在真实机器人上展示了令人印象深刻的能力,”华盛顿大学计算机科学博士生Marius Memmel补充道,他并未参与该工作。“然而,这些方法仅限于少数特定场景,构建相应的模拟是昂贵且繁琐的。RialTo提供了一种易于使用的工具,可以在几分钟内重建现实世界环境,而不是几个小时。此外,它在策略学习过程中广泛使用收集到的演示,最小化了操作员的负担,并减少了模拟到现实的差距。RialTo展示了对物体姿态和干扰的鲁棒性,显示出在不需要广泛构建模拟器和数据收集的情况下的惊人现实世界表现。”
Torne与高级作者Abhishek Gupta(华盛顿大学助理教授)和Agrawal共同撰写了这篇论文。还有四名CSAIL成员也被列为作者:EECS博士生Anthony Simeonov SM ’22、研究助理Zechu Li、本科生April Chan和Tao Chen博士’24。Improbable AI实验室和WEIRD实验室的成员也在开发该项目中提供了宝贵的反馈和支持。
这项工作部分得到了索尼研究奖、美国政府和现代汽车公司的支持,并得到了WEIRD(华盛顿具身智能与机器人发展)实验室的协助。研究人员在本月早些时候的机器人科学与系统(RSS)会议上展示了他们的工作。