在经典卡通《杰森一家》中,机器人女仆罗西无缝地从吸尘、做晚餐到倒垃圾。但在现实生活中,训练通用机器人仍然是一个重大挑战。
通常,工程师会收集特定于某个机器人和任务的数据,用于在受控环境中训练机器人。然而,收集这些数据既昂贵又耗时,而且机器人可能难以适应它未见过的环境或任务。
为了训练更好的通用机器人,麻省理工学院的研究人员开发了一种多功能技术,将来自多个来源的大量异构数据整合到一个系统中,以教会任何机器人执行广泛的任务。
他们的方法涉及将来自不同领域(如模拟和真实机器人)以及多种模态(包括视觉传感器和机器人手臂位置编码器)的数据对齐成一种共享的“语言”,以便生成性人工智能模型可以处理。
通过结合如此庞大的数据量,这种方法可以用于训练机器人执行多种任务,而无需每次都从头开始训练。
这种方法可能比传统技术更快且成本更低,因为它所需的任务特定数据少得多。此外,在模拟和现实世界实验中,它的表现比从头开始训练提高了20%以上。
“在机器人技术中,人们常常声称我们没有足够的训练数据。但在我看来,另一个大问题是数据来自如此多不同的领域、模态和机器人硬件。我们的工作展示了如何将所有这些数据结合起来训练机器人,”电气工程与计算机科学(EECS)研究生、该技术论文的第一作者王立瑞说。
王的合著者包括EECS研究生赵佳良;Meta的研究科学家陈新雷;以及资深作者、EECS副教授、计算机科学与人工智能实验室(CSAIL)成员何凯明。该研究将在神经信息处理系统会议上展示。
受大型语言模型启发
机器人“策略”接收传感器观察数据,如相机图像或跟踪机器人手臂速度和位置的本体感知测量,然后告诉机器人如何以及在哪里移动。
策略通常使用模仿学习进行训练,这意味着人类演示动作或遥控机器人以生成数据,这些数据被输入到学习策略的人工智能模型中。由于这种方法使用的任务特定数据量较小,因此当环境或任务发生变化时,机器人往往会失败。
为了开发更好的方法,王和他的合作者从大型语言模型(如GPT-4)中获得了灵感。
这些模型使用大量多样的语言数据进行预训练,然后通过输入少量任务特定数据进行微调。对如此多数据的预训练帮助模型适应并在多种任务上表现良好。
“在语言领域,数据都是句子。在机器人领域,考虑到数据的异质性,如果想以类似的方式进行预训练,我们需要不同的架构,”他说。
机器人数据有多种形式,从相机图像到语言指令再到深度图。同时,每个机器人在机械上都是独特的,手臂、抓手和传感器的数量和方向各不相同。此外,数据收集的环境差异很大。
麻省理工学院的研究人员开发了一种名为异构预训练变换器(HPT)的新架构,统一了来自这些不同模态和领域的数据。
他们在架构中间放置了一个称为变换器的机器学习模型,该模型处理视觉和本体感知输入。变换器是构成大型语言模型基础的同类型模型。
研究人员将视觉和本体感知数据对齐为同一类型的输入,称为令牌,变换器可以处理。每个输入用相同数量的令牌表示。
然后,变换器将所有输入映射到一个共享空间,随着处理和学习更多数据而成长为一个庞大的预训练模型。变换器越大,性能越好。
用户只需向HPT提供少量关于其机器人设计、设置和希望执行的任务的数据。然后,HPT将变换器在预训练期间获得的知识转移到学习新任务中。
实现灵巧运动
开发HPT的最大挑战之一是构建用于预训练变换器的大型数据集,该数据集包括52个数据集,涵盖超过200,000条机器人轨迹,分为四个类别,包括人类演示视频和模拟。
研究人员还需要开发一种有效的方法,将来自一系列传感器的原始本体感知信号转换为变换器可以处理的数据。
“本体感知是实现许多灵巧运动的关键。由于我们架构中的令牌数量始终相同,我们对本体感知和视觉赋予相同的重要性,”王解释道。
在测试HPT时,与每次从头开始训练相比,它在模拟和现实世界任务中的机器人性能提高了20%以上。即使任务与预训练数据非常不同,HPT仍然提高了性能。
“这篇论文提供了一种在多个机器人实现之间训练单一策略的新方法。这使得可以在多样化的数据集上进行训练,从而显著扩大机器人学习方法可以训练的数据集规模。它还允许模型快速适应新的机器人实现,这在新机器人设计不断产生的情况下非常重要,”卡内基梅隆大学机器人研究所副教授David Held说,他并未参与这项工作。
未来,研究人员希望研究数据多样性如何提升HPT的性能。他们还希望增强HPT,使其能够处理未标记的数据,类似于GPT-4和其他大型语言模型。
“我们的梦想是拥有一个通用的机器人大脑,您可以下载并用于您的机器人,而无需任何训练。虽然我们仍处于早期阶段,但我们将继续努力,希望扩展能带来机器人策略的突破,就像大型语言模型所做的那样,”他说。
这项工作部分得到了亚马逊大波士顿科技倡议和丰田研究所的资助。