研究人员使用大型语言模型来帮助机器人导航。

将来的某一天,您可能希望您的家用机器人将一堆脏衣服搬下楼,并将它们放在地下室最左边的洗衣机里。机器人需要将您的指令与其视觉观察相结合,以确定完成此任务所需的步骤。

对于AI代理来说,这并不容易。目前的方法通常利用多个手工制作的机器学习模型来处理任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接进行导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获取。

为了克服这些挑战,麻省理工学院(MIT)和MIT-IBM Watson AI实验室的研究人员设计了一种将视觉表示转化为语言片段的导航方法,然后将其输入到一个大型语言模型中,以完成多步导航任务的所有部分。

他们的方法不是将机器人周围的图像的视觉特征编码为视觉表示,而是创建描述机器人视角的文本标题。一个大型语言模型使用这些标题来预测机器人应该采取的行动,以完成用户基于语言的指令。

由于他们的方法仅使用基于语言的表示,他们可以使用大型语言模型高效生成大量的合成训练数据。

虽然这种方法在性能上不如使用视觉特征的技术,但在缺乏足够视觉数据进行训练的情况下表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以提高导航性能。

“通过纯粹使用语言作为感知表示,我们的方法更直接。由于所有输入都可以编码为语言,我们可以生成一个人类可理解的轨迹,”电气工程和计算机科学(EECS)研究生和该方法的主要作者Bowen Pan说。

Pan的合著者包括他的导师Aude Oliva,麻省理工学院计算机科学与人工智能实验室(CSAIL)的高级研究科学家,MIT-IBM Watson AI实验室主任,以及EECS副教授、CSAIL成员Philip Isola,EECS助理教授、CSAIL成员Yoon Kim,以及MIT-IBM Watson AI实验室和达特茅斯学院的其他人员。该研究将在北美计算语言学协会(Association for Computational Linguistics)的会议上进行展示。

用语言解决视觉问题

由于大型语言模型是目前最强大的机器学习模型,研究人员试图将它们纳入被称为视觉与语言导航的复杂任务中,Pan说。

但是这些模型接受基于文本的输入,无法处理来自机器人摄像头的视觉数据。因此,团队需要找到一种使用语言的方法。

他们的技术利用一个简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令结合,并输入到一个大型语言模型中,该模型决定机器人应该采取的导航步骤。

大型语言模型输出机器人完成该步骤后应该看到的场景的字幕。这用于更新轨迹历史,以便机器人可以跟踪自己的位置。

模型重复这些过程,逐步生成引导机器人达到目标的轨迹。

为了简化流程,研究人员设计了模板,以标准形式呈现观察信息给模型,作为机器人根据周围环境可以做出的一系列选择。

例如,一个字幕可能会说“您的左前方30度是一扇门,旁边有一盆盆栽,您的后方是一个带有办公桌和电脑的小办公室”,等等。模型选择机器人是向门还是向办公室移动。

“最大的挑战之一是找出如何以适当的方式将这种信息编码为语言,以使代理理解任务是什么以及如何应对,”Pan说。

语言的优势

当他们测试这种方法时,虽然它无法超越基于视觉的技术,但他们发现它具有几个优点。

首先,由于文本合成所需的计算资源较少于复杂的图像数据,他们的方法可以用于快速生成合成训练数据。在一个测试中,他们基于10个真实世界的视觉轨迹生成了10,000个合成轨迹。

该技术还可以弥合在模拟环境中训练的代理在现实世界中表现不佳的差距。这种差距通常是因为计算机生成的图像与真实场景相比可能有很大的不同,例如光照或颜色等因素。但是,描述合成图像与真实图像的语言会更难以区分,Pan说。

此外,他们的模型使用的表示对人类来说更容易理解,因为它们是用自然语言书写的。

“如果代理无法达到目标,我们可以更容易地确定它失败的原因。也许历史信息不够清晰,或者观察忽略了一些重要细节,”Pan说。

此外,他们的方法可以更容易地应用于各种任务和环境,因为它只使用一种类型的输入。只要数据可以编码为语言,他们就可以使用相同的模型而不需要进行任何修改。

但是,一个缺点是他们的方法自然地丢失了一些由基于视觉的模型捕捉到的信息,例如深度信息。

然而,研究人员惊讶地发现,将基于语言的表示与基于视觉的方法相结合可以提高代理的导航能力。

“也许这意味着语言可以捕捉到一些高层次的信息,而纯粹的视觉特征无法捕捉到,”他说。

这是研究人员希望继续探索的一个领域。他们还希望开发一个以导航为导向的字幕生成器,以提高该方法的性能。此外,他们还想探索大型语言模型展示空间意识的能力,以及这如何有助于基于语言的导航。

这项研究部分由MIT-IBM Watson AI实验室资助。