自然语言提升了LLM在编码、规划和机器人技术方面的性能。

大型语言模型(LLMs)在编程和机器人任务中变得越来越有用,但对于更复杂的推理问题,这些系统与人类之间的差距仍然很大。由于无法像人类一样学习新概念,这些系统无法形成良好的抽象——即高级表示复杂概念的方式,跳过不重要的细节——因此在执行更复杂的任务时表现不佳。

幸运的是,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在自然语言中发现了丰富的抽象。在本月的国际学习表示会议上,该团队将展示三篇论文,展示了我们日常用语对语言模型的上下文的丰富性,帮助它们构建更好的代码综合、人工智能规划以及机器人导航和操作的总体表示。

这三个独立的框架为其所给定的任务构建了抽象库:LILO(从语言观察中进行库归纳)可以综合、压缩和记录代码;Ada(动作领域获取)探索人工智能代理的顺序决策;LGA(语言引导的抽象)帮助机器人更好地理解其环境,制定更可行的计划。每个系统都是一种神经符号方法,即一种将类似人类的神经网络和类似程序的逻辑组件相结合的人工智能类型。

LILO:一个编码的神经符号框架

大型语言模型可以用于快速编写小规模编码任务的解决方案,但尚不能像人类软件工程师编写的软件库那样架构整个软件库。为了进一步提高其软件开发能力,AI模型需要将代码重构(削减和合并)为简洁、可读和可重用的程序库。

像之前开发的麻省理工学院领导的Stitch算法这样的重构工具可以自动识别抽象,因此,为了向迪士尼电影《Lilo & Stitch》致敬,CSAIL研究人员将这些算法重构方法与LLMs相结合。他们的神经符号方法LILO使用标准的LLM编写代码,然后与Stitch配对,以找到在库中全面记录的抽象。

LILO对自然语言的独特强调使得系统能够执行需要类似人类常识知识的任务,例如识别和删除代码字符串中的所有元音字母以及绘制雪花。在这两种情况下,CSAIL系统的性能优于独立的LLMs,以及麻省理工学院的一个名为DreamCoder的先前库学习算法,表明其能够对提示中的单词建立更深入的理解。这些令人鼓舞的结果表明,LILO可以帮助编写用于操作诸如Excel电子表格之类的文档的程序,帮助AI回答关于视觉的问题,并绘制2D图形。

“语言模型更喜欢使用自然语言命名的函数,”研究负责人、麻省理工学院电气工程和计算机科学博士生、CSAIL成员Gabe Grand SM ’23说道。“我们的工作为语言模型创建了更直观的抽象,为每个抽象分配了自然语言名称和文档,从而为程序员提供更易于理解的代码,并提高了系统性能。”

在编程任务上提供提示时,LILO首先使用LLM基于其训练数据快速提出解决方案,然后系统逐渐更全面地搜索外部解决方案。接下来,Stitch高效地识别代码中的常见结构,并提取有用的抽象。然后,LILO自动为这些抽象命名和记录,从而产生简化的程序,系统可以使用这些程序来解决更复杂的任务。

麻省理工学院的这一框架使用Logo等领域特定的编程语言编写程序,Logo是在上世纪70年代由麻省理工学院开发的一种用于教授儿童编程的语言。将自动重构算法扩展到处理Python等更通用的编程语言将成为未来研究的重点。然而,他们的工作代表了语言模型如何促进越来越复杂的编码活动的一步前进。

Ada:自然语言指导AI任务规划

就像在编程中一样,自动化执行家庭多步骤任务和基于命令的视频游戏的AI模型缺乏抽象。想象一下,你在做早餐,让你的室友把一个热蛋端到桌子上——他们会直观地将他们对你的厨房烹饪背景知识抽象成一系列动作。相比之下,一个在类似信息上训练的LLM仍然难以推理出构建灵活计划所需的内容。

以被誉为世界上第一位程序员的著名数学家Ada Lovelace命名,由CSAIL领导的“Ada”框架通过开发有用的虚拟厨房家务和游戏计划库在这个问题上取得了进展。该方法在潜在任务及其自然语言描述上进行训练,然后语言模型从该数据集中提出动作抽象。人类操作员对最佳计划进行评分和筛选,以便将最佳可能的动作实施到不同任务的分层计划中。

“传统上,大型语言模型在处理更复杂的任务时遇到困难,因为存在抽象推理等问题,”Ada的首席研究员、麻省理工学院大脑和认知科学研究生、CSAIL成员Lio Wong说道。“但我们可以将软件工程师和机器人学家使用的工具与LLMs相结合,解决困难问题,例如虚拟环境中的决策制定。”

当研究人员将广泛使用的大型语言模型GPT-4纳入Ada时,该系统在厨房模拟器和Mini Minecraft中完成了更多任务,超过了AI决策基线“Code as Policies”。Ada利用自然语言中隐藏的背景信息理解如何将冷藏的葡萄酒放入橱柜并制作床。结果显示,任务准确性分别提高了59%和89%。

凭借这一成功,研究人员希望将他们的工作推广到现实世界的家庭,希望Ada可以帮助处理其他家务任务,并在厨房中协助多个机器人。目前,它的主要限制是使用了通用的LLM,因此CSAIL团队希望应用更强大、经过精细调整的语言模型,以便在更广泛的规划中提供帮助。Wong和她的同事们还在考虑将Ada与刚刚推出的CSAIL机器人操作框架LGA(语言引导的抽象)结合起来。

语言引导的抽象:机器人任务的表示

麻省理工学院电气工程和计算机科学研究生、CSAIL成员Andi Peng SM ’23及其合著者设计了一种方法,帮助机器以更像人类的方式解释其周围环境,在工厂或厨房等复杂环境中剔除不必要的细节。就像LILO和Ada一样,LGA在自然语言如何引导我们找到更好的抽象方面具有新颖的关注点。

在这些更无结构的环境中,机器人在事先进行基本训练时需要一些关于其任务的常识。例如,要求机器人递给你一个碗,机器人需要对其周围的重要特征有一个普遍的理解。从那里,它可以推理出如何给你想要的物品。

在LGA的情况下,人类首先使用预训练的语言模型提供一个关于一般任务的自然语言描述,比如“给我拿来我的帽子”。然后,模型将这些信息转化为关于执行此任务所需的基本元素的抽象。最后,通过对少数演示进行训练的模仿策略可以实施这些抽象,以指导机器人抓取所需物品。

以前的工作需要一个人对不同的操作任务进行详细记录,以预先训练机器人,这可能是昂贵的。令人惊讶的是,LGA指导语言模型生成类似于人类注释者的抽象,但所需时间较少。为了说明这一点,LGA开发了机器人策略,以帮助波士顿动力公司的Spot四足机器人摘取水果并将饮料扔进回收箱。这些实验展示了麻省理工学院开发的方法如何在无结构环境中扫描世界并制定有效的计划,可能指导道路上的自动驾驶车辆以及在工厂和厨房中工作的机器人。

“在机器人技术中,我们经常忽视的一个事实是,我们需要多么精细地调整我们的数据,使机器人在现实世界中有用,”Peng说。“除了简单地记住用于训练机器人执行任务的图像内容,我们还希望利用计算机视觉和字幕模型与语言相结合。通过从机器人所见的内容生成文本字幕,我们展示了语言模型可以为机器人构建重要的世界知识。”

LGA面临的挑战是,某些行为无法用语言解释,使得某些任务不明确。为了扩展他们在环境中表示特征的方式,Peng和她的同事们正在考虑将多模态可视化界面纳入他们的工作。与此同时,LGA为机器人在给人类提供帮助时更好地了解周围环境提供了一种方法。

人工智能中的“令人兴奋的前沿”

“库学习代表了人工智能中最令人兴奋的前沿之一,为发现和推理组合抽象提供了一条道路,”威斯康星大学麦迪逊分校助理教授罗伯特·霍金斯(Robert Hawkins)说道,他与这些论文无关。霍金斯指出,以前探索这个主题的技术“在计算上过于昂贵,无法大规模使用”,并且它们生成的lambda(许多语言中用于描述新函数的关键字)存在问题。“它们往往会产生不透明的‘lambda沙拉’,一堆难以解释的函数。这些最近的论文通过将大型语言模型与符号搜索、压缩和规划算法交互循环放在一起,展示了一种引人注目的前进方式。这项工作使得更易于理解和适应任务的抽象库能够快速获取。”

通过使用自然语言构建高质量的代码抽象库,这三种神经符号方法使语言模型更容易应对未来更复杂的问题和环境。对提示中精确关键字的更深入理解为开发更像人类的AI模型提供了一条前进的道路。

麻省理工学院CSAIL成员是每篇论文的高级作者:脑与认知科学教授Joshua Tenenbaum是LILO和Ada的作者;航空航天系主任Julie Shah是LGA的作者;电气工程和计算机科学副教授Jacob Andreas是三篇论文的作者。其他麻省理工学院的作者都是博士生:Maddy Bowers和Theo X. Olausson是LILO的作者,Jiayuan Mao和Pratyusha Sharma是Ada的作者,Belinda Z. Li是LGA的作者。Harvey Mudd College的Muxin Liu是LILO的合著者;普林斯顿大学的Zachary Siegel、加州大学伯克利分校的Jaihai Feng和微软的Noa Korneev是Ada的合著者;普林斯顿大学的Ilia Sucholutsky、Theodore R. Sumers和Thomas L. Griffiths是LGA的合著者。

LILO和Ada得到了麻省理工学院智能探索计划、麻省理工学院-IBM Watson人工智能实验室、英特尔、美国空军科学研究办公室、美国国防高级研究计划局和美国海军研究办公室的部分支持,后者的项目还得到了大脑、思维和机器中心的资助。LGA得到了美国国家科学基金会、开放慈善、加拿大自然科学和工程研究理事会以及美国国防部的资助。