多个人工智能模型帮助机器人更透明地执行复杂计划。

你的日常待办清单可能非常简单：洗碗、买菜和其他琐事。你可能没有写下“拿起第一个脏盘子”或“用海绵洗那个盘子”，因为这些家务中的每个小步骤都感觉很直观。虽然我们可以毫不费力地完成每个步骤，但机器人需要一个涉及更详细概述的复杂计划。

麻省理工学院的不太可能的人工智能实验室（Improbable AI Lab）是计算机科学与人工智能实验室（CSAIL）内的一个小组，他们为这些机器提供了帮助，推出了一个新的多模态框架：Hierarchical Planning Foundation Models for Hierarchical Planning（HiP），它利用了三种不同的基础模型的专业知识来制定详细可行的计划。就像OpenAI的GPT-4、ChatGPT和Bing Chat所构建的基础模型一样，这些基础模型是通过大量数据训练的，用于生成图像、翻译文本和机器人技术应用。

与RT2和其他训练配对视觉、语言和动作数据的多模态模型不同，HiP使用了三种不同的基础模型，每种模型都经过不同数据模态的训练。每个基础模型捕捉决策过程的不同部分，然后在做出决策时一起工作。HiP消除了对配对视觉、语言和动作数据的需求，这些数据很难获取。HiP还使推理过程更加透明。

对于人类来说，被视为日常家务的事情可能是机器人的“长期目标”，即完成许多较小的步骤，需要足够的数据来规划、理解和执行目标。虽然计算机视觉研究人员尝试构建这个问题的单体基础模型，但配对语言、视觉和动作数据是昂贵的。相反，HiP代表了一种不同的多模态配方：一种便宜地将语言、物理和环境智能融入机器人的三重组合。

“基础模型不必是单体的，”未参与该论文的NVIDIA AI研究员Jim Fan说道。“这项工作将具有复杂任务的体现代理规划分解为三个组成模型：语言推理器、视觉世界模型和动作规划器。它使一个困难的决策问题更加易于处理和透明。”

团队认为他们的系统可以帮助这些机器完成家务，比如收拾书或将碗放入洗碗机。此外，HiP还可以协助多步骤的建筑和制造任务，如按特定顺序堆叠和放置不同材料。

评估HiP

CSAIL团队在三个操作任务上测试了HiP的准确性，表现优于可比较的框架。该系统通过制定智能计划来推理并适应新信息。

首先，研究人员要求机器人将不同颜色的方块堆叠在一起，然后将其他方块放在附近。问题是：一些正确的颜色不在场，所以机器人必须将白色方块放在彩色碗中进行涂色。HiP经常准确地适应这些变化，特别是与Transformer BC和Action Diffuser等最先进的任务规划系统相比，通过调整其计划以堆叠和放置每个方块。

另一个测试是将糖果和锤子等物品整理到一个棕色盒子中，忽略其他物品。其中一些物品需要移动时是脏的，所以HiP调整了其计划，将它们放入一个清洁盒子，然后放入棕色容器中。在第三个演示中，机器人能够忽略不必要的物品，完成厨房的子目标，如打开微波炉、把水壶搬开和打开灯。其中一些提示的步骤已经完成，所以机器人通过跳过这些指示来适应。

三重层次结构

HiP的三重规划过程作为一个层次结构运作，能够在不同的数据集上预先训练其各个组件，包括机器人之外的信息。在该顺序的底部是一个大型语言模型（LLM），它通过捕捉所需的所有符号信息并制定一个抽象的任务计划来开始构思。利用它在互联网上找到的常识知识，该模型将目标分解为子目标。例如，“泡一杯茶”变成了“加满水壶”，“烧开水壶”和随后所需的动作。

“我们只想做的是将现有的预训练模型成功地相互接口起来，”麻省理工学院电气工程与计算机科学系（EECS）的博士生和CSAIL成员Anurag Ajay说道。“我们不是推动一个模型来完成所有任务，而是结合多个模型，利用互联网数据的不同模态。当它们一起使用时，它们有助于机器人的决策，并有可能在家庭、工厂和建筑工地上帮助完成任务。”

这些模型还需要某种形式的“眼睛”来理解它们所操作的环境并正确执行每个子目标。团队使用了一个大型视频扩散模型来增强LLM完成的初始规划，该模型从互联网上的视频中收集有关世界的几何和物理信息。反过来，视频模型生成一个观察轨迹计划，完善LLM的概述以纳入新的物理知识。

这个被称为迭代改进的过程允许HiP推理其想法，每个阶段都接受反馈以生成更实用的概述。反馈的流动类似于撰写文章，其中作者可能会将他们的草稿发送给编辑，然后编辑进行修订，最后出版商进行最后的修改和定稿。

在这种情况下，层次结构的顶部是一个自我中心的动作模型，或者是根据周围环境推断出应该发生的动作的一系列第一人称图像。在这个阶段，来自视频模型的观察计划被映射到机器人可见的空间上，帮助机器决定如何在长期目标中执行每个任务。如果机器人使用HiP来泡茶，这意味着它将准确地绘制出壶、水槽和其他关键视觉元素的位置，并开始完成每个子目标。

然而，多模态工作受到高质量视频基础模型的限制。一旦可用，它们可以与HiP的小规模视频模型接口，进一步增强视觉序列预测和机器人动作生成。更高质量的版本还将减少当前视频模型的数据需求。

话虽如此，CSAIL团队的方法总体上只使用了少量数据。此外，HiP的训练成本低廉，并展示了使用现成的基础模型完成长期目标任务的潜力。“Anurag所展示的是将在不同任务和数据模态上训练的模型结合起来，形成机器人规划模型的概念验证。未来，HiP可以与能够处理触觉和声音的预训练模型相结合，以制定更好的计划，”MIT助理教授、Improbable AI Lab主任Pulkit Agrawal说道。该团队还考虑将HiP应用于解决机器人在现实世界中的长期目标任务。

Ajay和Agrawal是描述这项工作的论文的主要作者。他们与麻省理工学院教授和CSAIL首席研究员Tommi Jaakkola、Joshua Tenenbaum和Leslie Pack Kaelbling；CSAIL研究联合会员和MIT-IBM AI Lab研究经理Akash Srivastava；研究生Seungwook Han和Yilun Du ’19；前博士后Abhishek Gupta，现任华盛顿大学助理教授；以及前研究生Shuang Li博士（PhD ’23）一起参与了这项工作。

该团队的工作得到了美国国家科学基金会、美国国防高级研究计划局、美国陆军研究办公室、美国海军研究办公室多学科大学研究计划和MIT-IBM Watson AI Lab的部分支持。他们的研究结果在2023年神经信息处理系统会议（NeurIPS）上进行了展示。

相关文章

重新思考视频监控：更智能、更灵活解决方案的案例

将人工智能与人类价值观对齐

Broadcom的人工智能浪潮挑战了Nvidia的主导地位。

亚马逊将使用计算机视觉技术在发货前检测缺陷。