想象一下,你需要整理一个凌乱的厨房,首先是一个满是调料包的台面。如果你的目标是把台面擦干净,你可能会把调料包作为一个整体扫起来。然而,如果你想先挑出芥末包再扔掉其他的,你就需要根据调料类型进行更细致的分类。如果在这些芥末包中,你特别想要找到Grey Poupon这个品牌,那么找到这个特定品牌就需要更仔细的搜索。
麻省理工学院的工程师们开发了一种方法,使机器人能够做出类似直观的、与任务相关的决策。
该团队的新方法名为Clio,使机器人能够识别场景中重要的部分,基于手头的任务。通过Clio,机器人接收用自然语言描述的任务列表,并根据这些任务确定解释其周围环境所需的细致程度,并“记住”场景中仅与任务相关的部分。
在从杂乱的办公隔间到麻省理工学院校园内的五层建筑的真实实验中,团队使用Clio根据自然语言提示(如“移动杂志架”和“获取急救包”)自动对场景进行不同细致程度的分割。
团队还在一台四足机器人上实时运行Clio。当机器人探索一栋办公楼时,Clio仅识别和映射与机器人任务相关的场景部分(例如在忽略一堆办公用品的情况下取回狗玩具),使机器人能够抓取感兴趣的物体。
Clio的名字来源于希腊历史女神,因其能够识别和记住仅与特定任务相关的元素。研究人员设想Clio将在许多情况下和环境中发挥作用,帮助机器人快速调查并理解其周围环境,以便完成给定任务。
“搜索和救援是这项工作的主要应用,但Clio也可以为家庭机器人和与人类一起在工厂车间工作的机器人提供动力,”麻省理工学院航空航天系副教授、信息与决策系统实验室(LIDS)首席研究员、麻省理工学院SPARK实验室主任Luca Carlone说。“这实际上是帮助机器人理解环境以及它需要记住什么,以便执行其任务。”
团队在今天发表在《机器人与自动化快报》上的一项研究中详细介绍了他们的结果。Carlone的合著者包括SPARK实验室的成员:Dominic Maggio、Yun Chang、Nathan Hughes和Lukas Schmid;以及麻省理工学院林肯实验室的成员:Matthew Trang、Dan Griffith、Carlyn Dougherty和Eric Cristofalo。
开放领域
计算机视觉和自然语言处理领域的巨大进步使机器人能够识别周围的物体。但直到最近,机器人只能在“封闭集”场景中做到这一点,即它们被编程在经过精心策划和控制的环境中工作,识别有限数量的物体,这些物体是机器人预先训练过的。
近年来,研究人员采取了更“开放”的方法,使机器人能够在更现实的环境中识别物体。在开放集识别领域,研究人员利用深度学习工具构建神经网络,处理来自互联网的数十亿张图像及其相关文本(例如朋友在Facebook上发布的狗的照片,配文为“见我的新小狗!”)。
通过数百万对图像-文本对,神经网络学习并识别场景中某些术语的特征部分,例如狗。然后,机器人可以应用该神经网络在全新的场景中发现狗。
但仍然存在一个挑战,即如何以对特定任务有用的方式解析场景。
“典型的方法会选择一些任意的、固定的细致程度来确定如何将场景的部分融合成可以视为一个‘物体’的东西,”Maggio说。“然而,你所称之为‘物体’的细致程度实际上与机器人需要做的事情有关。如果这个细致程度是固定的而不考虑任务,那么机器人可能最终会得到一个对其任务没有用的地图。”
信息瓶颈
通过Clio,麻省理工学院团队旨在使机器人能够以可以自动调整到手头任务的细致程度来解释其周围环境。
例如,给定一个将一堆书移动到书架的任务,机器人应该能够确定整堆书是与任务相关的物体。同样,如果任务是仅从其余堆中移动绿色书籍,机器人应该将绿色书籍区分为单个目标物体,并忽略场景的其余部分——包括堆中的其他书籍。
该团队的方法结合了最先进的计算机视觉和大型语言模型,包括在数百万个开源图像和语义文本之间建立联系的神经网络。他们还结合了自动将图像分割成许多小部分的映射工具,这些小部分可以输入神经网络,以确定某些部分是否在语义上相似。研究人员随后利用经典信息理论中的一个概念,称为“信息瓶颈”,以一种选择和存储与给定任务最相关的语义部分的方式压缩多个图像部分。
“例如,假设场景中有一堆书,而我的任务只是获取绿色书籍。在这种情况下,我们将所有关于场景的信息通过这个瓶颈,最终得到一个代表绿色书籍的部分集群,”Maggio解释道。“所有其他不相关的部分则被分组在一个集群中,我们可以简单地将其移除。我们留下的就是支持我任务所需的正确细致程度的物体。”
研究人员在不同的真实环境中演示了Clio。
“我们认为一个非常简单的实验就是在我没有提前清理的公寓中运行Clio,”Maggio说。
团队列出了自然语言任务,例如“移动一堆衣物”,然后将Clio应用于Maggio杂乱公寓的图像。在这些情况下,Clio能够快速分割公寓的场景,并通过信息瓶颈算法识别出构成衣物堆的部分。
他们还在波士顿动力公司的四足机器人Spot上运行Clio。他们给机器人一份任务清单,当机器人探索并绘制办公楼内部时,Clio在安装在Spot上的计算机上实时运行,以挑选出与给定任务视觉相关的映射场景中的部分。该方法生成了一个仅显示目标物体的叠加地图,机器人随后使用该地图接近识别的物体并实际完成任务。
“实时运行Clio是团队的一项重大成就,”Maggio说。“许多先前的工作可能需要几个小时才能完成。”
展望未来,团队计划调整Clio,以便能够处理更高级的任务,并在最近的逼真视觉场景表示的基础上进行扩展。
“我们仍在给Clio一些相对具体的任务,比如‘找到一副扑克牌’,”Maggio说。“对于搜索和救援,你需要给它更多高级的任务,比如‘寻找幸存者’或‘恢复电力’。因此,我们希望能够达到更接近人类的理解,以完成更复杂的任务。”
这项研究部分得到了美国国家科学基金会、瑞士国家科学基金会、麻省理工学院林肯实验室、美国海军研究办公室和美国陆军研究实验室分布式与协作智能系统与技术协作研究联盟的支持。