自从Roomba以来,机器人已经取得了长足的进步。如今,无人机开始进行门到门的配送,自动驾驶汽车在某些道路上行驶,机器人狗在协助急救人员,还有更多的机器人在做后空翻并在工厂车间中提供帮助。然而,卢卡·卡尔隆(Luca Carlone)认为,最好的时刻还在后头。
卡尔隆最近在麻省理工学院(MIT)航空航天系获得了副教授的终身教职,他领导着SPARK实验室,在这里,他和他的学生正在弥补人类与机器人之间的一个关键差距:感知。该团队进行理论和实验研究,旨在扩展机器人对其环境的意识,以接近人类的感知。正如卡尔隆常说的,感知不仅仅是检测。
虽然机器人在检测和识别周围物体的能力上取得了巨大的进步,但在更高层次上理解其环境方面,它们仍有很多需要学习的地方。作为人类,我们不仅凭直觉感知物体的形状和标签,还感知它们的物理特性——它们如何被操控和移动——以及它们之间的关系、与更大环境的关系以及与我们自身的关系。
卡尔隆和他的团队希望将这种人类级别的感知赋予机器人,使它们能够安全、无缝地与人们在家中、工作场所和其他非结构化环境中互动。
自2017年加入MIT教职以来,卡尔隆带领他的团队开发和应用感知和场景理解算法,应用于各种场景,包括自主地下搜索和救援车辆、能够在飞行中拾取和操控物体的无人机以及自动驾驶汽车。这些技术也可能对遵循自然语言命令的家用机器人有用,甚至可能根据更高层次的上下文线索预测人类的需求。
“感知是让机器人在现实世界中帮助我们的一个重大瓶颈,”卡尔隆说。“如果我们能将认知和推理的元素添加到机器人感知中,我相信它们可以做很多好事。”
扩展视野
卡尔隆出生并成长于意大利萨勒诺附近,靠近风景如画的阿马尔菲海岸,他是三个男孩中最小的一个。他的母亲是一位退休的小学教师,教授数学;他的父亲是一位退休的历史教授和出版商,一直以来对历史研究采取分析的方法。三个兄弟可能无意识地继承了父母的思维方式,三人都成为了工程师——前两个追求电子和机械工程,而卡尔隆则选择了机器人技术,或者当时所称的机电一体化。
然而,他直到本科阶段的后期才接触到这个领域。卡尔隆就读于都灵理工大学,最初专注于理论工作,特别是控制理论——一个将数学应用于开发自动控制物理系统行为的算法的领域,如电网、飞机、汽车和机器人。然后,在他的最后一年,卡尔隆选修了一门关于机器人技术的课程,探讨了操控技术的进展以及如何编程使机器人移动和运作。
“这是一见钟情。使用算法和数学来开发机器人的大脑,使其移动并与环境互动是最令人满足的体验之一,”卡尔隆说。“我立刻决定这就是我想要做的事情。”
他继续在都灵理工大学和米兰理工大学的双学位项目中学习,分别获得机电一体化和自动化工程的硕士学位。作为这个名为Alta Scuola Politecnica的项目的一部分,卡尔隆还参加了管理课程,在这些课程中,他和来自不同学术背景的学生必须合作构思、构建并制定新产品设计的市场推广方案。卡尔隆的团队开发了一款无接触的台灯,旨在根据用户的手势命令进行操作。这个项目促使他从不同的角度思考工程。
“这就像必须说不同的语言,”他说。“这让我早早意识到需要超越工程泡沫,思考如何创造能够影响现实世界的技术工作。”
下一代
卡尔隆留在都灵完成了他的机电一体化博士学位。在此期间,他被赋予选择论文主题的自由,他回忆说,他在选择时“有点天真”。
“我在探索一个社区认为已经被很好理解的主题,许多研究人员认为对此没有更多的发言权。”卡尔隆说。“我低估了这个主题的成熟程度,认为我仍然可以为其贡献一些新东西,而我也幸运地做到了。”
这个主题是“同时定位与地图构建”(SLAM)——在生成和更新机器人环境地图的同时,跟踪机器人在该环境中的位置的问题。卡尔隆提出了一种重新构建问题的方法,使得算法能够生成更精确的地图,而不必像当时大多数SLAM方法那样从初始猜测开始。他的工作帮助打开了一个领域,在这个领域,大多数机器人专家认为无法超越现有算法。
“SLAM是关于弄清事物的几何形状以及机器人如何在这些事物之间移动,”卡尔隆说。“现在我成为了一个社区的一部分,问下一个SLAM的下一代是什么?”
为了寻找答案,他接受了乔治亚理工学院的博士后职位,在那里他深入研究编码和计算机视觉——一个在回顾中,可能受到失明的启发:在他完成博士学位的过程中,他遭遇了一次严重影响视力的医疗并发症。
“有一年,我很可能失去一只眼睛,”卡尔隆说。“这让我思考了视觉和人工视觉的重要性。”
他得到了良好的医疗护理,病情完全好转,因此他能够继续他的工作。在乔治亚理工学院,他的导师弗兰克·德拉尔特向他展示了如何在计算机视觉中编码,并为复杂的三维问题制定优雅的数学表示。德拉尔特也是最早开发开源SLAM库之一的研究者,名为GTSAM,卡尔隆很快意识到这是一个宝贵的资源。更广泛地说,他看到将软件提供给所有人解锁了机器人技术整体进步的巨大潜力。
“从历史上看,SLAM的进展非常缓慢,因为人们将他们的代码保密,每个团队基本上都必须从头开始,”卡尔隆说。“然后开源管道开始出现,这改变了游戏,极大地推动了我们在过去10年中看到的进展。”
空间人工智能
在乔治亚理工学院之后,卡尔隆于2015年作为博士后加入MIT的信息与决策系统实验室(LIDS)。在此期间,他与航空航天系教授塞尔塔克·卡拉曼合作,开发软件以帮助掌中宝无人机在使用极少的机载电力的情况下导航其周围环境。一年后,他被提升为研究科学家,随后在2017年,卡尔隆接受了航空航天系的教职。
“我在MIT爱上的一件事是,所有的决策都是由这样的问题驱动的:我们的价值观是什么?我们的使命是什么?这从来不是关于低层次的收益。真正的动机是如何改善社会,”卡尔隆说。“作为一种思维方式,这让人耳目一新。”
如今,卡尔隆的团队正在开发超越几何形状和语义特征的机器人环境表示方法。他正在利用深度学习和大型语言模型开发算法,使机器人能够通过更高层次的视角感知其环境。过去六年中,他的实验室发布了超过60个开源代码库,这些代码库被全球数千名研究人员和从业者使用。他的大部分工作适合于一个新兴的更大领域,称为“空间人工智能”。
“空间人工智能就像是增强版的SLAM,”卡尔隆说。“简而言之,它与使机器人像人类一样思考和理解世界有关,以便能够发挥作用。”
这是一个巨大的任务,可能会产生广泛的影响,使得更直观、互动的机器人能够在家中、工作场所、道路上以及偏远和潜在危险的地区提供帮助。卡尔隆表示,为了接近人类对世界的感知,仍然有很多工作要做。
“我有两个两岁的双胞胎女儿,我看到她们操控物体,一次携带10个不同的玩具,轻松穿越杂乱的房间,并迅速适应新环境。机器人感知尚无法与幼儿的能力相匹配,”卡尔隆说。“但我们有新的工具在手。而未来是光明的。”