想象一下,你驾驶着一辆自动驾驶车辆通过隧道,但你并不知道前方发生了一起事故导致交通堵塞。通常情况下,你需要依靠前方的车辆来知道你应该开始刹车。但如果你的车辆能够看到前方的车辆并提前刹车呢?
麻省理工学院(MIT)和Meta的研究人员开发了一种计算机视觉技术,可以使自动驾驶车辆实现这一目标。
他们提出了一种方法,使用单个摄像机位置的图像来创建整个场景的物理准确的3D模型,包括被遮挡的区域。他们的技术利用阴影来确定场景中被遮挡部分的内容。
他们将这种方法称为PlatoNeRF,以柏拉图的洞穴寓言为基础,这是希腊哲学家的《理想国》中的一段文字,描述了被囚禁在洞穴中的人根据洞穴壁上的阴影来认识外部世界的现实。
通过将激光雷达(lidar)技术与机器学习相结合,PlatoNeRF可以生成比一些现有的人工智能技术更准确的3D几何重建。此外,PlatoNeRF在重建阴影难以观察的场景方面表现更好,例如光线较强或背景较暗的场景。
除了提高自动驾驶车辆的安全性,PlatoNeRF还可以通过使用户能够对房间的几何形状建模而使AR/VR头戴设备更高效,而无需四处走动进行测量。它还可以帮助仓库机器人更快地在杂乱的环境中找到物品。
“我们的关键思想是将这两个在不同学科中已经完成的事情结合起来——多次反射激光雷达和机器学习。事实证明,当你将这两者结合在一起时,你会发现很多新的探索机会,并获得两者的最佳效果,”麻省理工学院媒体艺术与科学专业的研究生、麻省理工学院媒体实验室的成员、PlatoNeRF论文的主要作者Tzofi Klinghoffer说。
Klinghoffer与他的导师、麻省理工学院媒体艺术与科学副教授、麻省理工学院相机文化小组负责人Ramesh Raskar,以及Meta Reality Labs的AI研究主任Rakesh Ranjan,以及麻省理工学院的Siddharth Somasundaram和Meta的Xiaoyu Xiang、Yuchen Fan和Christian Richardt共同撰写了这篇论文。该研究将在计算机视觉和模式识别会议上进行展示。
解决问题的关键
从一个摄像机视角重建完整的3D场景是一个复杂的问题。
一些机器学习方法使用生成式人工智能模型来猜测遮挡区域中的内容,但这些模型可能会产生并不存在的物体。其他方法试图通过彩色图像中的阴影来推断隐藏对象的形状,但是当阴影难以观察时,这些方法可能会遇到困难。
对于PlatoNeRF,麻省理工学院的研究人员利用了一种称为单光子激光雷达的新型传感模式。激光雷达通过发射光脉冲并测量光脉冲返回传感器的时间来绘制3D场景。由于单光子激光雷达可以检测到单个光子,因此它们提供了更高分辨率的数据。
研究人员使用单光子激光雷达照亮场景中的一个目标点。一些光线从该点反射并直接返回传感器。然而,大部分光线会在返回传感器之前散射并反射到其他物体上。PlatoNeRF依赖于这些光线的第二次反射。
通过计算光线反弹两次并返回激光雷达传感器所需的时间,PlatoNeRF捕捉到关于场景的附加信息,包括深度。光线的第二次反射还包含有关阴影的信息。
该系统追踪光线的次级路径——从目标点反射到场景中的其他点——以确定哪些点处于阴影中(由于缺乏光线)。根据这些阴影的位置,PlatoNeRF可以推断隐藏对象的几何形状。
激光雷达依次照亮16个点,捕捉多个图像,用于重建整个3D场景。
“每次我们照亮场景中的一个点,我们都会产生新的阴影。因为我们有所有这些不同的照明源,我们有很多光线在四处射击,所以我们正在雕刻出被遮挡和超出可见眼睛范围的区域,”Klinghoffer说。
成功的组合
PlatoNeRF的关键是将多次反射激光雷达与一种特殊类型的机器学习模型——神经辐射场(NeRF)相结合。NeRF将场景的几何形状编码到神经网络的权重中,使模型具有强大的插值或估计场景新视图的能力。
Klinghoffer表示,与多次反射激光雷达相结合,这种插值能力也导致了高度准确的场景重建。
“最大的挑战是找出如何将这两个东西结合起来。我们真的必须考虑光线如何通过多次反射激光雷达传输以及如何用机器学习对其进行建模的物理学问题,”他说。
他们将PlatoNeRF与两种常见的替代方法进行了比较,一种只使用激光雷达,另一种只使用带有彩色图像的NeRF。
他们发现,他们的方法能够胜过这两种技术,特别是当激光雷达传感器的分辨率较低时。这使得他们的方法在现实世界中更实用,因为低分辨率传感器在商业设备中很常见。
“大约15年前,我们的团队发明了第一台能够“看到”角落的相机,它通过利用光的多次反射或“光的回声”来工作。那些技术使用了特殊的激光和传感器,并使用了三次光的反射。此后,激光雷达技术变得更加主流,这导致了我们对能够穿透雾霾的相机的研究。这项新工作只使用了两次光的反射,这意味着信噪比非常高,3D重建的质量令人印象深刻,”Raskar说。
未来,研究人员希望尝试跟踪超过两次光的反射,以了解如何改进场景重建。此外,他们还有兴趣应用更多的深度学习技术,并将PlatoNeRF与彩色图像测量相结合以捕捉纹理信息。
“虽然长期以来,阴影的相机图像一直被研究作为3D重建的手段,但这项工作重新审视了在激光雷达的背景下的问题,展示了在重建隐藏几何形状的准确性方面的显著改进。这项工作展示了当与普通传感器结合使用时,巧妙的算法可以实现非凡的能力,包括我们现在在口袋里携带的激光雷达系统,”多伦多大学计算机科学系助理教授David Lindell说,他与这项工作无关。