新算法为计算机视觉提供了高分辨率的洞察力

想象一下,你在繁忙的街道上瞥了一眼,然后试图根据记忆画出你所看到的场景。大多数人可以画出主要物体(如汽车、人和人行横道)的大致位置,但几乎没有人能够以像素完美的准确度画出每一个细节。对于大多数现代计算机视觉算法来说也是如此:它们在捕捉场景的高级细节方面表现出色,但在处理信息时会丢失细粒度的细节。

现在,麻省理工学院的研究人员开发了一种名为“FeatUp”的系统,它可以让算法同时捕捉到场景的所有高级和低级细节,就像为计算机视觉进行的Lasik眼科手术一样。

当计算机通过观察图像和视频来“看”时,它们通过一种称为“特征”的东西建立起对场景中物体的“想法”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方块的网格,并将这些方块作为一个组进行处理,以确定照片中发生了什么。每个小方块通常由16到32个像素组成,因此这些算法的分辨率远远小于它们处理的图像。在试图总结和理解照片时,算法会失去大量的像素清晰度。

FeatUp算法可以阻止信息的丢失,并提高任何深度网络的分辨率,而不会影响速度或质量。这使得研究人员能够快速而轻松地改进任何新的或现有的算法的分辨率。例如,想象一下,试图解释肺癌检测算法的预测结果,并定位肿瘤。在使用类激活图(CAM)等方法解释算法之前,应用FeatUp可以根据模型提供一个更详细(16-32倍)的肿瘤可能位置的视图。

FeatUp不仅帮助从业者理解他们的模型,还可以改进各种不同的任务,如目标检测、语义分割(为图像中的像素分配标签)和深度估计。它通过提供更准确、高分辨率的特征来实现这一点,这对于构建从自动驾驶到医学成像等视觉应用至关重要。

“所有计算机视觉的本质都在于这些深度、智能的特征,它们从深度学习架构的深处产生。现代算法的一个大挑战是它们将大图像缩小为非常小的’智能’特征网格,获得了智能的洞察力,但失去了更精细的细节,”麻省理工学院电气工程和计算机科学专业的博士生、麻省理工学院计算机科学与人工智能实验室(CSAIL)成员、该项目的共同主要作者之一马克·汉密尔顿(Mark Hamilton)说道。“FeatUp有助于实现两全其美:高度智能的表示与原始图像的分辨率。这些高分辨率特征显著提升了计算机视觉任务的性能,从增强目标检测和改进深度预测到通过高分辨率分析更深入地理解网络的决策过程。”

分辨率复兴

随着这些大型AI模型越来越普遍,越来越需要解释它们在做什么、看什么和思考什么。

但是,FeatUp究竟如何发现这些细粒度的细节呢?奇妙的是,秘密在于扭动和晃动图像。

具体而言,FeatUp对图像应用微小的调整(如将图像向左或向右移动几个像素),并观察算法对图像的这些微小移动的反应。这会产生数百个略有不同的深度特征图,可以合并成一个清晰、高分辨率的深度特征集。“我们想象一些高分辨率特征存在,并且当我们扭动它们并模糊它们时,它们将与扭动图像的所有原始低分辨率特征匹配。我们的目标是通过这个让我们知道我们做得有多好的’游戏’,学习如何将低分辨率特征改进为高分辨率特征,”汉密尔顿说道。这种方法类似于算法如何通过确保预测的3D对象与用于创建它的所有2D照片匹配来从多个2D图像创建3D模型。在FeatUp的情况下,他们预测一个与通过扭动原始图像形成的所有低分辨率特征图一致的高分辨率特征图。

团队指出,PyTorch中提供的标准工具不足以满足他们的需求,并在寻求快速高效的解决方案时引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,比PyTorch中的朴素实现高效100倍。团队还展示了这个新层可以改进各种不同的算法,包括语义分割和深度预测。这个层提高了网络处理和理解高分辨率细节的能力,使使用它的任何算法都获得了显著的性能提升。

“另一个应用是称为小物体检索的东西,我们的算法可以精确定位物体。例如,在杂乱的道路场景中,与FeatUp相结合的算法可以看到交通锥、反光镜、灯和坑洞等微小物体,而低分辨率的算法则无法做到。这证明了它将粗糙特征转化为细节信号的能力,”加州大学伯克利分校的博士生、该项目的另一位共同主要作者斯蒂芬妮·傅(Stephanie Fu)说道。“这对于时间敏感的任务尤其重要,比如在无人驾驶汽车上准确定位拥挤高速公路上的交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这些任务的准确性,还可能使这些系统更可靠、可解释和可信赖。”

下一步是什么?

关于未来的愿景,团队强调了FeatUp在研究界和其他领域的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习的基本工具,以在不进行传统高分辨率处理的情况下,使模型更详细地感知世界,”傅说道。

“FeatUp代表了一个很好的进步,使视觉表示真正有用,通过以完整的图像分辨率生成它们,”康奈尔大学计算机科学教授诺亚·斯纳夫利(Noah Snavely)说道,他没有参与这项研究。“在过去几年中,学习的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能输入一张漂亮的全分辨率照片,却得到一个微小的邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp通过将超分辨率的经典思想与现代学习方法相结合,以一种创造性的方式解决了这个问题,从而产生了美丽的高分辨率特征图。”

“我们希望这个简单的想法能够有广泛的应用。它提供了以前我们认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程和计算机科学教授、CSAIL成员威廉·T·弗里曼(William T. Freeman)说道。

主要作者傅和汉密尔顿与麻省理工学院CSAIL的现任或前任成员,包括麻省理工学院电气工程和计算机科学专业的博士生劳拉·布兰特(Laura Brandt)和阿克塞尔·费尔德曼(Axel Feldmann),以及麻省理工学院CSAIL的现任或前任成员张舟彤(Zhoutong Zhang)。他们的研究得到了美国国家科学基金会研究生研究奖学金、美国国家科学基金会和国家情报总监办公室、美国空军研究实验室以及美国空军人工智能加速器的支持。该团队将于5月在国际学习表示会议上展示他们的工作。