周边视觉使人类能够看到不直接在我们视线中的形状,尽管细节较少。这种能力扩大了我们的视野,并在许多情况下非常有帮助,例如检测从侧面靠近我们车辆的车辆。
与人类不同,人工智能没有周边视觉。为计算机视觉模型配备这种能力可以帮助它们更有效地检测接近的危险或预测人类驾驶员是否会注意到即将到来的物体。
麻省理工学院的研究人员朝着这个方向迈出了一步,他们开发了一个图像数据集,可以在机器学习模型中模拟周边视觉。他们发现,使用这个数据集训练模型可以提高模型在视觉周边检测物体的能力,尽管模型的表现仍然不如人类。
他们的研究结果还表明,与人类不同,物体的大小和场景中的视觉杂乱程度对人工智能的表现没有很大影响。
“这里有一些基本的问题。我们测试了很多不同的模型,即使我们对它们进行训练,它们也会变得更好一点,但它们还不像人类。所以问题是:这些模型缺少什么?”研究论文的合著者Vasha DuTell博士后说。
回答这个问题可能有助于研究人员构建更像人类的机器学习模型来观察世界。除了提高驾驶安全性,这样的模型还可以用于开发更容易被人们观看的显示器。
首席作者Anne Harrington MEng ’23补充说,对AI模型中的周边视觉有更深入的了解可以帮助研究人员更好地预测人类行为。
“如果我们能真正捕捉到周边视觉中所代表的本质,模拟周边视觉可以帮助我们理解视觉场景中使我们的眼睛移动以收集更多信息的特征,”她解释道。
他们的合著者包括电气工程和计算机科学研究生Mark Hamilton,博士后Ayush Tewari,丰田研究所研究经理Simon Stent,以及高级作者William T. Freeman(电气工程和计算机科学的Thomas和Gerd Perkins教授,计算机科学和人工智能实验室(CSAIL)成员)和Ruth Rosenholtz(大脑和认知科学系的首席研究科学家,CSAIL成员)。该研究将在国际学习表示会议上进行展示。
“每当人类与机器进行交互 – 汽车、机器人、用户界面 – 理解人类能看到什么是非常重要的。周边视觉在这种理解中起着关键作用,”Rosenholtz说。
模拟周边视觉
将手臂伸直放在你面前,竖起大拇指 – 大拇指周围的小区域是由你的中央凹陷视网膜提供最清晰视觉的部分。你能看到的其他东西都在你的视野周边。随着离开这个清晰焦点的距离越远,你的视觉皮层对场景的表示就越少细节和可靠性。
许多现有的模拟AI周边视觉的方法通过模糊图像的边缘来表示这种退化的细节,但视神经和视觉皮层中发生的信息丢失更加复杂。
为了更准确地模拟,麻省理工学院的研究人员采用了一种用于模拟人类周边视觉的技术。这种被称为纹理平铺模型的方法将图像转换为表示人类视觉信息丢失的方式。
他们修改了这个模型,使其能够以一种更灵活的方式进行图像转换,而不需要事先知道人或AI将把眼睛指向哪里。
“这让我们能够以与人类视觉研究中相同的方式忠实地模拟周边视觉,”Harrington说。
研究人员使用这种修改后的技术生成了一个巨大的数据集,其中的图像在某些区域看起来更具纹理,以表示当人类的视线进一步移向周边时细节的丧失。
然后,他们使用该数据集训练了几个计算机视觉模型,并将它们的表现与人类在物体检测任务上进行了比较。
“我们在如何设置实验方面必须非常聪明,以便我们还可以在机器学习模型中进行测试。我们不想在一个它们本来不应该做的玩具任务上重新训练模型,”她说。
奇特的表现
人类和模型被展示了一对转换后的图像,除了一个图像在周边位置有一个目标物体。然后,每个参与者被要求选择带有目标物体的图像。
“一个真正让我们惊讶的事情是人们在周边能力上检测物体的能力有多好。我们至少经历了10个不同的图像集,它们都太容易了。我们不断需要使用越来越小的物体,”Harrington补充道。
研究人员发现,使用他们的数据集从头开始训练模型可以获得最大的性能提升,提高了它们检测和识别物体的能力。使用他们的数据集微调模型,这个过程涉及调整预训练模型以使其能够执行新任务,结果获得了较小的性能提升。
但在每种情况下,机器的表现都不如人类,尤其是在远离中心的周边位置检测物体的能力特别差。它们的表现也不像人类那样遵循相同的模式。
“这可能表明模型在执行这些检测任务时没有像人类那样使用上下文。模型的策略可能是不同的,”Harrington说。
研究人员计划继续探索这些差异,目标是找到一个能够预测人类在视觉周边的表现的模型。这可以实现警示驾驶员注意到他们可能没有看到的危险,例如。他们还希望鼓励其他研究人员使用他们公开可用的数据集进行更多的计算机视觉研究。
“这项工作很重要,因为它有助于我们理解,人类周边视觉不应该仅仅被认为是由于我们拥有的光感受器数量有限而产生的贫乏视觉,而是一种为我们执行真实世界任务而优化的表示,”斯坦福大学心理学系副教授Justin Gardner说,他与这项工作无关。“此外,该研究表明,尽管近年来神经网络模型取得了进展,但在这方面它们无法与人类的表现相媲美,这应该促使更多的人工智能研究从人类视觉的神经科学中学习。作者提供的图像数据库将极大地促进这项未来研究。”
这项工作得到了丰田研究所和麻省理工学院CSAIL METEOR奖学金的部分支持。