1994年,佛罗里达州的珠宝设计师戴安娜·杜伊瑟发现她认为是圣母玛利亚的形象在一块烤奶酪三明治中,她将其保存并随后以28,000美元的价格拍卖。但我们对“错觉”这一现象——在物体中看到面孔和图案,而这些面孔和图案实际上并不存在——了解多少呢?
麻省理工学院计算机科学与人工智能实验室(CSAIL)的一项新研究深入探讨了这一现象,介绍了一个广泛的人类标注数据集,包含5,000张错觉图像,远超以往的收集。利用这个数据集,研究团队发现了人类和机器感知之间的几个惊人差异,以及在一片烤面包中看到面孔的能力可能如何拯救了你远方亲属的生命。
“面孔错觉长期以来吸引着心理学家,但在计算机视觉领域却鲜有探索,”麻省理工学院电气工程与计算机科学博士生、CSAIL成员及该研究的首席研究员马克·汉密尔顿说。“我们希望创建一个资源,帮助我们理解人类和人工智能系统如何处理这些虚幻的面孔。”
那么,这些虚假的面孔揭示了什么呢?首先,人工智能模型似乎并不像我们一样识别错觉面孔。令人惊讶的是,研究团队发现,直到他们训练算法识别动物面孔时,它们才显著提高了检测错觉面孔的能力。这一意外的联系暗示了我们识别动物面孔的能力——对生存至关重要——与我们在无生命物体中看到面孔的倾向之间可能存在某种进化联系。“这样的结果似乎表明,错觉可能不是源于人类的社会行为,而是源于更深层次的东西:比如快速发现潜伏的老虎,或识别一只鹿的视线方向,以便我们的原始祖先能够狩猎,”汉密尔顿说。
另一个引人入胜的发现是研究人员所称的“错觉的金发女孩区”,这是一个最有可能发生错觉的图像类别。“有一个特定的视觉复杂性范围,在这个范围内,人类和机器最有可能在非面孔物体中感知到面孔,”麻省理工学院电气工程与计算机科学教授、项目首席研究员威廉·T·弗里曼说。“如果太简单,就没有足够的细节形成面孔。如果太复杂,就变成了视觉噪声。”
为了揭示这一点,研究团队开发了一个方程,模拟人类和算法如何检测虚幻的面孔。在分析这个方程时,他们发现了一个明显的“错觉峰值”,在这个峰值中,看到面孔的可能性最高,对应于具有“恰到好处”的复杂性的图像。这个预测的“金发女孩区”随后在真实人类受试者和人工智能面孔检测系统的测试中得到了验证。
这个新数据集“物体中的面孔”的规模远超以往研究,后者通常只使用20-30个刺激。这一规模使研究人员能够探索最先进的面孔检测算法在对错觉面孔进行微调后的表现,显示这些算法不仅可以被编辑以检测这些面孔,而且还可以充当我们大脑的硅基替代品,使团队能够提出和回答关于错觉面孔检测起源的问题,这些问题在人类中是无法提出的。
为了构建这个数据集,研究团队从LAION-5B数据集中策划了大约20,000张候选图像,这些图像随后由人类标注者仔细标注和评估。这个过程涉及在感知到的面孔周围绘制边界框,并回答关于每个面孔的详细问题,例如感知的情感、年龄,以及该面孔是偶然的还是故意的。“收集和标注数千张图像是一项艰巨的任务,”汉密尔顿说。“这个数据集的存在在很大程度上要归功于我的母亲,”一位退休银行家,“她花费了无数小时为我们的分析热情地标注图像。”
这项研究还可能在改善面孔检测系统方面具有潜在应用,通过减少误报,这可能对自动驾驶汽车、人机交互和机器人等领域产生影响。该数据集和模型还可以帮助产品设计等领域,在这些领域中,理解和控制错觉可能会创造出更好的产品。“想象一下,能够自动调整汽车或儿童玩具的设计,使其看起来更友好,或者确保医疗设备不会无意中显得威胁,”汉密尔顿说。
“人类本能地将无生命物体解释为具有类人特征,这一点令人着迷。例如,当你瞥一眼电源插座时,你可能会立即想象它在唱歌,甚至可以想象它如何‘动嘴唇’。然而,算法并不会像我们一样自然地识别这些卡通面孔,”汉密尔顿说。“这引发了有趣的问题:是什么导致人类感知和算法解释之间的差异?错觉是有益的还是有害的?为什么算法不会像我们一样经历这种效应?这些问题激发了我们的研究,因为这一经典的心理现象在人类中尚未在算法中得到彻底探索。”
随着研究人员准备将他们的数据集分享给科学界,他们已经在展望未来。未来的工作可能涉及训练视觉-语言模型,以理解和描述错觉面孔,可能导致能够以更类人方式与视觉刺激互动的人工智能系统。
“这是一篇令人愉快的论文!阅读起来很有趣,让我思考。汉密尔顿等人提出了一个引人入胜的问题:我们为什么在物体中看到面孔?”加州理工学院电气工程的艾伦·E·帕基特教授皮耶特罗·佩罗纳说,他并未参与这项工作。“正如他们所指出的,从例子中学习,包括动物面孔,仅仅解释了这一现象的一半。我敢打赌,思考这个问题将教会我们一些关于我们视觉系统如何超越其一生中所接受的训练进行概括的重要知识。”
汉密尔顿和弗里曼的合著者包括丰田研究所的研究科学家西蒙·斯滕特;脑与认知科学系的首席研究科学家鲁思·罗森霍尔茨,NVIDIA研究科学家,前CSAIL成员;以及CSAIL成员的博士后瓦莎·杜泰尔、安妮·哈林顿(2023年工程硕士)和研究科学家詹妮弗·科尔贝特。他们的工作部分得到了国家科学基金会和CSAIL MEnTorEd研究机会(METEOR)奖学金的支持,同时得到了美国空军研究实验室和美国空军人工智能加速器的赞助。麻省理工学院超级云和林肯实验室超级计算中心为研究人员的结果提供了高性能计算资源。
这项工作将在本周的欧洲计算机视觉会议上展示。