随着人工智能模型在医疗、金融、教育、交通和娱乐等多个领域的日益普及,理解它们的内部工作原理变得至关重要。解读AI模型背后的机制使我们能够审计它们的安全性和偏见,并有可能加深我们对智能本身科学的理解。
想象一下,如果我们能够通过操控人脑中每个单独的神经元,直接研究人脑,以检查它们在感知特定物体中的作用。虽然这样的实验在人脑中是极具侵入性的,但在另一种类型的神经网络中:人工神经网络中,这种实验更为可行。然而,与人脑有些相似,包含数百万个神经元的人工模型过于庞大和复杂,无法手动研究,因此在大规模上实现可解释性是一项非常具有挑战性的任务。
为了解决这个问题,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员决定采取自动化的方法来解释评估图像不同属性的人工视觉模型。他们开发了“MAIA”(多模态自动可解释性代理),这是一个利用配备有其他AI系统实验工具的视觉-语言模型骨干,自动化多种神经网络可解释性任务的系统。
“我们的目标是创建一个能够自主进行可解释性实验的AI研究者。现有的自动化可解释性方法仅仅是在一次性过程中标记或可视化数据。另一方面,MAIA可以生成假设,设计实验来测试这些假设,并通过迭代分析来完善其理解,”麻省理工学院电气工程与计算机科学(EECS)博士后Tamar Rott Shaham说,她是这项新研究的共同作者之一,关于该研究的论文。“通过将预训练的视觉-语言模型与可解释性工具库相结合,我们的多模态方法可以通过组合和运行针对特定模型的有针对性的实验来响应用户查询,持续完善其方法,直到能够提供全面的答案。”
该自动化代理被证明能够处理三个关键任务:它标记视觉模型内部的各个组件,并描述激活它们的视觉概念;它通过去除无关特征来清理图像分类器,使其在新情况下更具鲁棒性;它寻找AI系统中的隐藏偏见,以帮助揭示其输出中潜在的公平性问题。“但像MAIA这样的系统的一个关键优势是其灵活性,”CSAIL的研究科学家、研究的共同负责人Sarah Schwettmann博士说。“我们在一些特定任务上展示了MAIA的实用性,但鉴于该系统是基于具有广泛推理能力的基础模型构建的,它可以回答用户的许多不同类型的可解释性查询,并即时设计实验来调查这些问题。”
逐个神经元
在一个示例任务中,一位人类用户要求MAIA描述视觉模型中某个特定神经元负责检测的概念。为了调查这个问题,MAIA首先使用一个工具,从ImageNet数据集中检索“数据集示例”,这些示例最大程度地激活该神经元。对于这个示例神经元,这些图像显示穿着正式服装的人,以及他们下巴和脖子的特写。MAIA对驱动神经元活动的因素提出了各种假设:面部表情、下巴或领带。然后,MAIA利用其工具设计实验,逐一测试每个假设,通过生成和编辑合成图像——在一个实验中,给人脸图像添加领结增加了神经元的反应。“这种方法使我们能够确定神经元活动的具体原因,类似于真正的科学实验,”Rott Shaham说。
MAIA对神经元行为的解释通过两种关键方式进行评估。首先,使用已知真实行为的合成系统来评估MAIA解释的准确性。其次,对于在训练的AI系统中没有真实描述的“真实”神经元,作者设计了一种新的自动评估协议,测量MAIA的描述在未见数据上预测神经元行为的效果。
CSAIL主导的方法在描述各种视觉模型(如ResNet、CLIP和视觉变换器DINO)中的单个神经元方面优于基线方法。MAIA在具有已知真实描述的新合成神经元数据集上表现良好。对于真实和合成系统,描述通常与人类专家撰写的描述相当。
AI系统组件(如单个神经元)的描述有什么用?“理解和定位大型AI系统内部的行为是审计这些系统安全性的重要部分,在它们部署之前——在我们的某些实验中,我们展示了MAIA如何用于找到具有不良行为的神经元,并从模型中去除这些行为,”Schwettmann说。“我们正在朝着一个更具韧性的AI生态系统迈进,在这个生态系统中,理解和监控AI系统的工具与系统扩展保持同步,使我们能够调查并希望理解新模型带来的不可预见的挑战。”
窥视神经网络内部
新兴的可解释性领域正在随着“黑箱”机器学习模型的兴起而成熟为一个独特的研究领域。研究人员如何打开这些模型并理解它们的工作原理?
目前的窥视方法往往在规模或所能产生的解释的精确度上受到限制。此外,现有方法往往适用于特定模型和特定任务。这使得研究人员提出了一个问题:我们如何构建一个通用系统,帮助用户回答关于AI模型的可解释性问题,同时结合人类实验的灵活性与自动化技术的可扩展性?
他们希望该系统解决的一个关键领域是偏见。为了确定图像分类器是否对特定子类别的图像表现出偏见,团队查看了分类流的最后一层(在一个旨在对项目进行分类或标记的系统中,类似于识别照片是狗、猫还是鸟的机器)和输入图像的概率分数(机器对其猜测的置信水平)。为了理解图像分类中的潜在偏见,MAIA被要求找到特定类别(例如“拉布拉多寻回犬”)中可能被系统错误标记的图像子集。在这个例子中,MAIA发现黑色拉布拉多的图像可能被错误分类,暗示模型对黄色毛发的寻回犬存在偏见。
由于MAIA依赖外部工具来设计实验,因此其性能受到这些工具质量的限制。但是,随着图像合成模型等工具质量的提高,MAIA的表现也会随之提升。MAIA有时还表现出确认偏见,即它有时错误地确认其初始假设。为了减轻这一点,研究人员构建了一个图像到文本的工具,使用不同实例的语言模型来总结实验结果。另一个失败模式是对特定实验的过拟合,模型有时会根据最小证据做出过早的结论。
“我认为我们实验室的一个自然下一步是超越人工系统,将类似的实验应用于人类感知,”Rott Shaham说。“测试这一点传统上需要手动设计和测试刺激,这是一项劳动密集型工作。通过我们的代理,我们可以扩大这一过程,同时设计和测试大量刺激。这也可能使我们能够比较人类视觉感知与人工系统。”
“理解神经网络对人类来说是困难的,因为它们有数十万个神经元,每个神经元都有复杂的行为模式。MAIA通过开发能够自动分析这些神经元并以易于理解的方式向人类报告提炼结果的AI代理,帮助弥合这一差距,”加州大学伯克利分校助理教授Jacob Steinhardt说,他并未参与该研究。“扩大这些方法的规模可能是理解和安全监督AI系统的最重要途径之一。”
Rott Shaham和Schwettmann与五位CSAIL的同事共同撰写了这篇论文:本科生Franklin Wang;即将入学的麻省理工学院学生Achyuta Rajaram;EECS博士生Evan Hernandez SM ’22;以及EECS教授Jacob Andreas和Antonio Torralba。他们的工作部分得到了麻省理工学院-IBM沃森AI实验室、开放慈善、现代汽车公司、陆军研究实验室、英特尔、国家科学基金会、Zuckerman STEM领导力计划和Viterbi奖学金的支持。研究人员的发现将在本周的国际机器学习会议上进行展示。