AI代理帮助解释其他AI系统。

解释训练过的神经网络的行为仍然是一个引人注目的难题,特别是随着这些模型的规模和复杂性的增长。与历史上的其他科学挑战一样,逆向工程人工智能系统的工作方式需要大量的实验:提出假设,干预行为,甚至解剖大型网络以检查单个神经元。迄今为止,大多数成功的实验都涉及大量的人工监督。解释GPT-4等规模更大的模型内部的每个计算几乎肯定需要更多的自动化 – 也许甚至使用AI模型本身。

为了促进这一及时的努力,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新方法,利用AI模型对其他系统进行实验并解释其行为。他们的方法使用从预训练语言模型构建的代理来产生对训练网络内部计算的直观解释。

这种策略的核心是“自动可解释性代理”(AIA),旨在模拟科学家的实验过程。可解释性代理计划并执行对其他计算系统的测试,这些系统的规模可以从单个神经元到整个模型,以产生这些系统的各种形式的解释:系统的语言描述以及其失败的位置,以及重现系统行为的代码。与现有的可解释性程序不同,后者只是被动地对示例进行分类或总结,AIA积极参与假设形成、实验测试和迭代学习,从而实时改进对其他系统的理解。

与AIA方法相辅相成的是新的“功能解释和描述”(FIND)基准,这是一个类似于训练网络内部计算的函数的测试平台,并附带其行为的描述。评估真实世界网络组件描述的质量的一个关键挑战是,描述的好坏取决于其解释能力:研究人员无法访问单元的地面真实标签或学习计算的描述。FIND通过提供可靠的评估可解释性程序的标准来解决该领域长期存在的问题:函数的解释(例如由AIA生成的解释)可以与基准中的函数描述进行评估。

例如,FIND包含了模拟语言模型内部真实神经元行为的合成神经元,其中一些神经元对个别概念(如“地面交通”)具有选择性。AIAs可以访问合成神经元和设计输入(如“树”,“幸福”和“汽车”)来测试神经元的响应。在注意到合成神经元对“汽车”的响应值较高于其他输入后,AIA可能会设计更精细的测试来区分神经元对汽车与飞机和船等其他交通方式的选择性。当AIA生成描述“该神经元对地面交通具有选择性,而不是空中或海上旅行”时,该描述将与FIND中合成神经元的地面真实描述(“对地面交通具有选择性”)进行评估。然后可以使用该基准来比较AIAs与文献中其他方法的能力。

麻省理工学院CSAIL的研究科学家Sarah Schwettmann博士是这项新工作的共同作者之一,她强调了这种方法的优势。“AIAs的自主假设生成和测试能力可能能够发现科学家难以察觉的行为。令人惊讶的是,当语言模型配备了探测其他系统的工具时,它们能够进行这种类型的实验设计,”Schwettmann说。“干净简单的基准测试与地面真实答案一直是语言模型更一般能力的主要推动力,我们希望FIND在可解释性研究中能发挥类似的作用。”

自动化可解释性

大型语言模型仍然保持着科技界备受追捧的地位。LLM的最新进展突显了它们在各个领域执行复杂推理任务的能力。CSAIL团队认识到,鉴于这些能力,语言模型可能能够成为自动可解释性的通用代理的支柱。“可解释性历来是一个非常多方面的领域,”Schwettmann说。“没有一种适用于所有情况的方法;大多数程序非常特定于我们对系统的个别问题以及个别形式,如视觉或语言。现有的标记视觉模型内部单个神经元的方法需要在人类数据上训练专门的模型,这些模型只执行这个单一任务。从语言模型构建的可解释性代理可以为解释其他系统提供一个通用接口 – 在实验中综合结果,整合不同的形式,甚至在非常基础的层面上发现新的实验技术。”

当解释模型本身成为黑盒子时,对可解释性方法的外部评估变得越来越重要。该团队的新基准通过一套具有已知结构的函数来满足这一需求,这些函数模拟了在实际观察中观察到的行为。FIND中的函数涵盖了各种领域,从数学推理到字符串上的符号操作,再到基于单词任务构建的合成神经元。交互函数的数据集是程序构建的;通过添加噪声、组合函数和模拟偏差,将真实世界的复杂性引入简单函数。这样可以在能够转化为真实世界性能的环境中比较可解释性方法。

除了函数数据集外,研究人员还引入了一种创新的评估协议,以评估AIAs和现有自动可解释性方法的有效性。该协议涉及两种方法。对于需要在代码中复制函数的任务,评估直接比较AI生成的估计和原始的地面真实函数。对于涉及函数的自然语言描述的任务,评估这些描述的质量准确度需要对其语义内容进行自动理解。为了解决这个挑战,研究人员开发了一种专门的“第三方”语言模型。该模型专门用于评估AI系统提供的自然语言描述的准确性和连贯性,并将其与地面真实函数行为进行比较。

FIND的评估揭示了我们远未完全自动化可解释性的事实;尽管AIAs优于现有的可解释性方法,但它们仍然无法准确描述基准中近一半的函数。该研究的共同作者之一,麻省理工学院CSAIL的博士后Tamar Rott Shaham指出,“虽然这一代AIAs在描述高级功能方面很有效,但它们通常忽视了更细粒度的细节,特别是在具有噪声或不规则行为的函数子域中。这可能源于这些领域的采样不足。一个问题是AIAs的有效性可能受到其初始探索数据的阻碍。为了解决这个问题,我们尝试通过使用特定的相关输入初始化AIAs的搜索来引导AIAs的探索,这显著提高了解释的准确性。”这种方法将新的AIA方法与使用预计算示例启动解释过程的先前技术相结合。

研究人员还正在开发一套工具包,以增强AIAs在黑盒和白盒设置中对神经网络进行更精确实验的能力。该工具包旨在为AIAs提供更好的选择输入和改进假设测试能力,以进行更细致和准确的神经网络分析。该团队还在解决AI可解释性中的实际挑战,重点是确定在真实世界场景中分析模型时应提出的正确问题。他们的目标是开发自动化可解释性程序,最终可以帮助人们审核系统 – 例如自动驾驶或人脸识别 – 以诊断潜在的故障模式、隐藏的偏见或令人惊讶的行为。

监视监视者

该团队设想有一天开发几乎自主的AIAs,可以审核其他系统,由人类科学家提供监督和指导。先进的AIAs可以开展新类型的实验和问题,可能超出人类科学家最初的考虑。重点是将AI可解释性扩展到包括整个神经电路或子网络在内的更复杂行为,并预测可能导致不希望的行为的输入。这一发展代表了人工智能研究的重要进步,旨在使AI系统更易理解和可靠。

“一个好的基准是解决困难挑战的强大工具,”哈佛大学计算机科学教授Martin Wattenberg说,他没有参与这项研究。“看到这种复杂的可解释性基准是非常令人高兴的,这是当今机器学习中最重要的挑战之一。我对作者们创建的自动可解释性代理印象深刻。这是一种将AI反过来帮助人类理解的可解释性技巧。”

Schwettmann、Rott Shaham和他们的同事于2023年12月在NeurIPS上展示了他们的工作。麻省理工学院CSAIL和电气工程与计算机科学系(EECS)的其他合著者包括研究生Joanna Materzynska、本科生Neil Chowdhury、Shuang Li博士23、助理教授Jacob Andreas和教授Antonio Torralba。东北大学助理教授David Bau也是另一位合著者。

该工作得到了麻省理工学院IBM Watson AI实验室、Open Philanthropy、亚马逊研究奖、现代NGV、美国陆军研究实验室、美国国家科学基金会、Zuckerman STEM领导计划和Viterbi奖学金的部分支持。