大型语言模型,如驱动流行的人工智能聊天机器人ChatGPT的模型,非常复杂。尽管这些模型在许多领域被用作工具,如客户支持、代码生成和语言翻译,但科学家们仍然没有完全理解它们的工作原理。
为了更好地理解这些庞大的机器学习模型检索存储知识时的机制,麻省理工学院和其他地方的研究人员研究了这些巨大的机器学习模型检索存储知识时的机制。
他们发现了一个令人惊讶的结果:大型语言模型(LLMs)通常使用非常简单的线性函数来恢复和解码存储的事实。此外,模型对于类似类型的事实使用相同的解码函数。线性函数是只有两个变量且没有指数的方程,捕捉到两个变量之间的直线关系。
研究人员表明,通过识别不同事实的线性函数,他们可以探测模型对新主题的了解程度,以及模型中存储这些知识的位置。
研究人员开发了一种估计这些简单函数的技术,发现即使模型错误地回答了提示,它通常仍然存储了正确的信息。将来,科学家们可以使用这种方法来发现和纠正模型内部的错误信息,从而减少模型有时给出不正确或荒谬答案的倾向。
“尽管这些模型非常复杂,是在大量数据上训练的非线性函数,很难理解,但它们内部有时存在非常简单的机制。这是其中一个例子,”电气工程和计算机科学(EECS)研究生、本研究的共同第一作者Evan Hernandez说道。
Hernandez与共同第一作者Arnab Sharma(东北大学计算机科学研究生)、他的导师Jacob Andreas(EECS副教授,计算机科学与人工智能实验室(CSAIL)成员)、资深作者David Bau(东北大学计算机科学助理教授)以及麻省理工学院、哈佛大学和以色列理工学院的其他人共同撰写了这篇论文。该研究将在国际学习表示会议上进行展示。
发现事实
大多数大型语言模型,也称为变压器模型,是神经网络。神经网络松散地基于人脑,包含数十亿个相互连接的节点或神经元,分为多个层次,用于编码和处理数据。
变压器中存储的大部分知识可以表示为连接主题和对象的关系。例如,“Miles Davis演奏小号”是连接主题Miles Davis和对象小号的关系。
随着变压器获得更多知识,它会在多个层次上存储有关某个主题的附加事实。如果用户询问该主题,模型必须解码最相关的事实以回答查询。
如果有人通过提示“Miles Davis演奏…”来激活变压器,模型应该回答“小号”,而不是“伊利诺伊州”(Miles Davis出生的州)。
“在网络的计算中,必须有一种机制去查找Miles Davis演奏小号的事实,然后提取出这些信息并帮助生成下一个词。我们想要了解这个机制是什么,”Hernandez说。
研究人员设置了一系列实验来探测LLMs,并发现尽管它们非常复杂,但模型使用简单的线性函数解码关系信息。每个函数都特定于被检索的事实类型。
例如,变压器在想要输出一个人演奏的乐器时会使用一个解码函数,而在想要输出一个人出生的州时会使用另一个函数。
研究人员开发了一种估计这些简单函数的方法,并计算了47种不同关系的函数,例如“一个国家的首都”和“一个乐队的主唱”。
他们通过更改主题来测试每个函数,看它是否能恢复正确的对象信息。例如,“一个国家的首都”的函数应该在主题是挪威时检索到奥斯陆,在主题是英格兰时检索到伦敦。
函数正确检索信息的准确率超过60%,表明变压器中的一些信息是以这种方式编码和检索的。
“但并不是所有事实都是线性编码的。对于某些事实,尽管模型知道它们并且会预测与这些事实一致的文本,但我们无法找到线性函数。这表明模型在存储这些信息时正在进行更复杂的操作,”他说。
可视化模型的知识
他们还使用这些函数确定模型对不同主题的真实认知。
在一个实验中,他们以提示“Bill Bradley是一个”开始,并使用“进行体育运动”和“上大学”这两个解码函数,以查看模型是否知道参议员Bradley是一位打篮球的人,他上过普林斯顿大学。
“我们可以证明,尽管模型在生成文本时可能选择关注不同的信息,但它确实编码了所有这些信息,”Hernandez说。
他们使用这种探测技术生成了他们称之为“属性镜头”的网格,该网格可可视化变压器的多个层次中存储特定关系的具体信息的位置。
属性镜头可以自动生成,为研究人员提供了一种简化的方法来更多地了解模型。这种可视化工具可以帮助科学家和工程师纠正存储的知识,并帮助防止人工智能聊天机器人提供错误信息。
未来,Hernandez和他的合作者希望更好地理解事实不是线性存储的情况。他们还希望使用更大的模型进行实验,并研究线性解码函数的精确度。
“这是一项令人兴奋的工作,揭示了我们对大型语言模型在推理过程中如何回忆事实知识的理解中的一个缺失部分。以前的研究表明,LLMs在推理过程中构建了关于给定主题的信息丰富的表示,从中提取了特定属性。这项工作表明,LLMs进行属性提取的复杂非线性计算可以很好地近似为简单的线性函数,”未参与此项工作的特拉维夫大学计算机科学学院助理教授Mor Geva Pipek说道。
该研究得到了开放慈善、以色列科学基金会和Azrieli基金会早期职业教职资助的部分支持。