大型语言模型的行为与人类不同,尽管我们可能会期望它们如此。

大型语言模型(LLMs)之所以强大,有一个重要原因是它们可以应用于多种任务。帮助研究生撰写电子邮件的同一个机器学习模型,也可以帮助临床医生诊断癌症。

然而,这些模型的广泛适用性也使得它们在系统性评估上面临挑战。创建一个基准数据集来测试模型在每种问题上的表现几乎是不可能的。

在一篇新论文中,麻省理工学院的研究人员采取了不同的方法。他们认为,由于人类决定何时部署大型语言模型,评估一个模型需要理解人们如何形成对其能力的信念。

例如,研究生必须决定该模型是否能在撰写特定电子邮件时提供帮助,而临床医生则必须确定在哪些案例中咨询该模型最为合适。

基于这一想法,研究人员创建了一个框架,以评估LLM与人类对其在特定任务上表现的信念之间的对齐程度。

他们引入了一个人类概括函数——一个模型,描述人们在与LLM互动后如何更新对其能力的信念。然后,他们评估LLM与这一人类概括函数的对齐程度。

他们的结果表明,当模型与人类概括函数不对齐时,用户可能会对何时部署模型过于自信或不自信,这可能导致模型意外失败。此外,由于这种不对齐,更强大的模型在高风险情况下的表现往往不如较小的模型。

“这些工具令人兴奋,因为它们是通用的,但正因为它们是通用的,它们将与人类合作,因此我们必须考虑人类在其中的作用,”研究共同作者、经济学助理教授及信息与决策系统实验室(LIDS)首席研究员Ashesh Rambachan说。

Rambachan的论文合作者包括首席作者Keyon Vafa,哈佛大学的博士后研究员;以及Sendhil Mullainathan,麻省理工学院电气工程与计算机科学系和经济学系的教授,同时也是LIDS的成员。该研究将在国际机器学习会议上进行展示。

人类概括

当我们与他人互动时,我们会形成对他们所知和所不知的信念。例如,如果你的朋友对纠正他人的语法很挑剔,你可能会推断他们在句子构造方面也很出色,尽管你从未问过他们关于句子构造的问题。

“语言模型常常看起来如此人性化。我们想说明这种人类概括的力量在人们形成对语言模型的信念时也存在,”Rambachan说。

作为起点,研究人员正式定义了人类概括函数,该函数涉及提问、观察一个人或LLM的反应,然后推断该人或模型对相关问题的反应。

如果有人看到一个LLM能够正确回答关于矩阵求逆的问题,他们可能也会假设它能轻松回答关于简单算术的问题。与这一函数不对齐的模型——即在一个人期望其正确回答的问题上表现不佳的模型——在部署时可能会失败。

在掌握了这一正式定义后,研究人员设计了一项调查,以测量人们在与LLM和其他人互动时如何进行概括。

他们向调查参与者展示了一个人或LLM回答正确或错误的问题,然后询问他们是否认为该人或LLM会正确回答相关问题。通过这项调查,他们生成了近19,000个示例的数据集,展示人类如何在79个不同任务中对LLM的表现进行概括。

测量不对齐

他们发现,当被问及一个回答正确的问题的人是否会正确回答相关问题时,参与者表现得相当不错,但在对LLM的表现进行概括时则表现得较差。

“人类概括适用于语言模型,但这会出现问题,因为这些语言模型实际上并没有像人类那样表现出专业知识的模式,”Rambachan说。

人们在LLM回答错误时更可能更新他们的信念,而不是在其回答正确时。他们还倾向于认为LLM在简单问题上的表现对其在更复杂问题上的表现影响不大。

在那些人们对错误回答更重视的情况下,较简单的模型的表现优于像GPT-4这样的大型模型。

“表现更好的语言模型几乎可以欺骗用户,让他们认为它们在相关问题上的表现也会很好,而实际上并非如此,”他说。

人类在对LLM进行概括时表现不佳的一个可能解释是它们的陌生性——人们与LLM的互动经验远少于与其他人的互动经验。

“展望未来,随着我们与语言模型的互动增多,我们可能会变得更好,”他说。

为此,研究人员希望进行更多研究,探讨人们对LLM的信念如何随着与模型的互动而演变。他们还希望探索如何将人类概括纳入LLM的开发中。

“在我们训练这些算法时,或者试图通过人类反馈更新它们时,我们需要考虑人类概括函数在我们思考性能测量时的作用,”他说。

与此同时,研究人员希望他们的数据集可以作为基准,用于比较LLM在与人类概括函数相关的表现,这可能有助于提高在现实世界中部署的模型的表现。

“对我来说,这篇论文的贡献有两个方面。第一个是实用的:论文揭示了在一般消费者使用中部署LLM的一个关键问题。如果人们对LLM何时准确、何时失败没有正确的理解,他们就更可能看到错误,并可能因此对进一步使用感到沮丧。这突显了将模型与人们对概括理解的对齐问题,”未参与此项工作的芝加哥大学布斯商学院行为科学与经济学教授Alex Imas说。“第二个贡献更为根本:缺乏对预期问题和领域的概括有助于更好地了解模型在解决问题时的表现。当模型在某个问题上‘正确’时,这提供了一个测试,看看LLM是否‘理解’它们正在解决的问题。”

这项研究部分得到了哈佛数据科学倡议和芝加哥大学布斯商学院应用人工智能中心的资助。