该方法防止AI模型对错误答案过于自信。

人们使用大型语言模型来完成各种任务,从翻译文章到识别金融欺诈。然而,尽管这些模型具有令人难以置信的能力和多功能性,它们有时会生成不准确的回答。

除此之外,这些模型可能对错误的答案过于自信,或对正确的答案缺乏自信,这使得用户很难判断何时可以信任模型。

研究人员通常会对机器学习模型进行校准,以确保其信心水平与准确性相符。一个经过良好校准的模型应该对错误的预测信心较低,反之亦然。但由于大型语言模型(LLMs)可以应用于看似无尽的多样化任务,传统的校准方法效果不佳。

现在,麻省理工学院(MIT)和MIT-IBM沃森人工智能实验室的研究人员提出了一种针对大型语言模型的校准方法。他们的方法称为Thermometer,涉及构建一个较小的辅助模型,该模型在大型语言模型之上运行以进行校准。

Thermometer比其他方法更高效——所需的计算功耗更低——同时保持模型的准确性,并使其能够在未见过的任务上生成更好校准的响应。

通过使LLM能够高效地进行多种任务的校准,Thermometer可以帮助用户识别模型在错误预测上过于自信的情况,最终防止他们在可能失败的情况下部署该模型。

“通过Thermometer,我们希望为用户提供一个明确的信号,告诉他们模型的响应是准确还是不准确,以反映模型的不确定性,这样他们就知道该模型是否可靠,”电气工程与计算机科学(EECS)研究生、Thermometer论文的主要作者Maohao Shen说。

Shen的论文合作者包括信号、信息与算法实验室的Sumitomo工程教授Gregory Wornell,他是MIT-IBM沃森人工智能实验室的成员;高级作者Soumya Ghosh,MIT-IBM沃森人工智能实验室的研究人员;以及其他来自MIT和MIT-IBM沃森人工智能实验室的人员。该研究最近在国际机器学习会议上进行了展示。

通用校准

由于传统的机器学习模型通常设计用于执行单一任务,因此对它们的校准通常涉及一种特定于任务的方法。另一方面,由于LLMs具有执行多种任务的灵活性,使用传统方法对该模型进行单一任务的校准可能会损害其在其他任务上的表现。

对LLM的校准通常涉及多次从模型中采样以获得不同的预测,然后聚合这些预测以获得更好校准的信心。然而,由于这些模型具有数十亿个参数,这种方法的计算成本迅速增加。

“从某种意义上说,大型语言模型是通用的,因为它们可以处理各种任务。因此,我们需要一种通用的校准方法,也能处理许多不同的任务,”Shen说。

通过Thermometer,研究人员开发了一种多功能技术,利用一种称为温度缩放的经典校准方法,以高效地为新任务校准LLM。

在这个上下文中,“温度”是一个缩放参数,用于调整模型的信心,以使其与预测准确性对齐。传统上,人们使用特定任务示例的标记验证数据集来确定合适的温度。

由于LLMs通常应用于新任务,获取标记数据集几乎是不可能的。例如,想要部署LLM以回答有关新产品的客户问题的用户,可能没有包含此类问题和答案的数据集。

研究人员没有使用标记数据集,而是训练一个在LLM之上运行的辅助模型,以自动预测校准其新任务所需的温度。

他们使用少数代表性任务的标记数据集来训练Thermometer模型,但一旦训练完成,它就可以在类似类别的新任务上进行泛化,而无需额外的标记数据。

例如,训练在多项选择题数据集上的Thermometer模型,可能包括一个代数问题的数据集和一个医学问题的数据集,可以用于校准一个将回答几何或生物问题的LLM。

“我们的理想目标是它能在任何任务上工作,但我们还没有达到这个目标,”Ghosh说。

Thermometer模型只需访问LLM内部工作的一小部分,就能预测出校准其特定任务数据点预测所需的正确温度。

高效的方法

重要的是,该技术不需要多次训练运行,并且仅稍微减慢LLM的速度。此外,由于温度缩放不改变模型的预测,Thermometer保持了其准确性。

当他们将Thermometer与多个任务上的几个基线进行比较时,它始终产生更好校准的不确定性度量,同时所需的计算量大大减少。

“只要我们在足够多的任务上训练Thermometer模型,它就应该能够像大型语言模型一样很好地泛化到任何新任务,它也是一个通用模型,”Shen补充道。

研究人员还发现,如果他们为较小的LLM训练Thermometer模型,它可以直接应用于校准同一家族中的较大LLM。

未来,他们希望将Thermometer适应于更复杂的文本生成任务,并将该技术应用于更大的LLM。研究人员还希望量化训练Thermometer模型所需的标记数据集的多样性和数量,以便它能够泛化到新任务。

这项研究部分得到了MIT-IBM沃森人工智能实验室的资助。