尽管大型语言模型具有令人印象深刻的能力,但它们远非完美。这些人工智能模型有时会“幻觉”,即在回应查询时生成不正确或不支持的信息。
由于这一幻觉问题,LLM的回应通常需要人类事实核查员进行验证,特别是在医疗或金融等高风险环境中部署模型时。然而,验证过程通常需要人们阅读模型引用的长文档,这一任务繁重且容易出错,可能会阻止一些用户首次使用生成式AI模型。
为了帮助人类验证者,麻省理工学院的研究人员创建了一个用户友好的系统,使人们能够更快地验证LLM的回应。这个工具名为SymGen,LLM生成的回应带有引用,直接指向源文档中的位置,例如数据库中的特定单元格。
用户将鼠标悬停在其文本回应的高亮部分上,以查看模型用于生成特定单词或短语的数据。同时,未高亮的部分则显示哪些短语需要额外关注以进行检查和验证。
“我们赋予人们选择性关注他们需要更担心的文本部分的能力。最终,SymGen可以让人们对模型的回应更有信心,因为他们可以轻松地仔细查看以确保信息经过验证,”电气工程和计算机科学研究生、SymGen论文的共同第一作者Shannon Shen说。
通过一项用户研究,Shen和他的合作者发现,与手动程序相比,SymGen将验证时间缩短了约20%。通过使人类验证模型输出的过程更快更容易,SymGen可以帮助人们识别在各种现实场景中部署的LLM中的错误,从生成临床记录到总结金融市场报告。
Shen的论文合作者包括共同第一作者和同为EECS研究生的Lucas Torroba Hennigen;EECS研究生Aniruddha “Ani” Nrusimha;Good Data Initiative的主席Bernhard Gapp;以及高级作者David Sontag,他是EECS教授、麻省理工学院Jameel Clinic的成员,以及计算机科学与人工智能实验室(CSAIL)临床机器学习组的负责人;还有Yoon Kim,EECS助理教授及CSAIL成员。该研究最近在语言建模会议上进行了展示。
符号引用
为了帮助验证,许多LLM被设计为生成引用,指向外部文档,以及它们的基于语言的回应,以便用户进行检查。然而,这些验证系统通常被设计为事后考虑,没有考虑到人们在筛选众多引用时所需的努力,Shen说。
“生成式AI旨在减少用户完成任务的时间。如果你需要花费数小时阅读所有这些文档以验证模型所说的内容是否合理,那么在实践中生成的内容就没有那么有帮助,”Shen说。
研究人员从将要进行工作的人的角度来解决验证问题。
SymGen用户首先向LLM提供可以在其回应中引用的数据,例如包含篮球比赛统计的表格。然后,研究人员并不是立即要求模型完成任务,比如从这些数据生成比赛摘要,而是执行一个中间步骤。他们提示模型以符号形式生成其回应。
通过这个提示,每当模型想要在其回应中引用单词时,它必须写出包含所引用信息的数据表中的特定单元格。例如,如果模型想在其回应中引用短语“波特兰开拓者”,它将用数据表中包含这些词的单元格名称替换该文本。
“因为我们有这个中间步骤,文本以符号格式呈现,我们能够拥有非常细致的引用。我们可以说,对于输出中的每一个文本跨度,这正是它在数据中对应的位置,”Torroba Hennigen说。
SymGen然后使用基于规则的工具解析每个引用,将数据表中相应的文本复制到模型的回应中。
“这样,我们知道这是逐字复制,因此我们知道与实际数据变量对应的文本部分不会有任何错误,”Shen补充道。
简化验证
模型能够创建符号回应是因为它的训练方式。大型语言模型从互联网上获取大量数据,其中一些数据以“占位符格式”记录,代码替代实际值。
当SymGen提示模型生成符号回应时,它使用类似的结构。
“我们以特定方式设计提示,以利用LLM的能力,”Shen补充道。
在一项用户研究中,大多数参与者表示SymGen使验证LLM生成的文本变得更容易。他们能够比使用标准方法快约20%验证模型的回应。
然而,SymGen受到源数据质量的限制。LLM可能引用错误的变量,而人类验证者可能对此毫不知情。
此外,用户必须拥有结构化格式的源数据,例如表格,以输入到SymGen中。目前,该系统仅适用于表格数据。
展望未来,研究人员正在增强SymGen,使其能够处理任意文本和其他形式的数据。具备这一能力后,它可以帮助验证AI生成的法律文件摘要的部分内容。例如,他们还计划与医生测试SymGen,以研究它如何识别AI生成的临床摘要中的错误。
这项工作部分由Liberty Mutual和麻省理工学院智能探索计划资助。