大型语言模型的推理能力经常被高估。

当涉及到人工智能时,外表可能会欺骗人。大型语言模型(LLMs)内部运作的神秘性源于它们庞大的规模、复杂的训练方法、难以预测的行为和难以解释的可解释性。

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员最近通过放大镜来研究LLMs在不同任务变体中的表现,揭示了记忆和推理能力之间的相互作用的有趣见解。结果发现,人们经常高估它们的推理能力。

该研究将模型在“默认任务”(模型接受训练和测试的常见任务)与“反事实场景”(假设与默认条件不同的情况)进行了比较,GPT-4和Claude等模型通常可以应对反事实场景。研究人员通过调整现有任务而不是创建全新任务,开发了一些超出模型舒适区的测试。他们使用了各种数据集和基准,专门针对模型能力的不同方面,如算术、国际象棋、代码评估、回答逻辑问题等。

当用户与语言模型进行交互时,任何算术通常都是以十进制进行的,这是模型熟悉的数字进制。但是,观察到它们在十进制上表现良好可能会给我们一种错误的印象,认为它们在加法方面具有很强的能力。从逻辑上讲,如果它们真的具有良好的加法能力,你会期望它们在所有数字进制上都能表现出可靠的高性能,就像计算器或计算机一样。事实上,研究表明,这些模型并不像许多人最初认为的那样稳健。它们的高性能仅限于常见任务变体,并且在不熟悉的反事实场景中表现出持续且严重的性能下降,表明它们缺乏可推广的加法能力。

这种模式在许多其他任务中也成立,例如音乐和弦指法、空间推理,甚至是国际象棋问题,其中棋子的初始位置稍作改变。虽然人类玩家预计仍能够在改变的情况下确定移动的合法性(如果给予足够的时间),但模型却很困难,无法比随机猜测更好地表现,这意味着它们在面对不熟悉的情况时能力有限。而它们在标准任务上的表现很大程度上可能不是由于一般任务能力,而是由于过度拟合或直接记忆训练数据。

“我们发现了大型语言模型的一个有趣方面:它们在熟悉的情景中表现出色,几乎像一条熟悉的路径,但在面对不熟悉的情况时却很困难。这一洞察对于我们努力提高这些模型的适应性和拓宽应用领域至关重要,”麻省理工学院电气工程和计算机科学专业的博士生、CSAIL成员、该研究的主要作者吴兆峰说道。他还表示:“随着人工智能在我们的社会中越来越普及,它必须可靠地处理各种情况,无论是熟悉的还是不熟悉的。我们希望这些见解将来能够指导未来设计具有改进鲁棒性的LLMs。”

尽管获得了这些见解,当然还存在一些限制。该研究专注于特定任务和设置,并未涵盖模型在现实应用中可能遇到的全部挑战,这表明需要更多样化的测试环境。未来的工作可能涉及扩大任务和反事实条件的范围,以发现更多潜在的弱点。这可能意味着研究更复杂、不常见的情景。该团队还希望通过创建方法来更好地理解模型决策过程的原理,从而提高可解释性。

“随着语言模型的扩大,即使对于开放模型来说,理解它们的训练数据也变得越来越具有挑战性,更不用说专有模型了,”伊利诺伊大学香槟分校助理教授郝鹏说道。“关于这些模型是否真正推广到未见任务,或者似乎通过记忆训练数据而成功,社区仍然困惑不解。这篇论文在解决这个问题上取得了重要进展。它构建了一套精心设计的反事实评估,为最先进的LLMs的能力提供了新的见解。它揭示了它们解决未见任务的能力可能比许多人预期的要有限得多。它有潜力激发未来研究,以识别当今模型的失败模式并开发更好的模型。”

其他作者包括波士顿大学助理教授、谷歌访问研究员Najoung Kim,以及七位CSAIL成员:麻省理工学院电气工程和计算机科学专业(EECS)的博士生Linlu Qiu、Alexis Ross、Ekin Akyürek SM ’21和Boyuan Chen;前博士后和苹果AI/ML研究员Bailin Wang;以及EECS助理教授Jacob Andreas和Yoon Kim。

该团队的研究得到了麻省理工学院-IBM沃森人工智能实验室、麻省理工学院智能探索计划和美国国家科学基金会的部分支持。该团队在上个月的北美计算语言学协会(NAACL)会议上展示了这项工作。