尽管生成性人工智能的输出令人印象深刻,但它对世界并没有一个连贯的理解。

大型语言模型可以做令人印象深刻的事情,比如写诗或生成可行的计算机程序,尽管这些模型是通过预测文本中下一个单词来进行训练的。

这种令人惊讶的能力让人觉得这些模型似乎在隐含地学习一些关于世界的普遍真理。

但根据一项新的研究,这并不一定是事实。研究人员发现,一种流行的生成性人工智能模型可以在纽约市提供几乎完美的逐步驾驶指引——而无需形成准确的城市内部地图。

尽管该模型在有效导航方面表现出色,但当研究人员关闭了一些街道并增加了绕行时,其表现急剧下降。

深入研究后,研究人员发现该模型隐含生成的纽约地图上有许多不存在的街道在网格之间弯曲,并连接远处的交叉口。

这可能对在现实世界中部署的生成性人工智能模型产生严重影响,因为在一个环境中表现良好的模型可能在任务或环境稍有变化时崩溃。

“一个希望是,由于大型语言模型可以在语言中完成所有这些惊人的事情,也许我们可以在科学的其他领域使用这些相同的工具。但如果我们想利用这些技术进行新的发现,是否大型语言模型正在学习一致的世界模型是一个非常重要的问题,”资深作者、麻省理工学院信息与决策系统实验室(LIDS)助理教授Ashesh Rambachan说。

Rambachan在一篇关于该工作的论文中与首席作者、哈佛大学的博士后Keyon Vafa;麻省理工学院电气工程与计算机科学(EECS)研究生Justin Y. Chen;康奈尔大学计算机科学与信息科学的Tisch大学教授Jon Kleinberg;以及麻省理工学院EECS和经济学系的教授、LIDS成员Sendhil Mullainathan共同合作。该研究将在神经信息处理系统会议上展示。

新指标

研究人员专注于一种称为变换器的生成性人工智能模型,这种模型构成了像GPT-4这样的LLM的基础。变换器在大量基于语言的数据上进行训练,以预测序列中的下一个标记,例如句子中的下一个单词。

但如果科学家想确定一个大型语言模型是否形成了准确的世界模型,仅仅测量其预测的准确性是不够的,研究人员表示。

例如,他们发现变换器几乎每次都能预测Connect 4游戏中的有效移动,而不理解任何规则。

因此,团队开发了两个新的指标来测试变换器的世界模型。研究人员将评估集中在一种称为确定性有限自动机(DFA)的问题类别上。

DFA是一个具有状态序列的问题,例如必须经过的交叉口以到达目的地,以及描述沿途必须遵循的规则的具体方式。

他们选择了两个问题来构建为DFA:在纽约市的街道上导航和玩棋盘游戏Othello。

“我们需要测试平台,在这些平台上我们知道世界模型是什么。现在,我们可以严格思考恢复该世界模型意味着什么,”Vafa解释道。

他们开发的第一个指标称为序列区分,表示如果模型看到两个不同的状态,例如两个不同的Othello棋盘,并识别它们的不同,则该模型形成了一致的世界模型。序列,即有序的数据点列表,是变换器生成输出所使用的。

第二个指标称为序列压缩,表示具有一致世界模型的变换器应该知道两个相同的状态,例如两个相同的Othello棋盘,具有相同的可能下一步序列。

他们使用这些指标测试了两种常见的变换器类别,一种是在随机生成的序列数据上训练的,另一种是在遵循策略生成的数据上训练的。

不一致的世界模型

令人惊讶的是,研究人员发现随机做出选择的变换器形成了更准确的世界模型,这可能是因为它们在训练期间看到了更广泛的潜在下一步。

“在Othello中,如果你看到两个随机计算机在玩,而不是冠军选手,从理论上讲,你会看到所有可能移动的完整集合,甚至是冠军选手不会做的糟糕移动,”Vafa解释道。

尽管变换器在几乎每种情况下生成了准确的方向和有效的Othello移动,但这两个指标显示,只有一个生成了Othello移动的一致世界模型,而在导航示例中没有一个表现良好。

研究人员通过在纽约市的地图上添加绕行来展示这一点,这导致所有导航模型失败。

“我对一添加绕行后性能迅速下降感到惊讶。如果我们关闭仅1%的可能街道,准确性立即从近100%下降到仅67%,”Vafa说。

当他们恢复模型生成的城市地图时,这些地图看起来像是一个想象中的纽约市,数百条街道交错在网格上方。地图上经常包含随机的飞越其他街道或多个方向不可能的街道。

这些结果表明,变换器在某些任务上可以表现得相当好,而不理解规则。如果科学家想构建能够捕捉准确世界模型的LLM,他们需要采取不同的方法,研究人员表示。

“我们常常看到这些模型做出令人印象深刻的事情,并认为它们一定理解了某些关于世界的东西。我希望我们能说服人们,这是一个需要非常仔细思考的问题,我们不必依赖自己的直觉来回答它,”Rambachan说。

未来,研究人员希望解决更广泛的问题,例如一些规则仅部分已知的问题。他们还希望将他们的评估指标应用于现实世界的科学问题。

这项工作部分由哈佛数据科学倡议、国家科学基金会研究生研究奖学金、Vannevar Bush教员奖学金、Simons合作项目资助和麦克阿瑟基金会的资助支持。