通过人工语言网络的帮助,麻省理工学院的神经科学家发现了哪种句子最有可能激活大脑的关键语言处理中心。
这项新研究揭示了那些更复杂的句子,无论是因为不寻常的语法还是意义出人意料,都会在这些语言处理中心中产生更强烈的反应。非常直接的句子几乎不会引起这些区域的活动,而无意义的词语序列对它们也没有太大影响。
例如,研究人员发现,当阅读来自公开可用的语言数据集C4的“Buy sell signals remains a particular”等不寻常的句子时,这个大脑网络最活跃。然而,当阅读非常直接的句子,比如“We were sitting on the couch.”时,它变得安静。
“输入必须足够像语言才能引起系统的反应,”麻省理工学院神经科学副教授Evelina Fedorenko说道。“在这个空间内,如果事情处理起来非常容易,那么你的反应就不会太大。但是如果事情变得困难或者令人惊讶,如果有一种不寻常的结构或者一组你可能不太熟悉的词语,那么这个网络就必须更加努力地工作。”
Fedorenko是这项研究的高级作者,该研究今天发表在《自然人类行为》杂志上。麻省理工学院研究生Greta Tuckute是论文的第一作者。
在这项研究中,研究人员专注于大脑左半球中的语言处理区域,包括布洛卡区以及大脑的左额叶和颞叶的其他部分。
“这个语言网络对语言高度选择性,但是要真正弄清楚这些语言区域发生了什么是比较困难的,”Tuckute说。“我们想要发现什么样的句子、什么样的语言输入会驱动左半球的语言网络。”
研究人员首先编制了一个包含来自各种来源的1,000个句子的数据集,包括小说、口语转录、网络文本和科学文章等。
五名人类参与者阅读每个句子,研究人员使用功能性磁共振成像(fMRI)测量他们的语言网络活动。然后,研究人员将这些1,000个句子输入到一个大型语言模型中,该模型类似于ChatGPT,它通过预测大量文本中的下一个词来学习生成和理解语言,并测量模型对每个句子的激活模式。
一旦获得了所有这些数据,研究人员训练了一个称为“编码模型”的映射模型,它将人脑中观察到的激活模式与人工语言模型中观察到的激活模式相关联。一旦训练完成,该模型可以根据人工语言网络对这1,000个句子的反应来预测人类语言网络对任何新句子的反应。
然后,研究人员使用编码模型识别出500个新句子,这些句子会在人脑中产生最大的活动(“驱动”句子),以及会在大脑语言网络中引起最小活动的句子(“抑制”句子)。
在另外三名新的人类参与者中,研究人员发现这些新句子确实按照预测驱动和抑制了大脑活动。
“这种在语言处理过程中对大脑活动的‘闭环’调节是新颖的,”Tuckute说。“我们的研究表明,我们使用的模型(将语言模型的激活与大脑反应相关联)足够准确。这是首次在涉及高级认知的大脑区域,如语言网络中展示这种方法的示范。”
为了弄清楚是什么使某些句子比其他句子更能激活大脑活动,研究人员根据11个不同的语言属性对句子进行了分析,包括语法性、可信度、情感价值(积极或消极)以及句子内容的可视化难度。
对于每个属性,研究人员请众包平台的参与者对句子进行评分。他们还使用一种计算技术来量化每个句子的“惊讶度”,即与其他句子相比的不寻常程度。
这项分析揭示了惊讶度较高的句子在大脑中产生更高的反应。研究人员表示,这与之前的研究一致,显示人们在处理惊讶度较高的句子时更加困难。
与语言网络的反应相关的另一个语言属性是语言复杂性,它通过句子遵循英语语法的程度以及句子的可信度来衡量,即内容除了语法之外是否有意义。
处于两个极端的句子,要么非常简单,要么非常复杂以至于毫无意义,都在语言网络中引起了很少的激活。最大的反应来自那些有一定意义但需要努力理解的句子,比如来自现代美国英语语料库的“Jiffy Lube of — of therapies, yes”。
“我们发现,引起最高脑反应的句子具有奇怪的语法结构和/或奇怪的意义,”Fedorenko说。“这些句子稍微有些不寻常。”
研究人员现在计划看看他们是否可以将这些发现扩展到英语以外的语言使用者。他们还希望探索什么类型的刺激可以激活大脑右半球的语言处理区域。
这项研究得到了科学中心的亚马逊奖学金、美国大学女协会的国际博士奖学金、麻省理工学院-IBM沃森人工智能实验室、美国国立卫生研究院、麻省理工学院脑研究所、社会大脑西蒙斯中心以及麻省理工学院脑与认知科学系的资助。