深度神经网络作为人类听觉模型显示出潜力。

模仿人类听觉系统的结构和功能的计算模型可以帮助研究人员设计更好的助听器、人工耳蜗和脑机接口。麻省理工学院的一项新研究发现,基于机器学习的现代计算模型正朝着这个目标迈进。

在迄今为止最大规模的深度神经网络进行听觉任务训练的研究中,麻省理工学院的团队发现,大多数这些模型生成的内部表示与人类大脑在听相同声音时的表示具有相似的特性。

该研究还提供了关于如何最佳训练这种类型模型的见解:研究人员发现,训练包括背景噪声的听觉输入的模型更接近于人类听觉皮层的激活模式。

“这项研究的独特之处在于,它是迄今为止对这些模型与听觉系统进行的最全面的比较。研究表明,基于机器学习的模型是朝着正确方向迈进的一步,并且它给我们一些线索,说明什么倾向于使它们成为更好的大脑模型,”麻省理工学院的脑与认知科学副教授、麻省理工学院麦戈文脑研究所和大脑、思维与机器中心成员、该研究的高级作者Josh McDermott说。

麻省理工学院的研究生Greta Tuckute和Jenelle Feather博士是这篇开放获取的论文的第一作者,该论文于今天发表在《PLOS Biology》上。

听觉模型

深度神经网络是一种由许多层信息处理单元组成的计算模型,可以通过大量数据进行训练以执行特定任务。这种类型的模型已经广泛应用于许多应用领域,神经科学家们开始探索这些系统是否也可以用来描述人脑执行某些任务的方式。

“这些通过机器学习构建的模型能够在一个尺度上介导行为,这在以前的模型类型中是不可能的,这引起了人们对这些模型中的表示是否能够捕捉到大脑中发生的事情的兴趣,”Tuckute说。

当神经网络执行任务时,其处理单元对每个接收到的音频输入(如单词或其他类型的声音)生成激活模式。这些模型对输入的表示可以与人类听相同输入时的fMRI脑扫描中观察到的激活模式进行比较。

2018年,McDermott和当时的研究生Alexander Kell报告称,当他们训练神经网络执行听觉任务(如从音频信号中识别单词)时,模型生成的内部表示与人类听相同声音时fMRI扫描中观察到的表示相似。

此后,这些类型的模型已经广泛应用,因此McDermott的研究小组着手评估更大规模的模型集合,以查看这些模型是否能够近似人脑中观察到的神经表示是这些模型的一般特征。

在这项研究中,研究人员分析了九个公开可用的深度神经网络模型,这些模型已经被训练用于执行听觉任务,并且他们还基于两种不同的架构创建了14个自己的模型。这些模型中的大多数是针对单一任务进行训练的,如识别单词、识别说话者、识别环境声音和识别音乐风格,而其中两个模型则是针对多个任务进行训练的。

当研究人员向这些模型呈现用作人类fMRI实验刺激的自然声音时,他们发现内部模型表示往往与人脑生成的表示相似。那些与大脑中观察到的表示最相似的模型是那些在多个任务上进行训练并且训练包括背景噪声的模型。

“如果你在噪声中训练模型,它们会比不训练的模型给出更好的大脑预测结果,这在直观上是合理的,因为很多现实世界的听觉都涉及到在噪声中听,这可能是听觉系统适应的一种情况,”Feather说。

分层处理

这项新研究还支持人类听觉皮层具有一定程度的分层组织的观点,其中处理被划分为支持不同计算功能的阶段。与2018年的研究一样,研究人员发现,在模型的早期阶段生成的表示最接近于主要听觉皮层中观察到的表示,而在后期模型阶段生成的表示更接近于主要皮层以外的脑区生成的表示。

此外,研究人员发现,训练于不同任务的模型在复制听觉的不同方面上更好。例如,训练于与语音相关的任务的模型更接近于选择性语音区域。

“即使模型看到了完全相同的训练数据并且架构也是相同的,当你针对一个特定任务进行优化时,你可以看到它有选择性地解释了大脑中的特定调谐特性,”Tuckute说。

McDermott的实验室现在计划利用他们的发现来尝试开发更成功地复制人脑反应的模型。除了帮助科学家们更多地了解大脑的组织方式外,这样的模型还可以用于帮助开发更好的助听器、人工耳蜗和脑机接口。

“我们领域的一个目标是最终拥有一个能够预测大脑反应和行为的计算机模型。我们认为,如果我们能够成功实现这个目标,将会打开很多大门,”McDermott说。

该研究得到了美国国立卫生研究院、科学中心的亚马逊奖学金、美国大学妇女协会的国际博士奖学金、麻省理工学院麦戈文研究所朋友奖学金、麻省理工学院K. Lisa Yang综合计算神经科学中心的奖学金以及美国能源部计算科学研究生奖学金的资助。