新算法通过观看视频来发现语言

麻省理工学院(MIT)电气工程和计算机科学博士生、麻省理工学院计算机科学与人工智能实验室(CSAIL)的成员马克·汉密尔顿(Mark Hamilton)希望利用机器来理解动物之间的交流。为了实现这一目标,他首先着手创建了一个可以“从零开始”学习人类语言的系统。

“有趣的是,灵感的关键时刻来自电影《企鹅之歌》。电影中有一个场景,一只企鹅在穿越冰面时摔倒了,起身时发出了一声吃力的呻吟。当你看到这一幕时,几乎可以肯定这个呻吟代表了一个四个字母的词。这一刻我们想到,也许我们需要使用音频和视频来学习语言,”汉密尔顿说。“我们是否可以让算法整天观看电视,从中了解我们在谈论什么?”

“我们的模型‘DenseAV’旨在通过预测听到的声音来理解所看到的内容,反之亦然。例如,如果你听到有人说“在350度烘烤蛋糕”,你很可能会看到一个蛋糕或一个烤箱。为了在数百万个视频中成功进行这种音视频匹配游戏,模型必须学会人们在谈论什么,”汉密尔顿说。

在将DenseAV训练成这种匹配游戏之后,汉密尔顿和他的同事们研究了当听到声音时模型寻找的像素。例如,当有人说“狗”时,算法立即开始在视频流中寻找狗。通过观察算法选择的像素,可以发现算法认为一个词的含义。

有趣的是,当DenseAV听到狗叫时,它也会在视频流中寻找狗。“这引起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗的叫声之间的区别,”汉密尔顿说。团队通过给DenseAV一个“双面大脑”来探索这个问题。有趣的是,他们发现DenseAV的一侧自然而然地专注于语言,比如“狗”这个词,而另一侧则专注于狗叫声。这表明DenseAV不仅学会了词的含义和声音的位置,还学会了区分这些类型的跨模态连接,而无需人为干预或任何关于书面语言的知识。

应用的一个分支是从每天发布到互联网上的大量视频中学习:“我们希望系统能够从大量的视频内容中学习,比如教学视频,”汉密尔顿说。“另一个令人兴奋的应用是理解没有书面交流形式的新语言,比如海豚或鲸鱼的交流。我们希望DenseAV能帮助我们理解这些从一开始就逃避了人类翻译努力的语言。最后,我们希望这种方法能够用于发现其他信号对之间的模式,比如地球发出的地震声和地质学之间的关系。”

团队面临着一个艰巨的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从一个空白的状态重新发现语言的含义,避免使用预训练的语言模型。这种方法受到了儿童通过观察和倾听环境来理解语言的启发。

为了实现这一壮举,DenseAV使用两个主要组件分别处理音频和视觉数据。这种分离使算法无法作弊,让视觉部分看到音频,反之亦然。它迫使算法识别对象,并为音频和视觉信号创建详细而有意义的特征。DenseAV通过比较音频和视觉信号对来找到匹配和不匹配的信号。这种称为对比学习的方法不需要标记的示例,并且允许DenseAV找出语言本身的重要预测模式。

DenseAV与以往算法的一个主要区别是,以前的工作集中在声音和图像之间的单一相似性概念上。例如,整个音频片段,比如有人说“狗坐在草地上”,与整个狗的图像匹配。这不允许以前的方法发现细粒度的细节,比如“草地”和狗下面的草之间的联系。团队的算法搜索并聚合了音频片段和图像像素之间的所有可能匹配。这不仅提高了性能,还使团队能够精确定位声音,以前的算法无法做到。“传统方法使用单一的类令牌,但我们的方法比较每个像素和每秒的声音。这种细粒度的方法让DenseAV能够建立更详细的连接,以实现更好的定位,”汉密尔顿说。

研究人员在AudioSet上训练了DenseAV,其中包括200万个YouTube视频。他们还创建了新的数据集来测试模型在链接声音和图像方面的表现。在这些测试中,DenseAV在识别对象和声音的任务中优于其他顶级模型,证明了其有效性。“以前的数据集只支持粗略评估,所以我们使用语义分割数据集创建了一个数据集。这有助于像素级别的精确评估我们模型的性能。我们可以用特定的声音或图像提示算法,并获得这些详细的定位,”汉密尔顿说。

由于涉及的数据量巨大,该项目耗时约一年才完成。团队表示,转向大型Transformer架构带来了挑战,因为这些模型往往会忽视细粒度的细节。鼓励模型关注这些细节是一个重要的障碍。

展望未来,团队的目标是创建能够从大量的仅视频或仅音频数据中学习的系统。这对于存在大量其中一种模式但不同时存在的新领域至关重要。他们还计划使用更大的主干网络并可能整合语言模型的知识来扩展这一方法的规模和提高性能。

“在图像中识别和分割视觉对象,以及在音频记录中识别和分割环境声音和口语词汇,每个问题本身都很困难。历史上,研究人员依靠昂贵的人工提供的注释来训练机器学习模型来解决这些任务,”未参与该工作的德克萨斯大学奥斯汀分校计算机科学助理教授大卫·哈瓦斯(David Harwath)说。“DenseAV通过简单地通过视觉和听觉观察世界,基于我们所看到和互动的事物通常会发出声音,而我们也会用口语来谈论它们的洞察,取得了解决这些任务的学习方法的重大进展。该模型还不对所讲的具体语言做任何假设,因此原则上可以从任何语言的数据中学习。将DenseAV扩展到数千或数百万小时的视频数据以及多种语言将会非常令人兴奋。”

在描述这项工作的一篇论文上的其他作者包括牛津大学计算机视觉工程教授安德鲁·齐瑟曼(Andrew Zisserman)、谷歌AI感知研究员约翰·R·赫尔希(John R. Hershey)和麻省理工学院电气工程和计算机科学教授、CSAIL首席研究员威廉·T·弗里曼(William T. Freeman)。他们的研究得到了美国国家科学基金会、英国皇家学会研究教授职位和EPSRC视觉人工智能计划资助。该研究将在本月的IEEE/CVF计算机视觉与模式识别会议上进行展示。