互联网上充斥着各种教学视频,可以教会好奇的观众从煎制完美的煎饼到执行救命的海姆立克急救法。
但是,在长视频中准确定位特定动作发生的时间和地点可能很繁琐。为了简化这个过程,科学家们正在尝试教会计算机执行这个任务。理想情况下,用户只需描述他们正在寻找的动作,人工智能模型就会跳转到视频中的相应位置。
然而,教会机器学习模型做到这一点通常需要大量昂贵的视频数据,这些数据经过了费力的手工标注。
麻省理工学院(MIT)和MIT-IBM沃森人工智能实验室的研究人员提出了一种新的更高效的方法,只使用视频和自动生成的文字转录来训练模型执行这个任务,即时空定位。
研究人员以两种不同的方式教会模型理解未标记的视频:通过观察细节来确定物体的位置(空间信息),通过观察整体来理解动作发生的时间(时间信息)。
与其他人工智能方法相比,他们的方法更准确地识别长视频中的多个活动中的动作。有趣的是,他们发现同时在空间和时间信息上进行训练使模型更擅长分别识别每个信息。
除了简化在线学习和虚拟培训过程外,这种技术在医疗保健领域也可能非常有用,例如在诊断过程的视频中快速找到关键时刻。
“我们将试图同时编码空间和时间信息的挑战分解为两个专家各自独立工作的方式,这实际上是一种更明确的编码信息的方式。我们的模型将这两个独立分支结合起来,可以获得最佳性能,”这项技术的主要作者布莱恩·陈(Brian Chen)说。
陈是哥伦比亚大学2023届毕业生,他在访问麻省理工学院-IBM沃森人工智能实验室期间进行了这项研究。该论文的合著者还包括詹姆斯·格拉斯(James Glass),他是麻省理工学院-IBM沃森人工智能实验室的高级研究科学家,计算机科学与人工智能实验室(CSAIL)口语语言系统组的负责人;希尔德·库恩(Hilde Kuehne),她是麻省理工学院-IBM沃森人工智能实验室的成员,也是法兰克福歌德大学的成员;以及麻省理工学院、歌德大学、麻省理工学院-IBM沃森人工智能实验室和Quality Match GmbH的其他人员。这项研究将在计算机视觉和模式识别会议上进行展示。
全局和局部学习
研究人员通常使用人类标注特定任务的开始和结束时间的视频来教授模型执行时空定位。
生成这些数据不仅昂贵,而且人类往往很难确定准确的标注内容。如果动作是“煎煎饼”,那么这个动作是从厨师开始搅拌面糊还是倒入平底锅时开始?
“这一次,任务可能是关于烹饪,但下一次可能是关于修理汽车。人们可以为许多不同领域进行标注。但是,如果我们可以在没有标签的情况下学习所有内容,那将是一个更通用的解决方案,”陈说。
对于他们的方法,研究人员使用未标记的教学视频和来自YouTube等网站的文字转录作为训练数据。这些数据不需要任何特殊准备。
他们将训练过程分为两个部分。首先,他们教会机器学习模型观察整个视频,理解在特定时间发生的动作。这种高级信息称为全局表示。
其次,他们教会模型专注于视频中发生动作的特定区域。例如,在一个大厨房中,模型可能只需要关注厨师用来搅拌煎饼面糊的木勺,而不是整个柜台。这种细粒度的信息称为局部表示。
研究人员在他们的框架中加入了一个额外的组件,以减轻叙述和视频之间发生的不对齐问题。也许厨师先谈论煎饼的烹饪方法,然后再执行动作。
为了开发一个更真实的解决方案,研究人员专注于几分钟长的未剪辑视频。相比之下,大多数人工智能技术使用几秒钟的剪辑片段进行训练,这些片段是由某人剪辑出来只显示一个动作。
新的基准
但是,当他们来评估他们的方法时,研究人员发现没有一个有效的基准来测试模型在这些更长的未剪辑视频上的表现,因此他们创建了一个。
为了构建他们的基准数据集,研究人员设计了一种适用于识别多步骤动作的新的注释技术。他们让用户标记物体的交叉点,例如刀刃切割番茄的点,而不是在重要物体周围画框。
“这样定义更明确,可以加快注释过程,减少人力和成本,”陈说。
此外,多个人对同一视频进行点注释可以更好地捕捉随时间发生的动作,例如倒牛奶的流动。所有注释者不会在液体流动中标记相同的点。
当他们使用这个基准来测试他们的方法时,研究人员发现它在准确定位动作方面比其他人工智能技术更准确。
他们的方法在关注人物与物体的互动方面也更好。例如,如果动作是“上菜煎饼”,许多其他方法可能只关注关键物体,如放在柜台上的一堆煎饼。相反,他们的方法关注的是厨师将煎饼翻到盘子上的实际时刻。
现有方法严重依赖于人类标记的数据,因此不太可扩展。这项工作通过提供使用自然发生的语音来定位时空事件的新方法,从而在一定程度上解决了这个问题。这种类型的数据是无处不在的,理论上它将是一个强大的学习信号。然而,它通常与屏幕上的内容无关,使其难以在机器学习系统中使用。这项工作有助于解决这个问题,使研究人员更容易在未来创建使用这种形式的多模态数据的系统,”与此工作无关的密歇根大学电气工程和计算机科学助理教授安德鲁·欧文斯(Andrew Owens)说。
接下来,研究人员计划改进他们的方法,使模型能够自动检测文本和叙述不对齐的情况,并从一种模态切换到另一种模态。他们还希望将他们的框架扩展到音频数据,因为动作和物体发出的声音通常存在强烈的相关性。
“人工智能研究在创建像ChatGPT这样理解图像的模型方面取得了令人难以置信的进展。但是我们在理解视频方面的进展远远落后。这项工作代表了在这个方向上的重要进展,”波士顿大学计算机科学系教授凯特·赛恩科(Kate Saenko)说,她与这项工作无关。
这项研究部分由MIT-IBM沃森人工智能实验室资助。