将“Combining next-token prediction and video diffusion in computer vision and robotics”翻译成中文为：“在计算机视觉和机器人领域结合下一个标记预测和视频扩散”。

在当前的人工智能潮流中，序列模型因其分析数据和预测下一步行动的能力而迅速流行。例如，您可能使用过像ChatGPT这样的下一个标记预测模型，它预测序列中的每个单词（标记），以形成对用户查询的回答。还有像Sora这样的全序列扩散模型，它通过逐步“去噪”整个视频序列，将单词转换为令人惊叹的逼真视觉效果。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员提出了一种简单的变化，旨在使这种序列去噪变得更加灵活。

在计算机视觉和机器人等领域应用时，下一个标记和全序列扩散模型存在能力权衡。下一个标记模型可以生成长度各异的序列。然而，它们在生成这些序列时并不知道远期的理想状态——例如，如何将其序列生成引导到距离目标10个标记的某个目标——因此需要额外的机制进行长远（长期）规划。扩散模型可以执行这种未来条件采样，但缺乏下一个标记模型生成可变长度序列的能力。

CSAIL的研究人员希望结合这两种模型的优点，因此他们创建了一种名为“扩散强制”的序列模型训练技术。这个名字源于“教师强制”，即将全序列生成分解为下一个标记生成的较小、较简单步骤的传统训练方案（就像一个好老师简化复杂概念一样）。

播放视频

扩散强制
视频：麻省理工学院 CSAIL

扩散强制在扩散模型和教师强制之间找到了共同点：它们都使用涉及从未遮蔽的标记预测遮蔽（噪声）标记的训练方案。在扩散模型的情况下，它们逐渐向数据中添加噪声，这可以视为分数遮蔽。麻省理工学院研究人员的扩散强制方法训练神经网络清理一组标记，在每个标记中去除不同量的噪声，同时预测接下来的几个标记。结果是：一个灵活、可靠的序列模型，产生了更高质量的人工视频和更精确的机器人和人工智能代理决策。

通过筛选噪声数据并可靠地预测任务中的下一步，扩散强制可以帮助机器人忽略视觉干扰以完成操作任务。它还可以生成稳定且一致的视频序列，甚至可以引导人工智能代理穿越数字迷宫。这种方法可能使家庭和工厂机器人能够推广到新任务，并改善人工智能生成的娱乐内容。

“序列模型旨在以已知的过去为条件，预测未知的未来，这是一种二元遮蔽。然而，遮蔽不必是二元的，”首席作者、麻省理工学院电气工程与计算机科学（EECS）博士生及CSAIL成员陈博元说。“通过扩散强制，我们为每个标记添加不同级别的噪声，有效地充当一种分数遮蔽。在测试时，我们的系统可以‘解遮蔽’一组标记，并在较低噪声水平下扩散近期的序列。它知道在其数据中信任什么，以克服分布外输入。”

在几次实验中，扩散强制在执行任务时成功忽略误导性数据，同时预测未来的行动。

例如，当应用于一个机器人手臂时，它帮助在三个圆形垫子上交换两个玩具水果，这是一个需要记忆的长远任务的最小示例。研究人员通过在虚拟现实中远程控制（或遥控）机器人来训练它。机器人被训练模仿用户从其摄像头的动作。尽管从随机位置开始，并看到像购物袋遮挡标记这样的干扰，它仍然将物体放入目标位置。

为了生成视频，他们在“Minecraft”游戏玩法和在谷歌的DeepMind Lab Simulator中创建的多彩数字环境上训练了扩散强制。当给定一帧镜头时，该方法生成的稳定性和高分辨率视频优于类似的基线，如Sora类的全序列扩散模型和ChatGPT类的下一个标记模型。这些方法生成的视频看起来不一致，后者有时在仅生成72帧后就无法生成有效视频。

扩散强制不仅生成精美视频，还可以作为一个运动规划器，朝着期望的结果或奖励引导。得益于其灵活性，扩散强制可以独特地生成具有不同时间范围的计划，执行树搜索，并结合远期未来比近期未来更不确定的直觉。在解决二维迷宫的任务中，扩散强制通过生成更快的计划以达到目标位置，超越了六个基线，表明它可能成为未来机器人有效的规划者。

在每个演示中，扩散强制充当全序列模型、下一个标记预测模型或两者兼而有之。根据陈的说法，这种多功能的方法可能成为“世界模型”的强大支柱，这是一种可以通过训练数十亿个互联网视频来模拟世界动态的人工智能系统。这将使机器人能够通过想象他们需要根据周围环境做什么来执行新任务。例如，如果您要求一个机器人在没有接受过如何做的训练的情况下打开一扇门，该模型可以生成一个视频，向机器展示如何做到这一点。

该团队目前正在寻求将其方法扩展到更大的数据集和最新的变换器模型，以提高性能。他们打算扩大他们的工作，构建一个类似ChatGPT的机器人大脑，帮助机器人在新环境中执行任务，而无需人类演示。

“通过扩散强制，我们正在朝着将视频生成和机器人技术更紧密结合迈出一步，”资深作者、麻省理工学院助理教授及CSAIL成员文森特·西茨曼说，他领导场景表示小组。“最终，我们希望利用互联网上存储的所有视频知识，使机器人能够在日常生活中提供帮助。还有许多更令人兴奋的研究挑战，例如机器人如何通过观察人类来学习模仿，即使它们自己的身体与我们大相径庭！”

陈和西茨曼与最近的麻省理工学院访问研究员迭戈·马尔蒂·蒙索，以及CSAIL成员：EECS研究生杜怡伦、前博士后及即将成为卡内基梅隆大学助理教授的马克斯·辛克维茨，以及麻省理工学院电气工程与计算机科学、航空航天与机械工程的丰田教授、丰田研究所机器人研究副总裁拉斯·泰德雷克共同撰写了论文。他们的工作部分得到了美国国家科学基金会、新加坡国防科学与技术局、美国内政部的情报高级研究项目活动和亚马逊科学中心的支持。他们将在12月的NeurIPS会议上展示他们的研究。

相关文章

“据称，人工智能和机器人被用于欺诈性地提升音乐播放量”

微软详细介绍了“Skeleton Key”人工智能越狱。

像人类大脑一样，大型语言模型以一种普遍的方式对多样的数据进行推理。

“让人工智能用简单的语言解释其预测”