随着生成性人工智能模型能力的增长,您可能已经看到它们如何将简单的文本提示转化为超现实的图像,甚至是扩展的视频片段。
最近,生成性人工智能在帮助化学家和生物学家探索静态分子(如蛋白质和DNA)方面显示出了潜力。例如,像AlphaFold这样的模型可以预测分子结构,以加速药物发现,而麻省理工学院协助的“RFdiffusion”可以帮助设计新蛋白质。然而,一个挑战是分子不断移动和抖动,这在构建新蛋白质和药物时非常重要。使用物理学在计算机上模拟这些运动——一种称为分子动力学的技术——可能非常昂贵,需要在超级计算机上进行数十亿个时间步的计算。
作为更高效地模拟这些行为的一步,麻省理工学院计算机科学与人工智能实验室(CSAIL)和数学系的研究人员开发了一种从先前数据中学习的生成模型。该团队的系统称为MDGen,可以获取3D分子的一个帧,并模拟接下来会发生什么,就像视频一样,连接不同的静态图像,甚至填补缺失的帧。通过对分子按下“播放按钮”,该工具可能帮助化学家设计新分子,并仔细研究他们的癌症和其他疾病药物原型与其意图影响的分子结构之间的相互作用。
共同首席作者Bowen Jing SM ’22表示,MDGen是一个早期的概念验证,但它暗示了一个令人兴奋的新研究方向的开始。“早期,生成性人工智能模型生成的有些简单的视频,比如一个人眨眼或一只狗摇尾巴,”Jing说,他是CSAIL的博士生。“快进几年,现在我们有了像Sora或Veo这样的惊人模型,可以在各种有趣的方式中发挥作用。我们希望在分子世界中灌输类似的愿景,其中动态轨迹就是视频。例如,您可以给模型第一个和第十个帧,它会动画化中间的内容,或者它可以从分子视频中去除噪声并猜测隐藏的内容。”
研究人员表示,MDGen代表了与之前可比的生成性人工智能工作之间的范式转变,使得更广泛的应用成为可能。之前的方法是“自回归”的,这意味着它们依赖于前一个静态帧来构建下一个,从第一个帧开始创建视频序列。相比之下,MDGen以扩散的方式并行生成帧。这意味着MDGen可以用于,例如,连接端点的帧,或“上采样”低帧率轨迹,除了在初始帧上按下播放按钮。
这项工作在去年12月的神经信息处理系统会议(NeurIPS)上展示的论文中进行了介绍。去年夏天,它在国际机器学习会议的ML4LMS研讨会上因其潜在的商业影响而获奖。
分子动力学的小步前进
在实验中,Jing和他的同事发现,MDGen的模拟与直接运行物理模拟相似,同时生成轨迹的速度是其10到100倍。
团队首先测试了他们模型接收3D分子帧并生成接下来的100纳秒的能力。他们的系统将这些生成的连续10纳秒块拼接在一起,以达到该持续时间。团队发现,MDGen能够与基线模型的准确性竞争,同时在大约一分钟内完成视频生成过程——这只是基线模型模拟相同动态所需的三小时的一小部分。
当给定一个纳秒序列的第一个和最后一个帧时,MDGen也模拟了中间的步骤。研究人员的系统在超过100,000个不同的预测中展示了现实感:它模拟了比基线模型更可能的分子轨迹,尤其是在短于100纳秒的片段中。在这些测试中,MDGen还显示出对未见过的肽的泛化能力。
MDGen的能力还包括在帧内模拟帧,“上采样”每个纳秒之间的步骤,以更充分地捕捉更快的分子现象。它甚至可以“修复”分子的结构,恢复被移除的信息。这些特性最终可能被研究人员用来根据分子不同部分应如何移动的规范设计蛋白质。
玩弄蛋白质动态
Jing和共同首席作者Hannes Stärk表示,MDGen是朝着更高效生成分子动力学的早期进展的迹象。然而,他们缺乏数据,使得这些模型在设计药物或分子方面立即产生影响,尤其是那些能够引发化学家希望在目标结构中看到的运动。
研究人员的目标是将MDGen从建模分子扩展到预测蛋白质如何随时间变化。“目前,我们正在使用玩具系统,”Stärk说,他也是CSAIL的博士生。“为了增强MDGen的预测能力以建模蛋白质,我们需要在当前架构和可用数据的基础上进行改进。我们尚未拥有YouTube规模的这类模拟库,因此我们希望开发一种单独的机器学习方法,以加快我们模型的数据收集过程。”
目前,MDGen为建模肉眼不可见的分子变化提供了一条令人鼓舞的前进道路。化学家还可以利用这些模拟深入研究癌症或结核病等疾病的药物原型的行为。
“从物理模拟中学习的机器学习方法代表了科学领域中人工智能的新兴前沿,”麻省理工学院Simons数学教授、CSAIL首席研究员及论文的资深作者Bonnie Berger说。“MDGen是一个多功能的建模框架,连接了这两个领域,我们非常高兴能分享我们在这个方向上的早期模型。”
“在分子状态之间采样现实的过渡路径是一个重大挑战,”另一位资深作者Tommi Jaakkola说,他是麻省理工学院Thomas Siebel电气工程与计算机科学教授、数据、系统与社会研究所的研究员,以及CSAIL的首席研究员。“这项早期工作展示了我们如何开始通过将生成建模转向完整的模拟运行来解决这些挑战。”
生物信息学领域的研究人员对该系统在模拟分子转化方面的能力给予了高度评价。“MDGen将分子动力学模拟建模为结构嵌入的联合分布,捕捉分子在离散时间步之间的运动,”查尔默斯理工大学副教授Simon Olsson说,他并未参与该研究。“利用掩蔽学习目标,MDGen使得过渡路径采样等创新用例成为可能,类比于修复连接亚稳态的轨迹。”
研究人员在MDGen上的工作部分得到了国家普通医学科学研究所、美国能源部、国家科学基金会、药物发现与合成机器学习联盟、阿卜杜勒·拉蒂夫·贾米尔健康机器学习诊所、国防威胁减少局和国防高级研究计划局的支持。