麻省理工学院的科学家们发布了一种强大的开源人工智能模型,名为Boltz-1,这可能会显著加速生物医学研究和药物开发。
Boltz-1由麻省理工学院Jameel健康机器学习中心的研究团队开发,是第一个在AlphaFold3水平上实现最先进性能的完全开源模型。AlphaFold3是谷歌DeepMind开发的模型,能够预测蛋白质和其他生物分子的三维结构。
麻省理工学院的研究生Jeremy Wohlwend和Gabriele Corso是Boltz-1的主要开发者,此外还有麻省理工学院Jameel Clinic研究附属Saro Passaro和麻省理工学院电气工程与计算机科学教授Regina Barzilay和Tommi Jaakkola。Wohlwend和Corso在12月5日的麻省理工学院Stata中心活动中展示了该模型,他们表示,他们的最终目标是促进全球合作,加速发现,并提供一个强大的平台来推进生物分子建模。
“我们希望这能成为社区的起点,”Corso说。“我们之所以称其为Boltz-1而不是Boltz,是有原因的。这不是终点。我们希望尽可能多地获得社区的贡献。”
蛋白质在几乎所有生物过程中都扮演着重要角色。蛋白质的形状与其功能密切相关,因此理解蛋白质的结构对于设计新药或工程具有特定功能的新蛋白质至关重要。但由于蛋白质的长链氨基酸折叠成三维结构的过程极其复杂,准确预测该结构几十年来一直是一个重大挑战。
DeepMind的AlphaFold2使Demis Hassabis和John Jumper获得了2024年诺贝尔化学奖,它利用机器学习快速预测三维蛋白质结构,这些结构的准确性高到与科学家实验得出的结构无法区分。这个开源模型已被全球的学术和商业研究团队使用,推动了药物开发的许多进展。
AlphaFold3通过引入一种称为扩散模型的生成性人工智能模型来改进其前身,能够更好地处理预测极其复杂的蛋白质结构时所涉及的不确定性。然而,与AlphaFold2不同,AlphaFold3并不是完全开源的,也不适用于商业用途,这引发了科学界的批评,并启动了一场全球竞赛,旨在构建可商业化的模型版本。
在Boltz-1的开发中,麻省理工学院的研究人员遵循了与AlphaFold3相同的初始方法,但在研究了基础的扩散模型后,他们探索了潜在的改进。他们纳入了那些能显著提高模型准确性的改进,例如提高预测效率的新算法。
除了模型本身,他们还开源了整个训练和微调的流程,以便其他科学家可以在Boltz-1的基础上进行研究。
“我对Jeremy、Gabriele、Saro和Jameel Clinic团队的其他成员能够实现这一发布感到无比自豪。这个项目花费了许多天和夜的努力,怀着坚定的决心走到这一步。我们有许多令人兴奋的想法来进一步改进,我们期待在未来几个月与大家分享,”Barzilay说。
麻省理工学院团队花了四个月的时间和许多实验来开发Boltz-1。他们面临的最大挑战之一是克服蛋白质数据银行中包含的模糊性和异质性,蛋白质数据银行是一个收集了过去70年中成千上万生物学家解决的所有生物分子结构的数据库。
“我花了很多个漫长的夜晚与这些数据斗争。很多数据都是纯粹的领域知识,必须通过学习来获得。没有捷径可走,”Wohlwend说。
最终,他们的实验表明,Boltz-1在多样化的复杂生物分子结构预测中达到了与AlphaFold3相同的准确性。
“Jeremy、Gabriele和Saro所取得的成就无疑是非凡的。他们在这个项目上的辛勤工作和坚持不懈使生物分子结构预测对更广泛的社区变得更加可及,并将彻底改变分子科学的进展,”Jaakkola说。
研究人员计划继续提高Boltz-1的性能,并减少预测所需的时间。他们还邀请研究人员在他们的GitHub仓库上尝试Boltz-1,并在他们的Slack频道上与其他Boltz-1用户联系。
“我们认为还有很多年的工作可以改进这些模型。我们非常渴望与他人合作,看看社区会如何使用这个工具,”Wohlwend补充道。
Parabilis Medicines的首席执行官兼总裁Mathai Mammen称Boltz-1为“突破性”模型。“通过开源这一进展,麻省理工学院Jameel Clinic及其合作伙伴正在使尖端结构生物学工具的获取民主化,”他说。“这一里程碑式的努力将加速改变生命的药物的创造。感谢Boltz-1团队推动这一深刻的飞跃!”
“Boltz-1将极大地促进我的实验室和整个社区,”麻省理工学院生物学教授、白头生物医学工程研究所成员Jonathan Weissman补充道,他并未参与该研究。“我们将看到一波波的发现得以实现,这得益于这一强大工具的民主化。”Weissman还表示,他预期Boltz-1的开源特性将导致大量创造性的新应用。
这项工作还得到了美国国家科学基金会探险计划的支持;Jameel Clinic;美国国防威胁减少局新兴威胁医疗对策发现(DOMANE)计划;以及由癌症研究英国和美国国家癌症研究所资助的癌症重大挑战合作伙伴关系支持的MATCHMAKERS项目。