计算模型捕捉到了化学反应的难以捉摸的过渡态。

在化学反应中,分子会获得能量,直到达到所谓的过渡态——一个无法返回的点,反应必须继续进行。这个状态如此短暂,以至于几乎不可能在实验中观察到。

可以使用基于量子化学的技术计算这些过渡态的结构,但这个过程非常耗时。麻省理工学院的研究人员现在开发了一种基于机器学习的替代方法,可以更快地计算这些结构——在几秒钟内。

他们的新模型可以帮助化学家设计新的反应和催化剂,以生成燃料或药物等有用的产品,或者模拟自然界中发生的化学反应,例如可能有助于推动地球生命演化的化学反应。

“了解过渡态结构对于思考设计催化剂或理解自然系统如何进行某些转化非常重要,”麻省理工学院化学和化学工程副教授Heather Kulik说道,她是该研究的高级作者。

Chenru Duan博士是这项工作的主要作者,论文描述了这项工作,今天发表在《自然计算科学》上。康奈尔大学研究生Yuanqi Du和麻省理工学院研究生Haojun Jia也是论文的作者。

短暂的过渡

为了发生任何化学反应,它必须经历一个过渡态,当它达到反应所需的能量阈值时发生。任何化学反应发生的概率部分取决于过渡态形成的可能性。

“过渡态有助于确定化学转化发生的可能性。如果我们有很多我们不想要的东西,比如二氧化碳,我们希望将其转化为有用的燃料,比如甲醇,过渡态及其有多么有利决定了我们从反应物到产物的可能性,”Kulik说。

化学家可以使用一种称为密度泛函理论的量子化学方法计算过渡态。然而,这种方法需要大量的计算能力,可能需要数小时甚至数天才能计算出一个过渡态。

最近,一些研究人员尝试使用机器学习模型发现过渡态结构。然而,迄今为止开发的模型要求将两个反应物视为一个单一实体,其中反应物相对于彼此保持相同的方向。任何其他可能的方向必须建模为单独的反应,这增加了计算时间。

“如果反应物分子被旋转,那么原则上,在旋转之前和之后,它们仍然可以经历相同的化学反应。但在传统的机器学习方法中,模型将把这些视为两个不同的反应。这使得机器学习训练更加困难,也不太准确,”Duan说。

麻省理工学院的团队开发了一种新的计算方法,允许他们以任意方向表示两个反应物之间的关系,使用一种称为扩散模型的模型,该模型可以学习哪种类型的过程最有可能产生特定的结果。作为模型的训练数据,研究人员使用了使用量子计算方法计算的反应物、产物和过渡态的结构,涉及9000种不同的化学反应。

“一旦模型学习了这三种结构共存的基本分布,我们可以给它新的反应物和产物,它将尝试生成与这些反应物和产物配对的过渡态结构,”Duan说。

研究人员对约1000个之前未见过的反应进行了模型测试,要求它为每个过渡态生成40个可能的解决方案。然后,他们使用“置信度模型”预测最有可能发生的状态。与使用量子技术生成的过渡态结构相比,这些解决方案的准确性在0.08埃(一亿分之一厘米)以内。整个计算过程每个反应只需几秒钟。

“你可以想象,在传统方法中,你只能生成几个过渡态,而现在你可以在同样的时间内生成数千个过渡态,”Kulik说。

模拟反应

尽管研究人员主要在涉及相对较少原子数量的化合物的反应上训练了他们的模型,即整个系统最多包含23个原子,但他们发现它也可以对涉及较大分子的反应进行准确预测。

“即使你看更大的系统或由酶催化的系统,你也可以得到关于原子最有可能重新排列的不同方式的相当好的覆盖,”Kulik说。

研究人员现在计划扩展他们的模型,以纳入其他组分,如催化剂,这可以帮助他们研究特定催化剂会如何加速反应。这对于开发生成制药品、燃料或其他有用化合物的新工艺尤其有用,特别是当合成涉及许多化学步骤时。

“传统上,所有这些计算都是使用量子化学进行的,现在我们能够用这种快速生成模型替代量子化学部分,”Duan说。

研究人员表示,这种模型的另一个潜在应用是探索可能发生在其他行星上的气体之间的相互作用,或者模拟可能发生在地球早期生命演化过程中的简单反应。

这种新方法代表了“在预测化学反应性方面的重要进展,”哥本哈根大学化学教授Jan Halborg Jensen说,他没有参与这项研究。

“找到反应的过渡态和相关的能垒是预测化学反应的关键步骤,但也是最难自动化的任务之一,”他说。“这个问题阻碍了许多重要领域,如计算催化剂和反应发现,这是我看到的第一篇可以消除这个瓶颈的论文。”

这项研究得到了美国海军研究办公室和国家科学基金会的资助。