利用人工智能来简化药物发现的应用正在迅速增长。研究人员正在使用机器学习模型来帮助他们在数十亿个选项中识别可能具有他们寻求的特性的分子,以开发新药。
但是要考虑的变量太多了,从材料价格到出现问题的风险,即使科学家使用了人工智能,评估合成最佳候选物的成本也并不容易。
确定最佳和最具成本效益的分子以进行测试所涉及的种种挑战是新药研发时间如此之长的原因之一,也是高处方药价格的主要驱动因素。
为了帮助科学家做出具有成本意识的选择,麻省理工学院的研究人员开发了一种算法框架,可以自动识别最佳的分子候选物,从而最小化合成成本,同时最大化候选物具有所需特性的可能性。该算法还可以识别合成这些分子所需的材料和实验步骤。
他们的定量框架被称为合成规划和基于奖励的路线优化工作流程(SPARROW),它考虑了一次合成一批分子的成本,因为一些相同的化合物通常可以得到多个候选物。
此外,这种统一的方法从在线存储库和广泛使用的人工智能工具中获取了关于分子设计、性能预测和合成规划的关键信息。
除了帮助制药公司更高效地发现新药之外,SPARROW还可以应用于发明新的农药或发现有机电子材料。
“目前,化合物的选择在很大程度上是一门艺术,有时候是非常成功的艺术。但是因为我们有所有这些其他模型和预测工具,可以提供关于分子性能和合成方式的信息,我们可以并且应该使用这些信息来指导我们的决策,”麻省理工学院化学工程和电气工程与计算机科学系的1957年职业发展助理教授康纳·科利说道,他是SPARROW论文的高级作者。
科利与主要作者Jenna Fromer SM ’24共同撰写了这篇论文。这项研究今天发表在《自然计算科学》上。
复杂的成本考虑
从某种意义上说,科学家是否应该合成和测试某种分子归结为合成成本与实验价值的问题。然而,确定成本或价值本身就是一个棘手的问题。
例如,一个实验可能需要昂贵的材料,或者可能存在高风险。在价值方面,人们可能会考虑了解这种分子的性质有多有用,或者这些预测是否具有高度的不确定性。
与此同时,制药公司越来越多地使用批量合成来提高效率。他们不是逐个测试分子,而是使用化学构建块的组合来同时测试多个候选物。然而,这意味着所有化学反应都必须具有相同的实验条件。这使得估算成本和价值变得更加具有挑战性。
SPARROW通过考虑合成分子中涉及的共享中间化合物,并将该信息纳入其成本与价值函数中来解决这一挑战。
“当你考虑到设计一批分子的优化游戏时,添加新结构的成本取决于你已经选择的分子,”科利说。
该框架还考虑了起始材料的成本、每个合成路径中涉及的反应数量以及这些反应在第一次尝试时成功的可能性。
要使用SPARROW,科学家提供一组他们正在考虑测试的分子化合物以及他们希望找到的性质的定义。
从那里开始,SPARROW收集关于分子及其合成途径的信息,然后将每个分子的价值与合成一批候选物的成本进行权衡。它自动选择符合用户标准的最佳候选物子集,并找到这些化合物的最具成本效益的合成路径。
“它可以一步完成所有这些优化,因此可以同时捕捉到所有这些竞争目标,”Fromer说。
多功能框架
SPARROW的独特之处在于它可以包含由人手设计的分子结构,存在于虚拟目录中的分子结构,或者由生成式人工智能模型发明的前所未见的分子结构。
“我们有所有这些不同的创意来源。SPARROW的吸引力之一是你可以将所有这些创意放在同一水平上,”科利补充道。
研究人员通过在三个案例研究中应用SPARROW来评估其性能。这些案例研究基于化学家们面临的现实问题,旨在测试SPARROW在处理各种输入分子时找到成本效益合成计划的能力。
他们发现,SPARROW有效地捕捉到了批量合成的边际成本,并确定了常见的实验步骤和中间化学物质。此外,它可以扩展到处理数百个潜在的分子候选物。
“在化学机器学习社区中,有很多模型在反合成或分子性能预测方面表现良好,但我们如何实际使用它们呢?我们的框架旨在发挥这些先前工作的价值。通过创建SPARROW,希望我们可以引导其他研究人员使用自己的成本和效用函数来考虑化合物的筛选,”Fromer说。
未来,研究人员希望将更多复杂性纳入SPARROW中。例如,他们希望使算法能够考虑到测试一个化合物的价值可能并不总是恒定的。他们还希望在其成本与价值函数中包含更多的并行化学元素。
“Fromer和Coley的工作将算法决策制定与化学合成的实际现实更好地对齐。当使用现有的计算设计算法时,如何最佳合成一组设计的工作留给了药物化学家,导致了不太理想的选择和额外的工作量。”Relay Therapeutics的人工智能高级副总裁Patrick Riley说道,他与这项研究无关。“这篇论文展示了一条有原则的路径,可以考虑到联合合成的因素,我预计这将导致更高质量和更受认可的算法设计。”
“在谨慎平衡时间、成本和实现目标的潜力以及提供有用的新信息方面,确定要合成哪些化合物是药物发现团队面临的最具挑战性的任务之一。Fromer和Coley的SPARROW方法以一种有效且自动化的方式解决了这个问题,为人类药物化学团队提供了一个有用的工具,并朝着完全自主的药物发现方法迈出了重要的一步。”纪念斯隆-凯特琳癌症中心的计算化学家John Chodera补充道,他与这项工作无关。
这项研究得到了DARPA加速分子发现计划、海军研究办公室和国家科学基金会的部分支持。