一种新的计算技术可能会使工程化有用的蛋白质变得更容易。

为了设计具有有用功能的蛋白质,研究人员通常从具有理想功能的天然蛋白质开始,例如发出荧光,然后通过多轮随机突变,最终生成优化的蛋白质。

这个过程已经产生了许多重要蛋白质的优化版本,包括绿色荧光蛋白(GFP)。然而,对于其他蛋白质来说,生成优化版本一直是困难的。麻省理工学院的研究人员现在开发了一种计算方法,可以根据相对较少的数据预测会导致更好蛋白质的突变。

使用这个模型,研究人员生成了具有突变的蛋白质,预测这些突变将导致改进的GFP版本和用于基因治疗的腺相关病毒(AAV)蛋白质。他们希望这也可以用于开发神经科学研究和医学应用的其他工具。

“蛋白质设计是一个难题,因为从DNA序列到蛋白质结构和功能的映射非常复杂。在序列中可能有一个很好的蛋白质,但每个中间变化可能对应一个完全无功能的蛋白质。这就像试图在山脉中找到河流盆地,途中有崎岖的山峰阻挡视线。目前的工作试图使河床更容易找到,”麻省理工学院的脑与认知科学教授、麻省理工学院麦戈文脑研究所成员、K. Lisa Yang综合计算神经科学中心主任、该研究的高级作者之一Ila Fiete说。

麻省理工学院的人工智能与健康工程学院杰出教授Regina Barzilay和电气工程与计算机科学学院Thomas Siebel教授也是该研究的高级作者,他们在五月份的国际学习表示会议上发表了一篇开放获取的论文。该研究的主要作者是麻省理工学院的研究生Andrew Kirjner和Jason Yim。其他作者包括麻省理工学院的博士后Shahar Bracha和捷克技术大学的研究生Raman Samusevich。

优化蛋白质

许多天然存在的蛋白质具有可能在研究或医学应用中有用的功能,但它们需要一些额外的工程来优化。在这项研究中,研究人员最初有兴趣开发可以在活细胞中用作电压指示器的蛋白质。这些蛋白质由一些细菌和藻类产生,当检测到电位时会发出荧光。如果在哺乳动物细胞中进行工程改造,这些蛋白质可以让研究人员在不使用电极的情况下测量神经元活动。

尽管几十年来一直在研究如何改造这些蛋白质以产生更强的荧光信号,但在更快的时间尺度上,它们还不够有效以供广泛使用。在麦戈文研究所Edward Boyden实验室工作的Bracha与Fiete实验室联系,希望能够共同开发一种计算方法,以加快优化蛋白质的过程。

“这项工作体现了科学发现中的人类偶然性。它源于杨谭集体撤退,这是麻省理工学院多个中心的研究人员参加的科学会议,这些中心具有不同的任务,但都得到了K. Lisa Yang的共同支持。我们发现,我们在建模大脑学习和优化方面的兴趣和工具可以应用于完全不同的蛋白质设计领域,就像Boyden实验室正在实践的那样。” Fiete说。

对于研究人员可能想要优化的任何给定蛋白质,可以通过在序列的每个点上交换不同的氨基酸来生成近乎无限的可能序列。由于有如此多的可能变体,不可能对所有变体进行实验测试,因此研究人员已经转向计算建模,试图预测哪些变体效果最好。

在这项研究中,研究人员利用GFP的数据开发和测试了一种称为卷积神经网络(CNN)的模型,该模型可以预测蛋白质的更好版本。

该模型能够创建一个“适应性景观”——一个三维地图,描述了给定蛋白质的适应性以及它与原始序列的差异程度,基于相对较少的实验数据(约1000个GFP变体)。

这些景观包含代表适应性更好的蛋白质的峰值和代表适应性较差的蛋白质的低谷。预测蛋白质需要遵循的路径以达到适应性峰值可能很困难,因为通常蛋白质需要经历使其适应性降低的突变,然后才能达到附近更高适应性的峰值。为了解决这个问题,研究人员使用了一种现有的计算技术来“平滑”适应性景观。

一旦平滑了景观中的这些小颠簸,研究人员重新训练了CNN模型,并发现它能够更容易地达到更高的适应性峰值。该模型能够预测优化的GFP序列,这些序列与起始蛋白质序列相差了多达七个不同的氨基酸,其中最好的蛋白质估计比原始蛋白质适应性提高了约2.5倍。

“一旦我们有了代表模型认为附近的景观,我们将其平滑化,然后在平滑化的景观上重新训练模型,”Kirjner说。“现在从起点到顶点有一条平滑的路径,模型现在能够通过逐步改进来达到顶点。对于未平滑的景观来说,这通常是不可能的。”

概念验证

研究人员还展示了这种方法在识别腺相关病毒(AAV)的病毒外壳新序列方面的良好效果,AAV是常用的传递DNA的病毒载体。在这种情况下,他们优化了外壳以提高其包装DNA的能力。

“我们使用GFP和AAV作为概念验证,以表明这是一种适用于非常明确的数据集的方法,因此它应该适用于其他蛋白质工程问题,”Bracha说。

研究人员现在计划将这种计算技术应用于Bracha在电压指示蛋白质上产生的数据。

“几十个实验室已经研究了两十年,但仍然没有更好的结果,”她说。“希望现在通过生成一个较小的数据集,我们可以在计算机中训练一个模型,并做出比过去二十年的手动测试更好的预测。”

该研究部分资助来自美国国家科学基金会、制药发现与合成机器学习联盟、阿卜杜勒·拉蒂夫·贾米尔机器学习健康诊所、DTRA新兴威胁医学对策发现计划、DARPA加速分子发现计划、Sanofi计算抗体设计资助、美国海军研究办公室、霍华德·休斯医学研究所、美国国立卫生研究院、K. Lisa Yang ICoN中心以及麻省理工学院的K. Lisa Yang和Hock E. Tan分子治疗中心。