蛋白质是维持我们细胞运作的主力军,我们的细胞中有成千上万种蛋白质,每种蛋白质都执行着特定的功能。研究人员早已知道,蛋白质的结构决定了它的功能。最近,研究人员开始认识到,蛋白质的定位对其功能也至关重要。细胞内部充满了各种隔室,这些隔室帮助组织细胞内的众多成分。除了生物学教科书中常见的细胞器,这些空间还包括多种动态的无膜隔室,这些隔室将某些分子集中在一起以执行共同的功能。因此,了解某个特定蛋白质的定位以及它与哪些其他蛋白质共同定位,可以帮助我们更好地理解该蛋白质及其在健康或疾病细胞中的作用,但研究人员一直缺乏系统的方法来预测这些信息。
与此同时,蛋白质结构的研究已经进行了超过半个世纪, culminated in the artificial intelligence tool AlphaFold, which can predict protein structure from a protein’s amino acid code, the linear string of building blocks within it that folds to create its structure. AlphaFold 和类似的模型已成为研究中广泛使用的工具。
蛋白质还包含一些氨基酸区域,这些区域不会折叠成固定的结构,但对帮助蛋白质加入细胞中的动态隔室非常重要。麻省理工学院的理查德·杨教授及其同事们想知道,这些区域中的代码是否可以像其他区域用于预测结构一样,用于预测蛋白质的定位。其他研究人员已经发现了一些编码蛋白质定位的蛋白质序列,并且一些人已经开始开发蛋白质定位的预测模型。然而,研究人员并不知道蛋白质对任何动态隔室的定位是否可以根据其序列进行预测,也没有与 AlphaFold 相当的工具来预测定位。
现在,杨教授(同时也是怀特海生物研究所的成员)、杨实验室的博士后亨利·基尔戈尔、麻省理工学院电气工程与计算机科学系的人工智能与健康杰出教授雷吉娜·巴齐莱和计算机科学与人工智能实验室(CSAIL)的首席研究员及其同事们建立了这样一个模型,他们称之为 ProtGPS。在 2月6日发表在《科学》杂志上的一篇论文中,第一作者基尔戈尔和巴齐莱实验室的研究生伊塔马尔·钦、彼得·米哈伊尔和伊兰·米特尼科夫,跨学科团队首次展示了他们的模型。研究人员表明,ProtGPS 可以预测蛋白质将定位于12种已知类型的隔室,并且可以判断与疾病相关的突变是否会改变该定位。此外,研究团队开发了一种生成算法,可以设计新型蛋白质以定位于特定的隔室。
“我希望这是朝着一个强大平台的第一步,这个平台能够使研究蛋白质的人进行他们的研究,”杨说,“并且帮助我们理解人类如何发展成复杂的生物体,突变如何干扰这些自然过程,以及如何生成治疗假设并设计药物以治疗细胞中的功能障碍。”
研究人员还通过细胞中的实验测试验证了模型的许多预测。
“能够从计算设计到实验室测试这些东西让我感到非常兴奋,”巴齐莱说。“在这个人工智能领域有很多令人兴奋的论文,但99.9%的论文从未在真实系统中进行测试。多亏了我们与杨实验室的合作,我们能够进行测试,并真正了解我们的算法表现如何。”
模型的开发
研究人员在两批已知定位的蛋白质上训练和测试了 ProtGPS。他们发现它能够以高准确度正确预测蛋白质的最终位置。研究人员还测试了 ProtGPS 在基于与疾病相关的突变的情况下预测蛋白质定位变化的能力。许多突变——基因及其相应蛋白质序列的变化——已被发现与疾病相关,但突变如何导致疾病症状的机制仍然未知。
弄清楚突变如何导致疾病的机制很重要,因为这样研究人员可以开发疗法来修复该机制,从而预防或治疗疾病。杨和同事们怀疑许多与疾病相关的突变可能通过改变蛋白质的定位来导致疾病。例如,突变可能使蛋白质无法加入包含重要伙伴的隔室。
他们通过向 ProtGPS 输入超过200,000种具有与疾病相关突变的蛋白质来测试这一假设,然后要求它预测这些突变蛋白质的定位,并测量给定蛋白质从正常到突变版本的预测变化程度。预测的重大变化表明可能的定位变化。
研究人员发现许多案例,其中与疾病相关的突变似乎改变了蛋白质的定位。他们在细胞中测试了20个例子,使用荧光比较正常蛋白质和其突变版本在细胞中的位置。实验确认了 ProtGPS 的预测。总的来说,研究结果支持研究人员的怀疑,即错误定位可能是一个被低估的疾病机制,并展示了 ProtGPS 作为理解疾病和识别新治疗途径的工具的价值。
“细胞是一个如此复杂的系统,具有如此多的成分和复杂的相互作用网络,”米特尼科夫说。“考虑到通过这种方法,我们可以扰动系统,观察结果,从而推动细胞机制的发现,甚至基于此开发治疗方法,这非常有趣。”
研究人员希望其他人能够像使用 AlphaFold 等预测结构模型一样使用 ProtGPS,推动蛋白质功能、功能障碍和疾病的各种项目。
超越预测,走向新型生成
研究人员对他们的预测模型的潜在用途感到兴奋,但他们也希望他们的模型能够超越预测现有蛋白质的定位,允许他们设计全新的蛋白质。目标是使模型能够构建完全新的氨基酸序列,这些序列在细胞中形成时,将定位于所需位置。生成能够实际完成某种功能的新型蛋白质——在这种情况下,定位于特定细胞隔室的功能——是非常困难的。为了提高模型成功的机会,研究人员将算法限制为仅设计自然界中存在的蛋白质。这是一种在药物设计中常用的方法,原因显而易见;自然界经过数十亿年的演化,已经找到了哪些蛋白质序列有效,哪些无效。
由于与杨实验室的合作,机器学习团队能够测试他们的蛋白质生成器是否有效。模型取得了良好的结果。在一次实验中,它生成了10种旨在定位于核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,他们发现其中四种强烈定位于核仁,其他蛋白质也可能稍微偏向该位置。
“我们实验室之间的合作对我们所有人来说都是如此富有成效,”米哈伊尔说。“我们学会了如何说彼此的语言,在我们的案例中,学到了很多关于细胞如何工作的知识,通过有机会实验性地测试我们的模型,我们能够弄清楚我们需要做什么才能使模型真正有效,然后使其更有效。”
以这种方式生成功能性蛋白质可能提高研究人员开发疗法的能力。例如,如果一种药物必须与定位于某个特定隔室的靶标相互作用,那么研究人员可以使用该模型设计一种药物,使其也能定位于该处。这应该使药物更有效,并减少副作用,因为药物将花更多时间与其靶标相互作用,而不是与其他分子相互作用,从而导致非靶向效应。
机器学习团队成员对利用他们从这次合作中学到的知识设计具有其他功能的新型蛋白质的前景感到兴奋,这将扩展治疗设计和其他应用的可能性。
“许多论文表明他们可以设计一种可以在细胞中表达的蛋白质,但并没有证明该蛋白质具有特定功能,”钦说。“我们实际上进行了功能性蛋白质设计,并且与其他生成模型相比,成功率相对较高。这对我们来说真的很令人兴奋,也是我们希望继续发展的方向。”
所有参与的研究人员都将 ProtGPS 视为一个令人兴奋的开始。他们预计他们的工具将用于深入了解定位在蛋白质功能和错误定位在疾病中的作用。此外,他们还希望扩展模型的定位预测,以包括更多类型的隔室,测试更多的治疗假设,并设计越来越多功能性的蛋白质用于治疗或其他应用。
“现在我们知道这种定位的蛋白质代码存在,并且机器学习模型能够理解该代码,甚至使用其逻辑创建功能性蛋白质,这为许多潜在的研究和应用打开了大门,”基尔戈尔说。