通过调整被称为大型语言模型的人工智能模型,研究人员在从蛋白质序列预测其结构的能力上取得了重大进展。然而,这种方法在抗体方面并不那么成功,部分原因是这种类型的蛋白质表现出高度变异性。
为了克服这一限制,麻省理工学院的研究人员开发了一种计算技术,使大型语言模型能够更准确地预测抗体结构。他们的工作可能使研究人员能够筛选数百万种可能的抗体,以识别可以用于治疗SARS-CoV-2和其他传染病的抗体。
麻省理工学院计算机科学与人工智能实验室(CSAIL)计算与生物学组负责人、数学的西蒙斯教授以及新研究的高级作者之一Bonnie Berger表示:“我们的方法使我们能够扩展,而其他方法则无法做到,甚至可以找到稻草堆中的几根针。如果我们能帮助制药公司避免用错误的药物进入临床试验,那将节省大量资金。”
该技术专注于建模抗体的超变异区域,也有潜力分析来自个体的整个抗体库。这对于研究对HIV等疾病的超级应答者的免疫反应可能非常有用,以帮助弄清楚他们的抗体为何能如此有效地抵御病毒。
麻省理工学院生物工程副教授、MGH、麻省理工学院和哈佛大学Ragon研究所成员Bryan Bryson也是该论文的高级作者之一,该论文本周在《美国国家科学院院刊》上发表。前CSAIL研究科学家、现为杜克大学生物统计学和生物信息学及细胞生物学助理教授的Rohit Singh,以及Chiho Im ’22是该论文的主要作者。来自赛诺菲和苏黎世联邦理工学院的研究人员也参与了这项研究。
建模超变异性
蛋白质由长链氨基酸组成,这些氨基酸可以折叠成大量可能的结构。近年来,使用人工智能程序(如AlphaFold)预测这些结构变得更加容易。许多这些程序(如ESMFold和OmegaFold)基于大型语言模型,这些模型最初是为了分析大量文本而开发的,使其能够学习预测序列中的下一个单词。这种方法同样适用于蛋白质序列——通过学习不同氨基酸模式最有可能形成哪些蛋白质结构。
然而,这种技术并不总是适用于抗体,尤其是抗体中被称为超变异区域的部分。抗体通常具有Y形结构,这些超变异区域位于Y的尖端,负责检测和结合外来蛋白质,也称为抗原。Y的底部提供结构支持,并帮助抗体与免疫细胞相互作用。
超变异区域的长度各不相同,但通常包含少于40个氨基酸。据估计,人类免疫系统可以通过改变这些氨基酸的序列产生多达1万亿种不同的抗体,从而确保身体能够应对各种潜在的抗原。这些序列并不像其他蛋白质序列那样受到进化的约束,因此大型语言模型很难准确学习预测它们的结构。
Singh表示:“语言模型能够很好地预测蛋白质结构的部分原因是,进化以某种方式约束了这些序列,使模型能够解读这些约束的含义。这类似于通过观察句子中单词的上下文来学习语法规则,从而让你弄清楚它的意思。”
为了建模这些超变异区域,研究人员创建了两个模块,基于现有的蛋白质语言模型。其中一个模块在大约3000个来自蛋白质数据银行(PDB)的抗体结构的超变异序列上进行了训练,使其能够学习哪些序列倾向于生成相似的结构。另一个模块则在与三种不同抗原的结合强度相关的约3700个抗体序列的数据上进行了训练。
最终得到的计算模型被称为AbMap,可以根据氨基酸序列预测抗体结构和结合强度。为了证明该模型的实用性,研究人员使用它预测了能够强效中和SARS-CoV-2病毒刺突蛋白的抗体结构。
研究人员从一组预测能够结合该靶标的抗体开始,然后通过改变超变异区域生成数百万种变体。他们的模型能够识别出最成功的抗体结构,准确性远高于基于大型语言模型的传统蛋白质结构模型。
然后,研究人员进一步将抗体聚类为具有相似结构的组。他们从每个聚类中选择抗体进行实验测试,并与赛诺菲的研究人员合作。这些实验发现,82%的抗体的结合强度优于进入模型的原始抗体。
研究人员表示,在开发过程中早期识别出多种良好候选者,可以帮助制药公司避免在后期测试中花费大量资金在最终失败的候选者上。
Singh表示:“他们不想把所有的鸡蛋放在一个篮子里。他们不想说,我要选择这个抗体进行临床前试验,然后结果发现它是有毒的。他们宁愿有一组良好的可能性,并将所有这些抗体推进,以便在其中一个出现问题时有一些选择。”
比较抗体
使用这种技术,研究人员还可以尝试回答一些长期存在的问题,例如为什么不同的人对感染的反应不同。例如,为什么有些人会发展出更严重的Covid形式,而为什么有些接触HIV的人从未感染?
科学家们一直试图通过对个体的免疫细胞进行单细胞RNA测序并进行比较来回答这些问题——这一过程被称为抗体库分析。先前的研究表明,来自两个不同个体的抗体库可能重叠的比例低至10%。然而,测序并没有提供抗体性能的全面图景,因为两种具有不同序列的抗体可能具有相似的结构和功能。
新模型可以通过快速生成个体中发现的所有抗体的结构来帮助解决这个问题。在这项研究中,研究人员表明,当考虑结构时,个体之间的重叠远远超过序列比较中看到的10%。他们现在计划进一步研究这些结构如何可能有助于身体对特定病原体的整体免疫反应。
Singh表示:“这就是语言模型非常完美地适应的地方,因为它具有基于序列分析的可扩展性,但接近于基于结构分析的准确性。”
这项研究得到了赛诺菲和阿卜杜勒·拉蒂夫·贾米尔健康机器学习诊所的资助。