‘借助生成性人工智能,麻省理工学院的化学家们快速计算3D基因组结构’

你身体中的每个细胞都包含相同的遗传序列,但每个细胞只表达这些基因的一个子集。这些细胞特异性的基因表达模式确保了脑细胞与皮肤细胞的不同,部分由遗传物质的三维结构决定,这种结构控制着每个基因的可及性。

麻省理工学院的化学家们现在提出了一种新的方法来确定这些三维基因组结构,使用生成性人工智能。他们的技术可以在几分钟内预测数千个结构,使其比现有的实验方法更快。

利用这种技术,研究人员可以更轻松地研究基因组的三维组织如何影响个别细胞的基因表达模式和功能。

“我们的目标是尝试从基础的DNA序列预测三维基因组结构,”研究的高级作者、化学副教授张斌说。“现在我们可以做到这一点,这使得这项技术与尖端实验技术相当,确实可以开启许多有趣的机会。”

麻省理工学院的研究生Greg Schuette和Zhuohan Lao是这篇论文的主要作者,该论文今天在《科学进展》上发表

从序列到结构

在细胞核内,DNA和蛋白质形成一种称为染色质的复杂结构,具有多个组织层次,使细胞能够将2米的DNA压缩到直径仅为一毫米的细胞核中。长链DNA缠绕在称为组蛋白的蛋白质周围,形成一种类似于串珠的结构。

被称为表观遗传修饰的化学标签可以附着在DNA的特定位置,这些标签因细胞类型而异,影响染色质的折叠和附近基因的可及性。这些染色质构象的差异有助于确定在不同细胞类型中或在特定细胞内的不同时间表达哪些基因。

在过去的20年里,科学家们开发了确定染色质结构的实验技术。一种广泛使用的技术称为Hi-C,通过将细胞核中相邻的DNA链连接在一起工作。研究人员可以通过将DNA撕碎成许多小片段并对其进行测序,从而确定哪些片段彼此靠近。

这种方法可以用于大规模细胞群体,以计算染色质某一部分的平均结构,或用于单个细胞以确定该特定细胞内的结构。然而,Hi-C和类似技术劳动密集,生成一个细胞的数据大约需要一周的时间。

为了克服这些限制,张和他的学生们开发了一种模型,利用生成性人工智能的最新进展,创建了一种快速、准确的方法来预测单个细胞中的染色质结构。他们设计的AI模型可以快速分析DNA序列,并预测这些序列在细胞中可能产生的染色质结构。

“深度学习在模式识别方面非常出色,”张说。“它使我们能够分析非常长的DNA片段,数千个碱基对,并找出这些DNA碱基对中编码的重要信息。”

研究人员创建的ChromoGen模型有两个组成部分。第一个组成部分是一个深度学习模型,旨在“读取”基因组,分析基础DNA序列和染色质可及性数据中编码的信息,后者是广泛可用且特定于细胞类型的。

第二个组成部分是一个生成性AI模型,预测物理上准确的染色质构象,经过超过1100万种染色质构象的训练。这些数据是通过对来自人类B淋巴细胞系的16个细胞使用Dip-C(Hi-C的一种变体)进行实验生成的。

当这两个部分结合时,第一个部分向生成模型提供细胞类型特定环境如何影响不同染色质结构形成的信息,这种方案有效地捕捉了序列-结构关系。对于每个序列,研究人员使用他们的模型生成许多可能的结构。这是因为DNA是一种非常无序的分子,因此单个DNA序列可以产生许多不同的可能构象。

“预测基因组结构的一个主要复杂因素是,我们并不是在追求单一解决方案。无论你查看基因组的哪个部分,都会有结构的分布。预测这种非常复杂的高维统计分布是非常具有挑战性的,”Schuette说。

快速分析

一旦训练完成,该模型可以在比Hi-C或其他实验技术更快的时间尺度上生成预测。

“而你可能需要花六个月的时间进行实验以获得特定细胞类型的几十个结构,但使用我们的模型,你可以在20分钟内在特定区域生成一千个结构,只需一个GPU,”Schuette说。

在训练他们的模型后,研究人员使用它为超过2000个DNA序列生成结构预测,然后将其与这些序列的实验确定结构进行比较。他们发现模型生成的结构与实验数据中观察到的结构相同或非常相似。

“我们通常会查看每个序列的数百或数千种构象,这为特定区域可能具有的结构多样性提供了合理的表示,”张说。“如果你在不同的细胞中多次重复实验,你很可能会得到非常不同的构象。这就是我们的模型试图预测的。”

研究人员还发现,该模型能够对其未训练的其他细胞类型的数据做出准确预测。这表明该模型可能对分析不同细胞类型之间的染色质结构差异及这些差异如何影响其功能非常有用。该模型还可以用于探索单个细胞内可能存在的不同染色质状态,以及这些变化如何影响基因表达。

另一个可能的应用是探索特定DNA序列中的突变如何改变染色质构象,这可能揭示这些突变如何导致疾病。

“我认为我们可以用这种类型的模型解决许多有趣的问题,”张说。

研究人员已将他们的所有数据和模型提供给希望使用它的其他人。

这项研究得到了国家卫生研究院的资助。