“用于研究基因因果关系的因果理论”

通过研究基因表达的变化,研究人员了解细胞在分子水平上的功能,这可能有助于他们理解某些疾病的发展。

但是,人类大约有20,000个基因,这些基因以复杂的方式相互影响,因此即使知道要针对哪些基因组也是一个极其复杂的问题。此外,基因在调节彼此的模块中共同工作。

麻省理工学院的研究人员现在已经开发出理论基础,能够识别将基因聚合成相关组的最佳方法,从而有效地学习许多基因之间的潜在因果关系。

重要的是,这种新方法仅使用观察数据来实现。这意味着研究人员不需要进行昂贵且有时不可行的干预实验来获取推断潜在因果关系所需的数据。

从长远来看,这项技术可以帮助科学家更准确和高效地识别潜在的基因靶点,以诱导某种行为,从而可能使他们能够为患者开发精确的治疗方案。

“在基因组学中,理解细胞状态背后的机制非常重要。但细胞具有多尺度结构,因此总结的层次也非常重要。如果你找到了聚合观察数据的正确方法,你对系统的理解应该更具可解释性和实用性,”研究生张佳琦说,他是埃里克和温迪·施密特中心的研究员,也是这项技术论文的共同第一作者。

张佳琦的论文合著者包括共同第一作者瑞安·韦尔奇,目前是一名工程学硕士生;以及资深作者卡罗琳·乌勒,她是电气工程与计算机科学系(EECS)和数据、系统与社会研究所(IDSS)的教授,同时也是麻省理工学院和哈佛大学布罗德研究所埃里克和温迪·施密特中心的主任,以及麻省理工学院信息与决策系统实验室(LIDS)的研究员。该研究将在神经信息处理系统会议上进行展示。

从观察数据中学习

研究人员要解决的问题涉及学习基因程序。这些程序描述了哪些基因共同作用以调节生物过程中的其他基因,例如细胞发育或分化。

由于科学家无法高效地研究所有20,000个基因的相互作用,他们使用一种称为因果解缠的技术来学习如何将相关基因组结合成一种表示,从而有效地探索因果关系。

在之前的工作中,研究人员展示了如何在干预数据存在的情况下有效地做到这一点,干预数据是通过扰动网络中的变量获得的数据。

但进行干预实验往往成本高昂,并且在某些情况下,这种实验要么不道德,要么技术水平不足以使干预成功。

仅凭观察数据,研究人员无法比较干预前后基因的表现,以了解基因组是如何共同发挥作用的。

“大多数因果解缠的研究假设可以进行干预,因此不清楚仅凭观察数据可以解缠出多少信息,”张佳琦说。

麻省理工学院的研究人员开发了一种更通用的方法,使用机器学习算法仅通过观察数据有效地识别和聚合观察变量组,例如基因。

他们可以使用这项技术识别因果模块,并重建因果机制的准确基础表示。“虽然这项研究是出于阐明细胞程序的问题而激励的,但我们首先必须开发新的因果理论,以理解从观察数据中可以和不能学习的内容。有了这个理论,未来的工作中我们可以将我们的理解应用于基因数据,识别基因模块及其调节关系,”乌勒说。

逐层表示

研究人员使用统计技术计算每个变量得分的雅可比矩阵的方差这一数学函数。因果变量如果不影响任何后续变量,其方差应为零。

研究人员以逐层结构重建表示,首先移除底层中方差为零的变量。然后,他们逐层向后工作,移除方差为零的变量,以确定哪些变量或基因组是相互连接的。

“识别方差为零的变量迅速变成一个组合目标,这个目标相当难以解决,因此推导出一个能够解决它的高效算法是一个重大挑战,”张佳琦说。

最终,他们的方法输出了一个抽象的观察数据表示,具有相互连接的变量层,准确总结了潜在的因果结构。

每个变量代表一个共同发挥作用的基因聚合组,而两个变量之间的关系则表示一个基因组如何调节另一个基因组。他们的方法有效地捕捉了用于确定每层变量的所有信息。

在证明他们的技术在理论上是合理的之后,研究人员进行了模拟,以展示该算法如何仅使用观察数据有效地解缠有意义的因果表示。

未来,研究人员希望将这项技术应用于现实世界的遗传学应用。他们还希望探索他们的方法如何在某些干预数据可用的情况下提供额外的见解,或帮助科学家理解如何设计有效的基因干预。未来,这种方法可能帮助研究人员更高效地确定哪些基因在同一程序中共同发挥作用,这可能有助于识别能够靶向这些基因以治疗某些疾病的药物。

这项研究部分由麻省理工学院-IBM沃森人工智能实验室和美国海军研究办公室资助。