微生物序列数据库中包含了大量关于酶和其他分子的信息,这些信息可以用于生物技术的改良。但是,这些数据库近年来变得如此庞大,以至于很难高效地搜索感兴趣的酶。
现在,麻省理工学院的麦戈文脑研究所、麻省理工学院和哈佛大学的布罗德研究所以及国家生物技术信息中心(NCBI)的科学家们开发了一种新的搜索算法,已经在细菌基因组中发现了188种新的罕见CRISPR系统,涵盖了数千个个体系统。这项工作今天发表在《科学》杂志上。
这个算法来自CRISPR研究先驱张锋教授的实验室,它使用大数据聚类方法快速搜索大量的基因组数据。团队使用他们的算法,称为快速局部敏感哈希聚类(FLSHclust),挖掘了包含来自各种不寻常细菌的数据的三个主要公共数据库,包括在煤矿、酿酒厂、南极湖和狗唾液中发现的细菌。科学家们发现了大量和多样化的CRISPR系统,包括可以编辑人类细胞DNA的系统,可以靶向RNA的系统,以及具有其他各种功能的系统。
这些新系统有可能被利用来编辑哺乳动物细胞,比当前的Cas9系统具有更少的离靶效应。它们也有可能成为诊断工具,或者作为细胞内活动的分子记录。
研究人员表示,他们的搜索结果突显了CRISPR的前所未有的多样性和灵活性,并且随着数据库的不断增长,可能还有许多罕见系统有待发现。
“生物多样性是一个宝库,随着我们继续测序更多的基因组和宏基因组样本,需要更好的工具,如FLSHclust,来搜索这个序列空间,找到分子宝石,”张锋教授说道,他是该研究的共同通讯作者,也是麻省理工学院的詹姆斯和帕特里夏·波特拉斯神经科学教授,同时还在脑与认知科学系和生物工程系担任职务。张锋还是麻省理工学院麦戈文脑研究所的调查员,布罗德研究所的核心研究员,以及霍华德·休斯医学研究所的调查员。NCBI的杰出调查员尤金·库宁也是该研究的共同通讯作者。
搜索CRISPR
CRISPR是聚集的正常间隔短回文重复序列的缩写,是一种细菌防御系统,已经被改造成许多基因组编辑和诊断工具。
为了从蛋白质和核酸序列数据库中挖掘新的CRISPR系统,研究人员开发了一种基于大数据社区借鉴的算法。这种技术称为局部敏感哈希,它将相似但不完全相同的对象聚类在一起。使用这种方法,团队能够在几周内探索数十亿个蛋白质和DNA序列,而之前寻找完全相同对象的方法可能需要数月时间。他们设计了这个算法来寻找与CRISPR相关的基因。
“这个新算法使我们能够在足够短的时间内解析数据,以便我们能够真正获得结果并提出生物学假设,”研究的共同第一作者之一、麻省理工学院的博士生Soumya Kannan说道。Soumya Kannan在研究开始时是张锋实验室的研究生,目前是哈佛大学的博士后和初级研究员。研究的另一位共同第一作者Han Altae-Tran是张锋实验室的研究生,目前是华盛顿大学的博士后。
“这证明了当你改进探索方法并尽可能使用更多的数据时,你可以做到什么,”Altae-Tran说道。“能够提高我们搜索的规模真的很令人兴奋。”
新系统
在他们的分析中,Altae-Tran、Kannan和他们的同事们注意到,他们发现的数千个CRISPR系统分为几个现有的和许多新的类别。他们在实验室中对几个新系统进行了更详细的研究。
他们发现了几个已知的I型CRISPR系统的新变体,这些系统使用的引导RNA长度为32个碱基,而不是Cas9的20个核苷酸引导。由于它们较长的引导RNA,这些I型系统有可能用于开发更精确的基因编辑技术,减少离靶编辑的可能性。张锋的团队证明了其中两个系统可以对人类细胞的DNA进行短暂编辑。由于这些I型系统的大小与CRISPR-Cas9相似,它们很可能可以使用与CRISPR相同的基因传递技术传递到动物或人类的细胞中。
其中一个I型系统还显示出“副作用”——在CRISPR蛋白质与其靶标结合后,核酸的广泛降解。科学家们已经利用类似的系统制作了感染性疾病诊断工具,例如SHERLOCK,它是一种能够快速检测单个DNA或RNA分子的工具。张锋的团队认为这些新系统也可以用于诊断技术。
研究人员还发现了一些IV型CRISPR系统的新的作用机制,以及一种精确靶向RNA的VII型系统,这种系统有可能用于RNA编辑。其他系统有可能用作记录工具,记录基因表达的分子文档,或作为活细胞中特定活动的传感器。
挖掘数据
科学家们表示,他们的算法可以帮助搜索其他生化系统。“这个搜索算法可以被任何希望使用这些大型数据库研究蛋白质进化或发现新基因的人使用,”Altae-Tran说。
研究人员补充说,他们的发现不仅说明了CRISPR系统的多样性,还表明大多数系统都是罕见的,只存在于不寻常的细菌中。“这些微生物系统中的一些只在煤矿水中发现,”Kannan说。“如果没有人对此感兴趣,我们可能永远不会看到这些系统。扩大我们的样本多样性对于继续扩展我们可以发现的多样性非常重要。”
这项工作得到了霍华德·休斯医学研究所、麻省理工学院的K. Lisa Yang和Hock E. Tan分子治疗中心、布罗德研究所可编程治疗礼物捐赠者、Pershing Square基金会、William Ackman和Neri Oxman、James和Patricia Poitras、BT慈善基金会、Asness家族基金会、Kenneth C. Griffin、Phillips家族、David Cheng和Robert Metcalfe的支持。