赛尔,你好。
这是生信家书的第十九封。一张车票,换一个城市,有时候是无限欣喜,如高考题名,大学报道。当我们慢慢长大,见过很多城市,这时会发现,大部分的城市大同小异,剩下的只是匆匆。像这四季更迭,习惯了地球公转,春花秋月也了无新意。
当我们保留一颗敏感的心灵,把目光放在鳞次栉比的间隙,走进一个小胡同,还是能够嗅得每个城市不同得味道:南甜北咸,东辣西酸。我们不必去拍北京的故宫、广州的小蛮腰、上海的东方明珠、西安的大雁塔、南京的夫子庙,一下高铁,从铺面而来的气息中感受到不同城市的节奏。
到达不同城市,发现不同风景。想必你也一定有这样的心境,就是呆在名字一样的连锁酒店里,不出门,都能领略不同城市之美。
敏锐地捕获不同的信息,是生物信息学的基本工作之一。在这第十九封信里,就着换场景的感受,聊一聊单细胞多组学应用T2T基因组(telomere-to-telomere genome )的可能性及其场景。
我们知道,单细胞多组学数据分析管线中,高通量下机数据与参考基因组的比对,是至关重要的一步,从这里把测序数据转化为表达矩阵,用于下游分析。与参考基因组的比对,让我们得到每个细胞中每个基因的表达/调控信息。目前默认的单细胞转录组比对参考基因组是:
人源样本:GRCh38 鼠源样本:GRCm39
以GRCh38为例,构建完成是在2013年,距今已经十年了,这十年我们对人类基因组的认识又有着很大的进步,当然在这个过程中,GRCh38不是一成不变的,大部分是修修补补。
人类基因组一个主要的变化发生在2022年,人类完整基因组发布了:T2T(Telomere-to-Telomere )基因组指通过PacBio HiFi、ONT Ultra-long、Hi-C等多种测序技术结合,实现染色体端粒到端粒水平组装的0 gap基因组。这一基因组的发布,不仅是人类基因组的完善,也为更多物种基因的构建提供了生物信息方法与流程。
当然,我们今天主要讨论的还是参考基因组从GRCh38
到 T2T
的转变,对单细胞多组学数据的影响。
在这之前,我们需要了解二者之间的差异。2022年3月31日~4月1日,Science以特刊形式发表了端粒到端粒(T2T)联盟的研究成果,报告了最新的人类参考基因组(T2T-CHM13),包括人类所有22条常染色体和X染色体的无缝组装。该成果完成了人类基因组计划(GRCh38)中8%尚未解决的任务。
在文章The complete sequence of a human genome
中,做了二者在基因组注释,完整性等方面的比较,T2T自然是信息更为全面的一个版本,而且很可能是最后一个版本。
令人好奇的是:人类T2T基因组发布已经2年多了,为什么单细胞多组学的数据还在使用GRCh38,而没有升级到信息更全的T2T呢?
原因可能是以下几个:
没必要,以单细胞转录组为例,用于定量的只是3‘端的信息,用T2T差别不大。 随大流,大家用的都是GRCh38,已经发了这么多文章 流程强,官方给的构建参考基因组的流程用的都是GRCh38 成本大,已经用GRCh38做了分析,换参考基因组成本高 重点论,我做的不是基因组,把重点放在下游分析就行了
我相信,T2T参考基因组定将用于单细胞多组学分析,原因也有几点。
第一,对单细胞转录组定量差异也许不大,但是对全长转录组或单细胞表观组的定量影响会大一些。以表观组为例,在文章Epigenetic patterns in a complete human genome
中,作者比较了表观层面两个基因组的差异,用T2T参考基因组识别的峰更多一些。
第二,GRCh38已经用了十年,而T2T的质量之高,下一个十年必然成为主要的参考基因组。
第三,随着单细胞组学维度的增加,如单细胞全长,单细胞三代,单细胞基因组,单细胞表观等技术的开发,完整基因组的必要性日益凸显。
基因组的完善,也将推进单细胞多组学走进新的前沿。
晚安了,有没有冲动一下,用T2T基因组来分析自己的单细胞数据呢?
你的运来
20240919
于北京