随着基因组测序技术的进步,植物基因组组装的成本已大幅降低,甚至不足十年前的10%。这使得基因组数据的获取变得更加容易和经济,但同时也带来了新的挑战:如何在众多基因组数据中挖掘出有价值的信息,发表高质量的研究文章。仅依靠基因组组装和注释的结果已经难以满足当前高水平期刊的要求。
比较基因组学是什么?
顾名思义,比较基因组学专注于探究不同物种基因组之间相似性和差异性的分析,通过比较组间的基因组序列,来揭示基因组的结构、功能、进化和调控机制。在植物领域,比较基因组学分析不仅可用于评估个体间不同级别基因组组装质量(T2T基因组和泛基因组等)和挖掘新功能基因,同时也多用于探究物种进化的分子和遗传机制。
如何“玩转”植物T2T基因组,一举冲刺TOP期刊!(点击查看)
植物泛基因组的研究进展及其应用(点击查看)
比较基因组能做什么?
基因家族比较鉴定
基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性, 编码相似的蛋白质产物。比较基因组可识别不同物种间基因家族的差异,包括基因家族的鉴定、特异性、收缩和扩张。
图1 不同物种间基因家族鉴定及特有基因家族分析
分歧进化时间及基因家族扩张和收缩
一般而言, 同一基因家族内的各个基因具有相似的生化功能。一个物种某个基因家族的扩张往往意味着该物种在这方面功能得到加强;反之, 某个基因家族的收缩则意味着该物种在这方面功能的减弱甚至丧失。
图2 收缩与扩张的基因家族分析
分歧进化时间及基因家族扩张和收缩
共线性是指同源基因在物种内或者物种之间的分布或排列关系。有相当多的基因在一个物种中不是以单拷贝的形式出现, 而是多拷贝, 具有基因序列重复事件, 也就是说能行使相同功能的同源基因在同一个物种内可能不只有一条序列, 研究这些同源基因在同一个物种内的重复事件的时候,就是物种内的共线性分析, 研究同源基因在不同物种内的分布情况, 就是物种间的共线性分析。
图3 物种间基因家族共线性分析
全基因组复制事件及正选择分析
全基因加倍/复制(whole genome duplication, WGD) 事件是指基因组内的所有序列都发生重复。在选择压力条件下,重复为生物进化提供了原始的遗传材料, 使植物基因组快速重组, 丢失大量基因, 增加结构变异,对植物进化极其重要。
图4 4dtv分布图及正选择基因功能注释
基因组圈图
基因组圈图可以很直观的反映基因组的基因密度分布, 转座子密度分布, 基因组共线性关系等信息。
图5 基因组圈图展示
由外到内依次为 A:染色体核型分析结果;B:GC 含量;C:蛋白质编码基因密度;D:LTR 转座因子密度;E:染色体间共线性
比较基因组分析物种如何选择?
选择合适的物种进行比较基因组学分析是一个综合性的过程,需要考虑基因组数据的可用性、组装质量、亲缘关系、倍性一致性以及与研究目的的相关性等多个因素。
1.参考基因组的可用性:选择的物种应当有可用的参考基因组,包括蛋白质序列文件和基因注释文件。常用的基因组数据下载网站包括NCBI、Ensemble和Phyzome。
2.基因组组装质量:为了研究的准确性,应选择基因组组装连续性好的物种。若要进行共线性分析,则该物种的基因组需要达到染色体水平。
3.亲缘关系的远近:可以从分类系统出发,更好地从亲缘关系水平寻找近缘物种。与研究目的物种的亲缘关系不宜太远,数目也不宜过多(通常在6-10个左右)。物种间亲缘关系越远,可获取的单拷贝直系同源基因数目越少,这会影响进化树的准确性。
4.已发表的近缘物种基因组文章:可以从已发表的近缘物种基因组文章中的进化树内进行挑选,以此作为参考;或是直接从基因组发表网站上进行挑选,避免所选物种无基因组数据而反复挑选查找的麻烦。
5.倍性一致性:为了避免基因家族扩张与收缩分析结果受到干扰,所分析物种的倍性最好保持一致。异源多倍体通常需要拆分成亚基因组对应的蛋白质序列进行分析。
6.关注物种的选择:需要包含与目标物种具有相似/相反生物功能的物种,通过物种间的比较可以解释说明一定的生物问题,同时也利于后续基因家族功能故事的阐述。
7.物种的代表性:在进行物种选择时,主要遵循了两个原则:①寻求最大化进化分支的长度,每个科中至少包括一个物种;② 优先考虑生物或生物多样性保护感兴趣的物种。
派森诺比较基因组案例精选
IF5.260!叶绿体基因组denovo测序和比较基因组学分析助力前胡属植物进化研究
叶绿体比较基因组学分析研究车前草科植物内缘关系
1
END
1