全基因家族鉴定和进化分析(genome-wide identification & evolutionary analyses)对于研究关键基因的生物学功能和物种特异性分化(species-specific evolution & phenotypic diversification)具有重要意义。基因是遗传的基本单位。在跨物种水平,同一基因在不同物种基因组内的复制和家族扩张经常表现出物种特异性,是物种分化和差异性的遗传基础。在同一物种内部,不同个体也通常表现出基因插入或者缺失 (基因拷贝数差异 CNV),是群体遗传多样性的基础。这些基因水平的差异比小的结构变异往往具有更大的功能影响,经常体现出物种和个体对环境适应性并受到自然选择的影响。
随着越来越多物种基因组数据的公开,每年都有大量的全基因组范围内的基因家族分析文章发表。以bHLH 转录因子家族为例,仅植物范围内,截止2024年5月30日不完全统计,就一共有来自53个物种至少65篇类似的文章。局限于基因组数据,传统的研究无一例外都是基于单个参考基因组内的基因调查,用一个个体来代表和描述整个物种,具有很明显的局限性,甚至导致错误的结论。如何全面准确地描述一个基因家族在一个物种内部的真实状态对于相关的物种分化和适应性研究十分关键。
2024年11月08日,Plant Communications (中科院生物学 1区,IF: 9.4)杂志在线发表了来自澳大利亚默多克大学西部作物遗传联盟李承道课院士题组题为 “Pangenome and pantranscriptome as the new reference for gene family characterisation – a case study of basic helix-loop-helix (bHLH) genes in barley”的研究文章,为泛基因组和泛转录组时代的基因家族分析提供了一个参考。
bHLH是植物基因组内仅次于MYB的第二大转录因子家族,参与调控植物生长发育和环境适应的各个方面。作者利用近期发表的大麦20个泛基因组和泛转录组数据,全面调查了bHLH 基因在大麦里的分布,数量,复制扩张机理,和转录特征。文章创新性地同时运用了基于同源基因和全基因组bHLH功能域搜索,有效克服了由基因注释引起的偏差,在20个基因组内共鉴定出3411个bHLH 基因。聚类结果显示,这些bHLH 基因共分为201个同源基因组,远远高于之前基于单个参考基因组的141个bHLH,有效显示了传统分析的局限性。
除了发现更多的bHLH基因,相比传统基于单个参考基因组的分析,基于泛基因组的基因家族分析还带来了以下几个明显优势:
1.基于泛基因组内的保存度,把201 个bHLH 同源基因组分为 140 core, 36 soft-core, 29 shell, and 20 line-specific/cloud bHLHs。每个基因的描述从1维提升到2维,这些信息对于理解和研究单个bHLH基因的功能具有重要意义。
2.我们发现dispensable bHLHs 富集于个别subfamilies,说明bHLH 在大麦基因组内的扩张是有偏向性的。基于之前的研究,这几个subfamilies 跟环境适应性直接相关。这是基于单个基因组的家族分析做不到的。
3.Transposon elements (TEs) 是基因复制和扩张的重要驱动因素。我们通过对TEs 的搜索发现,TEs 的数量在具有CNV 的bHLHs 中显著高于没有CNV的bHLHs。这也是基于单个基因组的家族分析做不到的。
4.我们整合了pangenome 和 pantranscriptome 数据,提供了一个此类分析的参考。
澳大利亚默多克大学西部作物遗传联盟李承道教授为本文通讯作者。已毕业博士研究生童岑博士为本文第一作者,研究员贾永博士为共同第一和共同通讯作者。研究员胡海飞博士及 Brett Chapman博士,杭州师范大学曾章慧博士为本研究做出了贡献。该研究得到了澳大利亚谷物研发中心的资助项目9176507支持。
原文链接:
https://www.cell.com/plant-communications/fulltext/S2590-3462(24)00611-4
推荐阅读: