导读:七月份,李恒开发的基因内容图谱构建软件——Pangene,以标题为:Exploring gene content with pangene graphs的论文论文形式一并发表,发表期刊为Bioinformatics杂志。该软件迎合了群体基因组学时代数据井喷的现状,而一定程度上分析工具和软件算法匮乏做出了有益地探索和补充。Pangene主要功能是基于(单倍型)群体基因组学数据,分析并探索基因结构变异,并将所有待分析的基因结构变异整合到一张图中,更好地代表整个类群或群体的遗传变异和多样性信息。
近日,发表于Nature杂志上,一篇利用公开数据(包括94份人群单倍型基因组数据,来自人类泛参考基因组——HPRC),分析了淀粉酶基因拷贝数目与高淀粉饮食习惯转变之间的关联。研究结果发现:在农业社会起源后,当以往采集,渔猎,畜牧人群转向农业生产后,其饮食中,淀粉来源的食物比例也随之上升;然而这种改变也深刻地影响着人类基因组的变化,94份人群单倍型基因组数据揭示,农业人口基因组中,淀粉酶基因的平均拷贝数目要多于采集,渔猎,畜牧人群。(点击下图跳转阅读推文)
Availability and implementation
Source code at
https://github.com/lh3/pangene;
prebuilt pangene graphs can be downloaded from
https://zenodo.org/records/8118576
visualized at
https://pangene.bioinweb.org
摘要
基因组的基因成分控制着生物的功能。基因成分在物种之间以及同一物种的个体之间存在差异。尽管已经开发了用于识别细菌基因组中基因成分变化的工具,但这些工具都无法适用于大型真核生物基因组集合(如人类泛基因组)。我们开发了Pangene,这是一种计算工具,用于识别一组基因组中的基因方向、基因顺序以及基因拷贝数的变化。Pangene将输入的蛋白质序列与基因组进行比对,解决蛋白质序列之间的冗余问题,并构建基因图,每个基因组在图中表现为一条路径。此外,Pangene还能够识别捕捉基因含量变化的子图,我们称之为bibubbles。应用于人类泛基因组时,Pangene识别出已知的基因水平变异,并揭示了之前未得到充分研究的复杂单倍型。Pangene同样适用于高质量的细菌泛基因组,在核心基因和附属基因数量的报告上与现有工具相当。
背景介绍
人类基因组包含大约20,000个编码蛋白质的基因。其中有少数基因在人群中经常发生拷贝数或基因顺序的变化。这些基因处于快速进化中,可能与免疫反应相关,影响大脑功能和药物代谢,或者与已知疾病相关。它们可能具有深远的生物学和生物医学意义。
得益于最近在测序技术和组装算法方面的进展,我们可以常规实现拷贝数或顺序变化基因的单倍型基因组组装。我们还开发了构建泛基因组序列图的算法,这些图代表了基因组之间的变异。然而,识别这些基因层面的变异并非易事。在人类泛基因组参考联盟(HPRC)使用的三种泛基因组图构建工具中,minigraph(Li等,2020)和minigraph-cactus(Hickey等,2023)无法跨越复杂的基因组区域进行比对,可能会错过长段重复中的基因;PGGB(泛基因组图构建器;Garrison等,2023)则会合并同源基因,导致难以研究单个同源基因。此外,这三种工具都未能直接揭示基因组变异如何影响基因。为了研究基因层面的变异,HPRC不得不手动注释每个单倍型基因组上的基因,这是一项耗时的过程。PGR-TK(泛基因组研究工具包;Chin等,2023)能够从基因组序列重构局部单倍型结构,但它并未直接建模基因,也并非设计用于全基因组数据。目前的人类泛基因组工具并不适用于研究基因层面的变异。
相比之下,细菌泛基因组的研究重点在于蛋白质编码基因,而非基因组序列。甚至在文献中,细菌“泛基因组”通常指的是蛋白质编码基因的集合。已有多种高质量的工具被开发用于构建细菌基因组的基因内容(Page等,2015;Ding等,2018;Gautreau等,2020;Tonkin-Hill等,2020;Zhou等,2020)。简而言之,这些工具从每个基因组的基因注释开始,聚类得到的蛋白质序列,然后对聚类结果进行后处理,以识别同源基因并解决由组装、注释或聚类不完善引起的问题。然而,这些细菌泛基因组工具并未考虑剪接、多个异构体、频繁的片段重复以及人类基因组的巨大规模。目前尚未证明它们能够处理人类泛基因组数据。
在此,我们开发了Pangene,一种用于探索泛基因组基因成分的新型计算工具。与细菌泛基因组流程不同,Pangene通过使用miniprot(Li,2023)将蛋白质序列比对到每个基因组上,有效地注释蛋白质编码基因。由于miniprot可以跨越移码终止密码子和移码突变进行比对,这一过程简化了基因注释,并对输入基因组中的插入/缺失错误具有鲁棒性。此外,Pangene构建了一个双向基因图,能够捕捉细菌泛基因组工具无法检测到的倒位。它还提供了一个算法,用于识别基因拷贝数或基因顺序的变化。Pangene针对人类基因组进行了优化,也适用于细菌基因组。
图1 a, c代表了不同的基因单倍型结构,b和d是通过一张图代表所有基因单倍型结构
图2 Pangene图的构建示例,b为图对应的GFA格式
图3 对Pangene图的注释和调整
图4 携带有倒位Pangene图的示例
图5 使基于bubble查找的网络图复杂化的Pangene图的示例
图6 人类 LRRC37A*基因示例
Pangene 浏览器页面
Cite
Heng Li, Maximillian Marin, Maha R Farhat, Exploring gene content with pangene graphs, Bioinformatics, Volume 40, Issue 7, July 2024, btae456, https://doi.org/10.1093/bioinformatics/btae456