Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

创业 2024-09-08 20:39 云南

导读：七月份，李恒开发的基因内容图谱构建软件——Pangene，以标题为：Exploring gene content with pangene graphs的论文论文形式一并发表，发表期刊为Bioinformatics杂志。该软件迎合了群体基因组学时代数据井喷的现状，而一定程度上分析工具和软件算法匮乏做出了有益地探索和补充。Pangene主要功能是基于（单倍型）群体基因组学数据，分析并探索基因结构变异，并将所有待分析的基因结构变异整合到一张图中，更好地代表整个类群或群体的遗传变异和多样性信息。

近日，发表于Nature杂志上，一篇利用公开数据（包括94份人群单倍型基因组数据，来自人类泛参考基因组——HPRC），分析了淀粉酶基因拷贝数目与高淀粉饮食习惯转变之间的关联。研究结果发现：在农业社会起源后，当以往采集，渔猎，畜牧人群转向农业生产后，其饮食中，淀粉来源的食物比例也随之上升；然而这种改变也深刻地影响着人类基因组的变化，94份人群单倍型基因组数据揭示，农业人口基因组中，淀粉酶基因的平均拷贝数目要多于采集，渔猎，畜牧人群。（点击下图跳转阅读推文）

Availability and implementation
Source code at https://github.com/lh3/pangene; 
prebuilt pangene graphs can be downloaded from https://zenodo.org/records/8118576 
visualized at https://pangene.bioinweb.org

摘要

基因组的基因成分控制着生物的功能。基因成分在物种之间以及同一物种的个体之间存在差异。尽管已经开发了用于识别细菌基因组中基因成分变化的工具，但这些工具都无法适用于大型真核生物基因组集合（如人类泛基因组）。我们开发了Pangene，这是一种计算工具，用于识别一组基因组中的基因方向、基因顺序以及基因拷贝数的变化。Pangene将输入的蛋白质序列与基因组进行比对，解决蛋白质序列之间的冗余问题，并构建基因图，每个基因组在图中表现为一条路径。此外，Pangene还能够识别捕捉基因含量变化的子图，我们称之为bibubbles。应用于人类泛基因组时，Pangene识别出已知的基因水平变异，并揭示了之前未得到充分研究的复杂单倍型。Pangene同样适用于高质量的细菌泛基因组，在核心基因和附属基因数量的报告上与现有工具相当。

背景介绍

人类基因组包含大约20,000个编码蛋白质的基因。其中有少数基因在人群中经常发生拷贝数或基因顺序的变化。这些基因处于快速进化中，可能与免疫反应相关，影响大脑功能和药物代谢，或者与已知疾病相关。它们可能具有深远的生物学和生物医学意义。

得益于最近在测序技术和组装算法方面的进展，我们可以常规实现拷贝数或顺序变化基因的单倍型基因组组装。我们还开发了构建泛基因组序列图的算法，这些图代表了基因组之间的变异。然而，识别这些基因层面的变异并非易事。在人类泛基因组参考联盟（HPRC）使用的三种泛基因组图构建工具中，minigraph（Li等，2020）和minigraph-cactus（Hickey等，2023）无法跨越复杂的基因组区域进行比对，可能会错过长段重复中的基因；PGGB（泛基因组图构建器；Garrison等，2023）则会合并同源基因，导致难以研究单个同源基因。此外，这三种工具都未能直接揭示基因组变异如何影响基因。为了研究基因层面的变异，HPRC不得不手动注释每个单倍型基因组上的基因，这是一项耗时的过程。PGR-TK（泛基因组研究工具包；Chin等，2023）能够从基因组序列重构局部单倍型结构，但它并未直接建模基因，也并非设计用于全基因组数据。目前的人类泛基因组工具并不适用于研究基因层面的变异。

相比之下，细菌泛基因组的研究重点在于蛋白质编码基因，而非基因组序列。甚至在文献中，细菌“泛基因组”通常指的是蛋白质编码基因的集合。已有多种高质量的工具被开发用于构建细菌基因组的基因内容（Page等，2015；Ding等，2018；Gautreau等，2020；Tonkin-Hill等，2020；Zhou等，2020）。简而言之，这些工具从每个基因组的基因注释开始，聚类得到的蛋白质序列，然后对聚类结果进行后处理，以识别同源基因并解决由组装、注释或聚类不完善引起的问题。然而，这些细菌泛基因组工具并未考虑剪接、多个异构体、频繁的片段重复以及人类基因组的巨大规模。目前尚未证明它们能够处理人类泛基因组数据。

在此，我们开发了Pangene，一种用于探索泛基因组基因成分的新型计算工具。与细菌泛基因组流程不同，Pangene通过使用miniprot（Li，2023）将蛋白质序列比对到每个基因组上，有效地注释蛋白质编码基因。由于miniprot可以跨越移码终止密码子和移码突变进行比对，这一过程简化了基因注释，并对输入基因组中的插入/缺失错误具有鲁棒性。此外，Pangene构建了一个双向基因图，能够捕捉细菌泛基因组工具无法检测到的倒位。它还提供了一个算法，用于识别基因拷贝数或基因顺序的变化。Pangene针对人类基因组进行了优化，也适用于细菌基因组。

图1 a, c代表了不同的基因单倍型结构，b和d是通过一张图代表所有基因单倍型结构

图2 Pangene图的构建示例，b为图对应的GFA格式

图3 对Pangene图的注释和调整

图4 携带有倒位Pangene图的示例

图5 使基于bubble查找的网络图复杂化的Pangene图的示例

图6 人类 LRRC37A*基因示例

Pangene 浏览器页面

Cite

Heng Li, Maximillian Marin, Maha R Farhat, Exploring gene content with pangene graphs, Bioinformatics, Volume 40, Issue 7, July 2024, btae456, https://doi.org/10.1093/bioinformatics/btae456

http://mp.weixin.qq.com/s?__biz=MzI3MTE4MjIyMA==&mid=2247486316&idx=1&sn=5d24f716d6b76bae43942bb9425c4027

进化随想

生物学的一切都是相比较而言

最新文章

bioRxiv | 禾本目比较基因组学分析揭示了禾草的代谢创新

IF=32.1 | Innovation 2024年发文量统计

Nature | AI撰写系统综述（systematic review）可行吗？

新书推荐 | Evolution Evolving——进化演变

Science | 地球生物基因组计划2032年前完成170万个物种参考基因组测序

ANAgdb：无油樟-睡莲-木兰藤多组学数据库

美洲满江红基因组

bioRxiv | 榕小蜂基因组助力揭示榕树-榕小蜂互利共生的秘密

颤杨：地球上最长寿生物量最大的生物的进化秘密

CNS三大出版社支持中文作者名展示

综述 | 基因重复驱动的演化：基因组学时代的回顾与展望

Nature Human Behaviour |中国的预聘长聘制对心理健康的影响

Science主编：中国向Science投稿的数量已经超过美国

Science vs Nature | 淀粉酶基因拷贝数目变异与农业社会的关联研究-竞争激烈

新书推荐 | 进化生物学百科全书-第2版（2025）

10份蝙蝠参考基因组阐明了病毒耐受性和疾病抵抗力的演化

什么是B染色体？重新审视先前的定义

Cell Genomics | 泥鳅单倍型基因组与呼吸空气相关基因的筛选

祝贺马红教授担任美国植物生物学家协会(ASPB)主席

Horticulture Research | 龙眼 Oligo FISH 设计巧思——降低一半oligo pool合成成本

Nature protocols | 动植物精细胞基因组测序分型与减数分裂重组位点检测

爬友狂喜！睫角守宫基因组发布——助力断尾后不再生机制研究

长篇综述：基因组时代的k-mer方法

Science杂志等了57天，就为给这篇文章配一个封面

关注！Scientific Data年发文量趋势

两栖动物基因组联盟——AGC：助推两栖动物基因组遗传研究与保护

The Plant Cell迎来新主编——Pablo Manavella

收藏帖！植物细胞遗传学与基因组学在线数据库资源

Nature? 茄属泛基因组揭示重复基因在作物育种中的作用和命运

Nature | 培养分类学家应该列为昆明生物多样性基金的优先事项

浙江大学赵云鹏团队有效界定天竺桂、普陀樟、浙江樟的物种界限

MBE | 陈华课题组开发HaploSweep：基于单倍型结构检测与区分近期的软硬选择性清除

Nature | 利用纳米孔进行蛋白质测序的探索

为什么像新加坡这样的城市国家能持续发现珍稀植物？

Science发文再谈病毒泄露事件

Nature | 发现一个寄生蜂新种（寄生成体果蝇）

南昌大学流域生态学研究所戎俊团队揭示重要木本油料植物油茶的杂交起源

GW：染色体水平基因组学数据的超快可视化工具

bioRxiv | 褐藻性染色体的起源与演化轨迹

Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

跳蚤蟾蜍、侏儒虾虎鱼和大黄蜂蝙蝠：研究人员致力于破解小型动物的演化之谜

Science | News: 蚯蚓的祖先从海洋过渡到陆地，或许与其重新洗牌的基因组有关

中国科学院昆明植物研究所周伟/李德铢研究团队揭示雌雄异株植物株高二态性对花粉和种子散布的影响

中国科学院南京地质古生物研究所史恭乐研究团队发现1500万年前热带季雨林中绽放的银缕梅

Nature | 单倍型群体基因组学揭示农业人口耐受高淀粉饮食与淀粉酶基因复制有关

禾本科盐草T2T基因组组装助力解析雌雄异株，B 染色体和耐盐的秘密

Nature Methods | SplitsTree：系统发生树（网络）的交互式分析与可视化

中国海洋大学方宗熙海洋生物进化与发育中心科研助理招聘

中国科学院植物研究所汪小全研究团队揭示：中国裸子植物采集史——过去、现在和未来

北京林业大学生态与自然保护学院董文攀研究团队揭示：系统发生多样性和种间竞争共同塑造木犀科女贞属物种多样性格局

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉