MBE | 陈华课题组开发HaploSweep：基于单倍型结构检测与区分近期的软硬选择性清除

创业 2024-09-23 21:22 中国

摘要

在群体遗传学中，利用基因组数据识别软选择性清除（soft selective sweeps）是一个具有挑战性但至关重要的任务。因此，我们提出了一种名为HaploSweep的新方法，基于单倍型结构来检测并分类软选择性清除和硬选择性清除（hard selective sweeps）。通过涵盖广泛的选择强度、软选择性清除程度及群体动态历史的模拟分析，我们证明了HaploSweep在检测软选择性清除方面优于iHS、nSL和H12。HaploSweep在符合人类“走出非洲”人口模型的模拟中表现出极高的分类准确率——CHB为0.9247，CEU为0.9484，YRI为0.9829。我们还观察到其分类准确性在不同的人口模型中保持稳定。此外，我们引入了一种改进的方法，能够准确区分硬选择性清除旁边的软肩现象（soft shoulders）与真正的软选择性清除。将HaploSweep应用于千人基因组计划的CHB、CEU和YRI人群基因组数据，发现了多个与群体特异性软选择性清除高度相关的新基因（如HRNR、AMBRA1、CBFA2T2、DYNC2H1和RANBP2等），这些基因与免疫功能和代谢过程密切相关。通过模拟数据和真实数据验证，HaploSweep的表现突显了其作为检测和理解软选择性清除在适应性进化中作用的重要工具的潜力。

###GitHub项目主页：https://github.com/ChenHuaLab/HaploSweep

背景介绍

适应性进化机制的阐明依然是群体遗传学领域的一个核心问题。传统方法通过分析基因组多态性来识别选择性清除，涵盖等位基因频谱、单倍型结构和群体间等位基因频率差异等模式。这些方法基于硬选择性清除的假设，即有益突变（新出现或稀有的突变）在自然选择的推动下达到主导地位，打破了局部多态性模式，产生了与中性进化过程显著不同的连锁不平衡效应。

在过去的十年中，群体遗传学领域的研究人员逐渐认识到，硬选择性清除并不是自然界中唯一的适应模式。这种观念的转变，部分是为了应对一个事实：在早期阶段，有益等位基因以低频率存在时，因随机漂变而消失的可能性较大。软选择性清除涵盖两种主要情景，包括作用于已有变异的选择（该变异在某段时间内处于中性进化状态），以及在选择性清除过程中多次引入的重复有益突变。这些机制会导致多种适应性单倍型的固定。

软选择性清除周围位点的遗传多态性模式（如等位基因频谱和遗传杂合度水平）比硬选择性清除更加微妙。因此，尽管XP-CLR（Chen等, 2010）等一些方法在检测软选择性清除方面仍有一定效果，但大多数基于硬选择性清除模型的现有方法在检测软选择性清除时能力有限。开发能够有效识别软选择性清除并将其与硬选择性清除区分开来的方法，是当前研究中一个具有挑战性但至关重要的前沿课题。

已有几种方法被提出，大致可以分为以下四类：（1）汇总统计量法，包括H统计量、G统计量和nSL。H统计量涵盖了多种用于衡量或组合第一丰度和次丰度单倍型频率的汇总统计量，在检测软选择性清除和硬选择性清除方面具有良好的表现。G统计量是H统计量的基因型版本。nSL统计量与iHS密切相关，虽然在检测软选择性清除信号方面表现出较好，但缺乏区分软选择性清除与硬选择性清除的能力；（2）概率和最大似然方法，如saltiLASSI和LASSI。LASSI使用单倍型频率谱畸变模型来检测选择性清除并推断群体中正在扫过的单倍型数量。SaltiLASSI则采用复合似然方法，通过搜索基因组中单倍型频率谱空间分布的显著畸变来识别选择性清除；（3）近似贝叶斯计算（ABC）方法。Peter等（2012）采用ABC框架来识别源自已有遗传变异或新突变的选择性清除；（4）机器学习方法，如S/HIC、diploS/HIC和evolBoosting，这些方法将汇总统计量作为预测的序列特征（如Tajima’s D、H12等），通过模拟数据进行训练，以区分硬选择性清除、软选择性清除和中性区域。

尽管这些新开发的方法为探索软选择性清除对自然群体中表型多样性和进化的影响提供了有价值的工具，但仍存在一些局限性。Harris等（2018b）指出，在复杂的非平衡群体动态历史中，H统计量可能失去检测正选择或区分硬选择性清除与软选择性清除的能力。此外，Vy等（2017）发现，使用固定窗口大小计算H统计量在区分选择选择性清除类型时可能效率不高。尽管ABC框架灵活且广泛用于建模，但随着参数和汇总统计量数量的增加，其计算成本变得非常高。这主要是由于参数空间的巨大规模以及拒绝抽样方案本身的效率低下。为ABC选择合适的汇总统计量子集也是一项复杂的任务。此外，机器学习方法需要大量模拟数据进行分类器训练，这涉及到关于数据模拟的主观决策，可能会引入对预假设情景的偏见。因此，测试模型在不同群体动态模型和其他参数下模拟数据的稳健性是至关重要的。关于这些方法局限性的进一步讨论，可参见一些最新的综述。

新方法

因此，我们提出了一种名为HaploSweep的新方法，旨在识别软选择性清除过程中由于搭车效应而产生的独特单倍型结构，并将其与硬选择性清除区分开来。HaploSweep基于并改进了扩展单倍型纯合性（EHH）方法，以适应软选择性清除的复杂性。如图1所示，在软选择性清除过程中，携带有益等位基因的单倍型可以追溯到多个祖先单倍型。由于这些祖先单倍型之间的多样性，携带有益等位基因的单倍型的EHH统计量迅速下降，与中性进化下的单倍型相比没有显著差异。因此，基于传统EHH的检测方法，如iHS，在检测软选择性清除时效力有限。

鉴于软选择性清除期间携带有益等位基因的单倍型具有多祖先聚类特性，我们提出了新的统计量：iHHL以及iHSL。我们将单倍型分为不同的聚类组，并分别为每个聚类组计算iHH。在每个聚类中，单倍型纯合性的下降速率较慢。因此，我们预计在软选择性清除下，iHHL值将显著高于中性进化。iHSL被定义为iHHL(1)和iHHL(0)之间的对数比率，其中括号内的“1”代表衍生等位基因，“0”代表祖先等位基因（更多细节请参考材料与方法部分的HaploSweep统计量iHSL和RiHS章节）。这一统计量能够识别硬选择性清除和软选择性清除。此外，我们还引入了RiHS，它表示iHHL与iHH之间的对数比率，以帮助区分选择性清除类型。

通过大量模拟，我们展示了HaploSweep在不同群体动态历史、选择强度和选择性清除程度下的出色表现。此外，模拟结果表明HaploSweep在选择性清除分类方面具有显著的准确性。将HaploSweep应用于千人基因组计划的数据，揭示了多个潜在的新候选基因，可能对人类适应性进化至关重要。我们的方法在模拟数据和实际数据中的表现，凸显了其在检测和理解软选择性清除在适应性进化中的重要性。

通讯作者

陈华-北京基因组所

履历：

· 2007年，毕业于加利福尼亚大学伯克利分校，获综合生物学博士VS统计学硕士；

· 2008年-2012年，哈佛大学医学院与公共卫生学院，博士后；

· 2015年，入选中国科学院“百人计划”；

· 2015年至今，任北京基因组所研究员，博士生导师。

研究方向：

理论群体遗传学VS计算基因组学· 运用溯祖理论、隐性马尔可夫模型等对群体遗传多态的进化规律进行建模，构建相关的统计方法用于基因组数据的分析，从而推断群体水平和物种水平的进化动态，鉴定自然选择发生的基因位点和进化机制；· 发展用于复杂形状的表型-基因型关联分析的统计遗传学方法，并用于研究大规模人群中多基因疾病和复杂性状的遗传机制。课题组目前开展的课题包括：对东亚现代人群的体貌特征和代谢性疾病的遗传学机制进行解析。

陈华课题组

Cite

Shilei Zhao, Lianjiang Chi, Mincong Fu, Hua Chen, HaploSweep: detecting and distinguishing recent soft and hard selective sweeps through haplotype structure, Molecular Biology and Evolution, 2024;, msae192, https://doi.org/10.1093/molbev/msae192

http://mp.weixin.qq.com/s?__biz=MzI3MTE4MjIyMA==&mid=2247486500&idx=1&sn=6031c4dbd0ca2b534f905fad29b5098d

进化随想

生物学的一切都是相比较而言

最新文章

bioRxiv | 禾本目比较基因组学分析揭示了禾草的代谢创新

IF=32.1 | Innovation 2024年发文量统计

Nature | AI撰写系统综述（systematic review）可行吗？

新书推荐 | Evolution Evolving——进化演变

Science | 地球生物基因组计划2032年前完成170万个物种参考基因组测序

ANAgdb：无油樟-睡莲-木兰藤多组学数据库

美洲满江红基因组

bioRxiv | 榕小蜂基因组助力揭示榕树-榕小蜂互利共生的秘密

颤杨：地球上最长寿生物量最大的生物的进化秘密

CNS三大出版社支持中文作者名展示

综述 | 基因重复驱动的演化：基因组学时代的回顾与展望

Nature Human Behaviour |中国的预聘长聘制对心理健康的影响

Science主编：中国向Science投稿的数量已经超过美国

Science vs Nature | 淀粉酶基因拷贝数目变异与农业社会的关联研究-竞争激烈

新书推荐 | 进化生物学百科全书-第2版（2025）

10份蝙蝠参考基因组阐明了病毒耐受性和疾病抵抗力的演化

什么是B染色体？重新审视先前的定义

Cell Genomics | 泥鳅单倍型基因组与呼吸空气相关基因的筛选

祝贺马红教授担任美国植物生物学家协会(ASPB)主席

Horticulture Research | 龙眼 Oligo FISH 设计巧思——降低一半oligo pool合成成本

Nature protocols | 动植物精细胞基因组测序分型与减数分裂重组位点检测

爬友狂喜！睫角守宫基因组发布——助力断尾后不再生机制研究

长篇综述：基因组时代的k-mer方法

Science杂志等了57天，就为给这篇文章配一个封面

关注！Scientific Data年发文量趋势

两栖动物基因组联盟——AGC：助推两栖动物基因组遗传研究与保护

The Plant Cell迎来新主编——Pablo Manavella

收藏帖！植物细胞遗传学与基因组学在线数据库资源

Nature? 茄属泛基因组揭示重复基因在作物育种中的作用和命运

Nature | 培养分类学家应该列为昆明生物多样性基金的优先事项

浙江大学赵云鹏团队有效界定天竺桂、普陀樟、浙江樟的物种界限

MBE | 陈华课题组开发HaploSweep：基于单倍型结构检测与区分近期的软硬选择性清除

Nature | 利用纳米孔进行蛋白质测序的探索

为什么像新加坡这样的城市国家能持续发现珍稀植物？

Science发文再谈病毒泄露事件

Nature | 发现一个寄生蜂新种（寄生成体果蝇）

南昌大学流域生态学研究所戎俊团队揭示重要木本油料植物油茶的杂交起源

GW：染色体水平基因组学数据的超快可视化工具

bioRxiv | 褐藻性染色体的起源与演化轨迹

Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

跳蚤蟾蜍、侏儒虾虎鱼和大黄蜂蝙蝠：研究人员致力于破解小型动物的演化之谜

Science | News: 蚯蚓的祖先从海洋过渡到陆地，或许与其重新洗牌的基因组有关

中国科学院昆明植物研究所周伟/李德铢研究团队揭示雌雄异株植物株高二态性对花粉和种子散布的影响

中国科学院南京地质古生物研究所史恭乐研究团队发现1500万年前热带季雨林中绽放的银缕梅

Nature | 单倍型群体基因组学揭示农业人口耐受高淀粉饮食与淀粉酶基因复制有关

禾本科盐草T2T基因组组装助力解析雌雄异株，B 染色体和耐盐的秘密

Nature Methods | SplitsTree：系统发生树（网络）的交互式分析与可视化

中国海洋大学方宗熙海洋生物进化与发育中心科研助理招聘

中国科学院植物研究所汪小全研究团队揭示：中国裸子植物采集史——过去、现在和未来

北京林业大学生态与自然保护学院董文攀研究团队揭示：系统发生多样性和种间竞争共同塑造木犀科女贞属物种多样性格局

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉