【微生物数据个性化分析及挖掘系列】进化分析:重组对遗传距离的影响

学术   2024-11-22 14:35   上海  
高通量测序技术成本的降低和常规成熟技术的广泛普及,让数据高效且标准化的产出满足了研究者“获取数据”的基本需求,但同时,也使得标准的信息发掘基本不存在任何壁垒,直接的数据罗列展示和简单的描述性总结已无法发表科研论文,怎么才能让“沉睡的”测序数据“活起来”,怎么才能在越来越“卷”的科研界脱颖而出,获得有价值的科研方案和研究数据,成为了困扰绝大部分研究者的大难题。

•如何盘点大量的测序和生信基础数据?
•如何基于已有材料和研究目的,匹配有针对性的研究方法?
•如何层层深入、抽丝剥茧、彼此贯通、相互印证并最终对相关问题提出有建设性的回答?如何个性化地设计研究方案和展示研究结果?
这,才是考验研究人员功力的重点和难点,也是高质量文章的核心!

上海唯那生物专注于微生物研究,一直以微生物个性化分析方案定制服务著称,团队扎实的理论积淀和极其丰富的项目经验,已然成为了微生物研究领域的一面旗帜。
唯那生物旗下公众号“密码子实验室”持续分享微生物研究专业技能资料,“密码子学院”平台中发布了大量专业技能课程,唯那团队,一直用专业技能为科研工作者赋能!

【关注我们】 



Part1


 

今天聊聊进化研究。

关于进化分析很多老师并不陌生,只要涉及到比较基因组分析或者对群体的研究,进化相关的分析必不可少,但是不论从分析方法的选择上还是对结果的解读与挖掘上,相信大部分的老师都是不太清楚的。
“不就是建个进化树嘛,有啥难的……”——不止简单建个树
经常会有老师问到这方面的问题,譬如,
    • 应该用什么方法建树呢?
    • 我的研究适合哪种方法呢?
    • 为啥我的结果和预期或别人的结果不一致呢?
    • 这个结果怎么看,模型怎么选择呢?
    • 我想做time-scaled tree咋做呢?
    • 我想预测菌群之间分歧的时间?
    • 怎么推测某个clade的root date?
    • 这个clade是咋做的?
    • 进化速率如何计算?

………………………………........

进化是一个非常庞大且复杂的研究课题,后面我们会陆续拆分成多个专题给大家介绍,也会有相关的课程在密码子学院上线(https://college.mimazi.net/),已有的课程大家有需要也可以学习。欢迎大家与我们沟通和交流(客服微信号:winnerbio01)。


Part2


 

今天我们先就大家经常提到的问题简单的聊一聊。


在很多研究方向上都会用到进化树,比如群体的多样性和系统进化研究刻画和重建菌株的爆发事件全球群体结构分析流行病学研究等等,最常用的建树方法是ML法(maximum likelihood),相关的软件如PhyML、RAxML、FastTree,另外一种比较常用的建树方法是贝叶斯(Bayesian),相关的软件如BEAST、MrBayes,结果往往更精确,但因为计算比较复杂,耗费的时间和资源比较多,尤其是针对大样本量的分析,所以从使用的频率上来讲不如ML高。
但是不论哪种方法建树,都必须考虑基因组重组问题。

细菌做为原核生物,遗传变异不仅来源于点突变重组也是重要的进化驱动事件。细菌以种群的方式存在,因此种群间或种群内往往都存在着频繁的重组现象。
重组根据机制可以分为:
    • 转换

    • 转导

    • 接合

    • 溶源性转变

根据变化的序列特性可以分为:
    • 同源性重组:由同源性较高的序列介导,替换后序列接近

    • 基因水平转移:而对于非同源性序列的替换


一般而言,基因组上点突变事件发生的频率是比价稳定的,可以用来做物种系统发育和进化关系分析,而同源重组事件在进化上会改变细菌的遗传距离,如果将重组做为点突变来构建系统发育会改变遗传进化结果。因此在做物种系统发育分析时,应将重组带来的碱基变化去除。重组事件有可能会被误认为是正向选择压力(自然选择)事件,因此需要需要对其进行筛选。如上所述,重组也是基因组进化的主要驱动因素,所以对重组事件的识别和分析也是也就物种进化的重要课题。

这么讲直观理解上可能没那么容易,给大家举个例子,
比如在一个已知发生了重组事件的研究中,假设重组片段(即片段从donor重组到了recipient)的平均大小δ = 591bp [528–691],在序列从donor到recipient过程中引入的碱基替换(率)ν = 0.032 [0.031–0.033],而在进化过程中基因组上重组率和突变率的比值R/θ = 0.30 [0.25–0.35],那么从上述情况来看,重组发生的频率低于突变发生的频率,大概是突变的1/3(R/θ = 0.30 ),但是呢,虽然它的频率低,但是一次重组平均要涉及591bp的片段(δ = 591bp),那么一次重组引入的碱基替换为δν=19,相比于突变,虽然重组的频率很低(R/θ = 0.30),但重组引入的碱基替换(substitutions)实际上为突变的6倍(19*0.3)。而进化树的构建主要就是基于序列间碱基的替换,所以对于物种系统发育和进化关系研究而言,6倍的差异会改变细菌间的遗传距离,导致与实际的进化关系不一致。
举个例子:

DOI:10.1371/journal.pcbi.1004041


上图是针对同一群体的系统进化树,A图是真实的真实的进化关系(数据是模拟的),B图是未考虑重组事件构建的进化树,C图是屏蔽重组位点后构建的进化树。图中红框标注的是3个树之间的不同。显然,C图能更真实地反映样本间的进化距离。

因此在实际研究中,重组的识别及屏蔽对进化关系推断的准确性非常重要。

如上所述,细菌进化的驱动因素有两大类,进化研究的是物种间的垂直进化关系,因此发生频率比较稳定的突变就能更真实的体现物种间一路来的进化关系。而基因组的横向进化如重组,水平转移等,是在短时间内引入大片段的外源序列,就想一个突发事件,一下子引入大量的突变,如果不进行识别和区分,就会将其计入遗传距离,自然就会影响遗传进化的结果了。
因此,对物种的遗传进化研究,不论是为了构建进化树,还是进行SNP的分析、亦或是从基因层面上分析进化的驱动因素(subclade‑specifc genes and SNPs),重组事件都是必须要考虑的因素。

Fig1

https://doi.org/10.1038/s41598-024-70540-1


这是研究1个医院内15年间大肠杆菌进化关系的文章,上图(fig1)是屏蔽重组位点后基于SNP构建的系统发育树,可以看到,15年间的样本在进化上分为3个clade,其中cladeC里面有3个subclade,至于这些clade的root时间以及subclade是在何时分化的,可以通过timetree的方法进行推测,这块内容我们会在后面和大家讨论。
基于上述结果,作者又分析了subclade‑specifc genes and SNPs(fig3),也就是看看cladeC继续分化为subcladeC1和subcladeC2基因组上的驱动因素是什么,在相关基因及SNP的分析中同样需要屏蔽重组位点。

我们这期就先聊到这,后面我们会在这个专题下继续和大家讨论,除了进化专题还会有大家关心的其他话题,可以持续关注我们,或者加入我们的讨论群。

大家需要讨论或者需要我们聊的话题也可以直接和我们微信沟通。


Part3


 

常见个性化分析包括以下几个类型:

    • 群体进化数据挖掘

    • 个体差异比较分析

    • 耐药和毒力深度研究

    • 泛基因组和GWAS分析

    • 多组学联合分析

    • 菌群相关性网络图分析


密码子实验室
我们一直坚持认为,让知识更有价值,让科学研究更简单,让实验室管理更智能化,让每一个热爱学习的人更有效率,是我们的使命。生物信息学实操、实验操作技能、科研绘图技巧、行业动态播报,这里只有干货。
 最新文章