干货!一文教会你,如何判断你的研究物种是同源or异源!

文摘   2024-12-31 08:01   内蒙古  

小师妹

师姐,我这边最近刚采集了一个植物样本,是xx属的物种,想组装一下这个物种的基因组,推荐测序方案和数据量是多少呢?

师妹啊,你这个物种的参考基因组有吗?基因组大小是多少?是多倍体吗?同源?异源?组装到什么水平呢?染色体水平orT2T水平?

小编

小师妹

暂时没有参考基因组呢,应该是个多倍体,同源异源不是很清楚?是想组装到染色体水平,师姐你刚问的那些信息没有的话,是不是做不了基因组测序啊?

师妹,是这样哈,不清楚目标物种的基因组大小,杂合度以及倍性,无法给出比较合适的测序方案,这些特征会显著影响后续的基因组组装质量。建议可以先做个基因组survey,评估一下基因组的大小和复杂度,再确定最终的测序方案。

小编

上述这个问题在基因组测序中属于一个经常会碰到的常规问题,尤其是对于一些非模式的物种,因其通常具有更高的倍性或更高的杂合率,在测序组装中大大增加了难度,因此在组装之前了解目标物种的基因组大小,复杂度包括倍性是至关重要的。那么,基因组评估的方法是什么?如何能比较快速且准确的知道自己的目标物种的基因组大小,是同源or异源呢?

别急,干货来了,本期主要就是来跟大家聊一聊基因组评估的一些常用方法和工具。

基因组评估标准

基因组复杂程度的判断标准包括:基因组大小,倍性,杂合度,重复序列比例,GC含量等。一般而言,基因组越大,重复序列比例越高;GC含量异常低或异常高,重复序列比例也会很高;多倍体基因组的杂合度高于二倍体。

判断基因组复杂程度可以参考以下经验性标准:

简单基因组:单倍体;或纯合二倍体;或杂合度低于0.5%,且重复序列低于50%,且GC含量在35%-65%的二倍体。

复杂基因组:杂合度在0.5%~1.2%之间,或重复序列高于50%,或GC含量异常(<35%或>65%)的二倍体,或者多倍体。

高复杂基因组:杂合度>1.2%;或重复序列占比大于65%。

基因组评估方法

常用的三种基因组复杂程度评估的方法为核型分析、流式细胞术以及基因组survey。前两种方法由于实验的性质都存在一定的劣势,例如实验周期过长、实验操作过程繁琐且受到诸多影响因素的限制等。基于k-mer分析的值可以得到基因组大小、倍性、杂合度、重复序列比例以及样本是否存在污染,信息更全面、准确且分析周期更快,是目前评估基因组大小较为方便且使用最多的一种方法。

基因组评估工具——Genomescope

以下是不同杂合度基因组的survey结果展示图,主要基于工具Genomescope,如图所示,蓝色柱子是kmer的观测值;橙红色拟合线部分对应着深度过低的kmer,这些kmer被认为是测序错误引入的;黑色拟合线是除去被认为是错误的部分(橙红色拟合线部分)之后剩下的所有k-mer,这些被认为是可靠的kmer数据;黄色拟合线被认为来自基因组非重复区域的K-mer分布;垂直的黑色虚线为预测最低深度峰的整数倍覆盖度。

图1 (左图)杂合度低于0.5%的简单二倍体,(右图)杂合度0.5%的二倍体。
图2 (左图)杂合度大于0.5%小于1%的二倍体,(右图)杂合度1%的二倍体。
图3 (左图)杂合度大于1.5%的二倍体,(右图)高repeat%的二倍体。

但以上这些分析结果可以看出主要是针对二倍体,采用的分析软件是GenomeScope 1.0版本。2020年GenomeScope 2.0(https://github.com/tbenavi1/genomescope2.0)版本发表,相较于1.0,该版本可以针对多倍体进行基因组评估,同时可与Smudgeplot方法(https://github.com/KamilSJaron/smudgeplot)进行结合来估计基因组的倍性和基因组结构,已经被广泛应用于多种复杂多倍体基因组研究中。例如,2023年发表在Nature Communications上的异源四倍体辣根基因组的研究中,通过GenomeScope 2.0对基因组复杂性进行了评估,如下图所示。

图4 异源四倍体辣根基因组(左图)和同源四倍体马铃薯基因组(右图)复杂度评估。

GenomeScope 2.0的结果与GenomeScope 1.0的主要区别在于杂合度(het)被转化为2.0版本中代表基因型的aa和ab的比例,其中杂合基因型ab的比例即表示杂合度。此外,2.0结果中的p值则代表所设置的物种倍性。例如,对于四倍体基因组来说,杂合基因型aaab比例<aabb,物种是异源四倍体,杂合基因型aaab比例>aabb,物种是同源四倍体。

基因组评估工具——Smudgeplot

此外,Smudgeplot是一种用于基因组分析的工具,主要用于推断物种的倍性和杂合性结构。通过利用k-mer数据,Smudgeplot提供了更为准确的倍性和杂合性推断,减少了误差。Smudgeplot可以与其他工具(如GenomeScope)结合使用,增强分析的全面性和深度,提供更丰富的基因组特征信息。我们以四倍体辣根的基因组Smudgeplot结果为例说明。

热图的横坐标表示相对覆盖度(CovB / (CovA + CovB)),纵坐标代表总覆盖度(CovA + CovB),而颜色则反映了k-mer对的频率。在图上,每种单倍型结构都会呈现为一个"污点(smudge)",污点的颜色深浅代表了该单倍型结构在基因组中出现的频率。频率最高的单倍型结构即为预测的物种倍性结果,(如下图提供了四倍体的证据,aabb频率最高)。

图5 异源四倍体辣根基因组Smudgeplot评估。
图6 六倍体菊花基因组(左图)和八倍体中华鲟基因组(右图)Smudgeplot评估。
凌恩生物专注于高通量测序技术,提供多种类型的动植物基因组科研服务项目,包括动植物基因组de novo、全基因组重测序、简化基因组、全基因组关联分析(GWAS)、BSA、遗传图谱构建等,还可以提供基因组数据构建服务,让数据后期利用更加便利!

参考文献

[1] GenomeScope 2.0 and Smudgeplot for referencefree profiling of polyploid genomes. Nature communications, 2020.

[2] The allotetraploid horseradish genome provides insights into subgenome diversification and formation of critical traits. Nature communications, 2023.

[3] Genome architecture and tetrasomic inheritance of autotetraploid potato. Molecular Plant, 2022.

[4] Analyses of a chromosome-scale genome assembly reveal the origin and evolution of cultivated chrysanthemum. Nature communications, 2023.

[5] Whole-genome Sequencing Reveals Autooctoploidy in Chinese Sturgeon and Its Evolutionary Trajectories. Genomics. Proteomics & Bioinformatics, 2024.

凌恩生物
凌恩生物旗下综合性生物咨询和服务平台。
 最新文章