小师妹
师姐,我这边最近刚采集了一个植物样本,是xx属的物种,想组装一下这个物种的基因组,推荐测序方案和数据量是多少呢?
师妹啊,你这个物种的参考基因组有吗?基因组大小是多少?是多倍体吗?同源?异源?组装到什么水平呢?染色体水平orT2T水平?
小编
小师妹
暂时没有参考基因组呢,应该是个多倍体,同源异源不是很清楚?是想组装到染色体水平,师姐你刚问的那些信息没有的话,是不是做不了基因组测序啊?
师妹,是这样哈,不清楚目标物种的基因组大小,杂合度以及倍性,无法给出比较合适的测序方案,这些特征会显著影响后续的基因组组装质量。建议可以先做个基因组survey,评估一下基因组的大小和复杂度,再确定最终的测序方案。
小编
上述这个问题在基因组测序中属于一个经常会碰到的常规问题,尤其是对于一些非模式的物种,因其通常具有更高的倍性或更高的杂合率,在测序组装中大大增加了难度,因此在组装之前了解目标物种的基因组大小,复杂度包括倍性是至关重要的。那么,基因组评估的方法是什么?如何能比较快速且准确的知道自己的目标物种的基因组大小,是同源or异源呢?
别急,干货来了,本期主要就是来跟大家聊一聊基因组评估的一些常用方法和工具。
基因组评估标准
基因组复杂程度的判断标准包括:基因组大小,倍性,杂合度,重复序列比例,GC含量等。一般而言,基因组越大,重复序列比例越高;GC含量异常低或异常高,重复序列比例也会很高;多倍体基因组的杂合度高于二倍体。
判断基因组复杂程度可以参考以下经验性标准:
简单基因组:单倍体;或纯合二倍体;或杂合度低于0.5%,且重复序列低于50%,且GC含量在35%-65%的二倍体。
复杂基因组:杂合度在0.5%~1.2%之间,或重复序列高于50%,或GC含量异常(<35%或>65%)的二倍体,或者多倍体。
高复杂基因组:杂合度>1.2%;或重复序列占比大于65%。
基因组评估方法
常用的三种基因组复杂程度评估的方法为核型分析、流式细胞术以及基因组survey。前两种方法由于实验的性质都存在一定的劣势,例如实验周期过长、实验操作过程繁琐且受到诸多影响因素的限制等。基于k-mer分析的值可以得到基因组大小、倍性、杂合度、重复序列比例以及样本是否存在污染,信息更全面、准确且分析周期更快,是目前评估基因组大小较为方便且使用最多的一种方法。
基因组评估工具——Genomescope
以下是不同杂合度基因组的survey结果展示图,主要基于工具Genomescope,如图所示,蓝色柱子是kmer的观测值;橙红色拟合线部分对应着深度过低的kmer,这些kmer被认为是测序错误引入的;黑色拟合线是除去被认为是错误的部分(橙红色拟合线部分)之后剩下的所有k-mer,这些被认为是可靠的kmer数据;黄色拟合线被认为来自基因组非重复区域的K-mer分布;垂直的黑色虚线为预测最低深度峰的整数倍覆盖度。
但以上这些分析结果可以看出主要是针对二倍体,采用的分析软件是GenomeScope 1.0版本。2020年GenomeScope 2.0(https://github.com/tbenavi1/genomescope2.0)版本发表,相较于1.0,该版本可以针对多倍体进行基因组评估,同时可与Smudgeplot方法(https://github.com/KamilSJaron/smudgeplot)进行结合来估计基因组的倍性和基因组结构,已经被广泛应用于多种复杂多倍体基因组研究中。例如,2023年发表在Nature Communications上的异源四倍体辣根基因组的研究中,通过GenomeScope 2.0对基因组复杂性进行了评估,如下图所示。
GenomeScope 2.0的结果与GenomeScope 1.0的主要区别在于杂合度(het)被转化为2.0版本中代表基因型的aa和ab的比例,其中杂合基因型ab的比例即表示杂合度。此外,2.0结果中的p值则代表所设置的物种倍性。例如,对于四倍体基因组来说,杂合基因型aaab比例<aabb,物种是异源四倍体,杂合基因型aaab比例>aabb,物种是同源四倍体。
基因组评估工具——Smudgeplot
此外,Smudgeplot是一种用于基因组分析的工具,主要用于推断物种的倍性和杂合性结构。通过利用k-mer数据,Smudgeplot提供了更为准确的倍性和杂合性推断,减少了误差。Smudgeplot可以与其他工具(如GenomeScope)结合使用,增强分析的全面性和深度,提供更丰富的基因组特征信息。我们以四倍体辣根的基因组Smudgeplot结果为例说明。
热图的横坐标表示相对覆盖度(CovB / (CovA + CovB)),纵坐标代表总覆盖度(CovA + CovB),而颜色则反映了k-mer对的频率。在图上,每种单倍型结构都会呈现为一个"污点(smudge)",污点的颜色深浅代表了该单倍型结构在基因组中出现的频率。频率最高的单倍型结构即为预测的物种倍性结果,(如下图提供了四倍体的证据,aabb频率最高)。
参考文献
[1] GenomeScope 2.0 and Smudgeplot for referencefree profiling of polyploid genomes. Nature communications, 2020.
[2] The allotetraploid horseradish genome provides insights into subgenome diversification and formation of critical traits. Nature communications, 2023.
[3] Genome architecture and tetrasomic inheritance of autotetraploid potato. Molecular Plant, 2022.
[4] Analyses of a chromosome-scale genome assembly reveal the origin and evolution of cultivated chrysanthemum. Nature communications, 2023.
[5] Whole-genome Sequencing Reveals Autooctoploidy in Chinese Sturgeon and Its Evolutionary Trajectories. Genomics. Proteomics & Bioinformatics, 2024.