点击蓝字关注我们
基因组Survey分析(也称为基因组调研图分析)是基因组学研究的基础步骤,通过对基因组的初步测序与分析,研究人员能够获得关于基因组大小、杂合度、重复序列比例等关键信息。这一过程不仅为全基因组组装研究奠定基础,还为项目规划、数据质量评估提供了关键参考。
一、 基因组Survey分析的技术原理
基因组Survey分析的核心是k-mer分析,通过对测序数据中的短片段进行分布统计,预测基因组特征。不同频率的k-mer分布揭示了基因组的杂合度和重复序列的比例,k-mer分析的结果帮助研究者了解基因组的大致情况。
简单而言,k-mer是一段长度为k的序列,而后面的mer即为monomeric unit(单体单元),即把测序reads分成长度为k的单元,步长为1。因k-mer包含k个碱基,若一段核酸序列长度为L,以一个碱基为步长进行滑动,那么根据这个核酸序列就可以得到L-k+1个mer。下图以长度为11nt的DNA序列为例,选取k=4,则会得到(11-4+1=8)个4-mer。
图1 以ACGAGGTACGA序列中的4-mer为例
(图源:https://medium.com/swlh/bioinformatics-1-k-mer-counting-8c1283a07e29)
将测序得到的序列切为k-mer后,可以通过分析k-mer的频率分布来推测基因组的大小、杂合度和重复序列比例等关键信息(见图2)。不同k-mer的频次反映了基因组中重复序列和杂合序列的分布情况。通常,k-mer频率较高的区域代表重复序列,而低频的k-mer则可能代表杂合区域或特异序列。通过构建k-mer频率分布图,可以观察到主峰及次峰的位置,从而推测出基因组的总体特征。正常的二倍体呈现1:2:4,即杂合峰、主峰、重复序列峰三个峰的分布情况。
图2 k-mer频率分布示意图
(图源:http://www.zhangzhiyuan.site/archives/kmer-ping-gu-ji-yin-zu-da-xiao)
二、 Survey分析的关键指标及研究建议
在基因组Survey分析中,几个关键指标直接影响后续的基因组组装与分析策略。这些指标通过k-mer分布图来评估,包括基因组大小(Genome Size)、杂合度(Heterozygosity)以及重复序列比例(Repeat Content)。它们不仅有助于理解基因组结构的复杂性,还能为选择合适的测序深度提供科学依据。
1.测序深度建议
在进行基因组Survey分析时,推荐使用Illumina/DNBSEQ二代测序平台,推荐的测序深度为30X-50X,这通常适用于大部分基因组,能确保分析结果的准确性和完整性。
2.研究物种基因组大小未知,该如何确定测序量
当物种的基因组大小未知时,估算合适的测序量可能变得十分棘手。为了有效进行Survey分析并推测基因组大小,可以采用以下几种方法来帮助确定测序需求:
(1)查找近缘物种数据
可通过常用数据库查找近缘或同属物种的基因组大小,为本物种研究提供参考。常用的数据库包括:NCBI Genome Database、Ensembl、Plant DNA C-values Database(https://cvalues.science.kew.org/)及Animal Genome Size Database (https://www.genomesize.com/search.php)。
(2)实验手段辅助预估
建议结合流式细胞术等实验方法进行补充分析。这些方法能从不同角度评估基因组大小,确保测序工作的顺利进行并为后续的基因组组装提供可靠支持。
三、 Survey分析案例研究与k-mer分布图解析
通过观察k-mer分布图的形状和峰值位置,研究人员可以迅速评估基因组的复杂性及其组装难度。以下我们展示了几类典型基因组的k-mer分布图,帮助大家理解不同类型基因组的kmer分布特性。(本文均参考genomescope2软件的分析结果进行展示说明。)
1.二倍体基因组的k-mer分布图
在二倍体基因组中,k-mer分布图通常呈现出一个显著的主峰,代表二倍体基因组的大多数区域被均匀覆盖,主峰前为杂合峰,主峰后为重复峰。下图展示了二倍体Unio delphinus基因组的k-mer(k=25)分布图,预估基因组大小为2.31Gb,杂合度为0.64%,重复序列比例为46.8%。
图3 二倍体Unio delphinus(k=25)
(数据来源:https://doi.org/10.1038/s41597-023-02251-7)
2.三倍体基因组的k-mer分布图
三倍体基因组的k-mer频率分布图往往显示出多个峰,通常有三个主要峰,分别代表三种不同的等位基因拷贝,综合反映了三倍体的特性。下图展示了三倍体Meloidogyne enterolobii基因组的k-mer(k=25)分布图,预估基因组大小为89.57Mb,杂合度为0.935%,重复序列比例为38.1%。
图3 三倍体Meloidogyne enterolobii(k=25)
(数据来源:https://doi.org/10.1038/s41467-020-14998-3)
3.四倍体基因组的k-mer分布图
四倍体和多倍体基因组的k-mer分布图中,通常可以观察到多个峰值的特征。主峰对应于高拷贝数区域的k-mer,这些区域在测序过程中显示出较高的一致性和覆盖度。而较小的峰值则表示倍性扩展后的基因组片段。下图为异源四倍体Gossypium barbadense(图4a)和同源四倍体Solanum tuberosum(图4b)的genomescope拟合结果。
在异源四倍体的genomescope结果中,表现出aaab < aabb的特征,而同源四倍体的图则显示出aaab > aabb的特征。
图4 异源四倍体Gossypium barbadense和同源四倍体Solanum tuberosum(k=21)
(数据来源:https://doi.org/10.1038/s41467-020-14998-3)
4.六倍体基因组的kmer分布图
六倍体基因组的kmer分布图通常显示出多个峰,这些峰对应于来自不同等位基因的k-mer,表明基因组的多样性和复杂性。同时,较小的次峰可能代表较低拷贝数的序列或在倍性扩展过程中引入的新基因组片段。整体上,六倍体基因组的k-mer分布通常呈现出较宽的频率范围,表明对应基因组的复杂程度(图5)。
图5 六倍体Triticum aestivum(k=21)
(数据来源:https://doi.org/10.1038/s41467-020-14998-3)
四、 样本的污染评估
在基因组Survey分析过程中,除了常规的k-mer分布分析,针对测序数据的质量评估也同样重要。在实际分析中,可以通过将reads数据与NT(Nucleotide)数据库进行比对,来判定样本的污染情况。这一步骤可以帮助识别潜在的污染物,如细菌、真菌或其他非目标物种的DNA,以确保后续分析的准确性。
五、 复杂基因组的倍性判断
植物中容易出现多倍体基因组情况,此时常规的调研图无法完全判断倍型的时候,可以用到如:smudgeplot以及PlodyFrost等软件进行基因组的倍型评估。这些软件使用kmer原始数据进行分析,对于数据中存在的杂合kmer进行进一步覆盖度的评估,可以得到不同杂合情况中杂合与纯和的相对比值,以此进行复杂基因组的倍型评估。可用于复杂的基因组,如:三倍体、同源多倍体、同源异源多倍体的辅助判断。
图6 sumdgeplot结果示意图
(数据来源:https://github.com/KamilSJaron/smudgeplot)
六、 Survey分析常见问题解答
1、 Q:基因组survey的关键指标(基因组大小、杂合度、重复序列比例),是如何通过k-mer分析得到的?
A:
1)基因组大小(Genome Size)的估算基于k-mer的频率分布。通过统计不同k-mer的出现频率,可以推算出基因组的总长度。
计算公式为:Genome Size ≈ 总k-mer数 / 平均k-mer覆盖度
其中,总k-mer数指的是在所有测序reads中识别出的k-mer的总数,而平均k-mer覆盖度是指每个k-mer在测序数据中出现的平均次数。
2)杂合度(Heterozygosity)可以通过比对主峰和次峰的高度和数量进行估算。
参考计算方式:Heterozygosity = 杂合k-mers数 / 总k-mers数
即k-mer频率分布中次峰的数量和频率可用作杂合度的指示。
3)重复序列比例(Repeat Content)通过k-mer的频率进行预估,出现多次的k-mer通常与重复序列相关。
参考计算方式:Repeat Content = 1 - ( unique k-mers数 / 总k-mers数)
2、 Q:不同软件分析出来的survey结果会有差异吗?
A:在基因组survey分析中,GCE(genomic charactor estimator)和GenomeScope2是两款常用的分析工具,它们通过k-mer频率分布来评估基因组特征,如基因组大小、重复序列比例和杂合度。由于这两款软件在模型和数据处理上的不同,分析相同数据时可能会导致结果差异。
3、 Q:如果k-mer分布图显示物种疑似是多倍体样本,该如何处理?
A:当k-mer分布图显示物种可能为多倍体样本时,并且无研究背景支持的情况下,建议采用smudgeplot软件进行初步的倍型预估。smudgeplot能够有效分析样本的k-mer频率,帮助我们判断物种的倍型特征。然而,仅凭软件分析结果可能不足以做出最终判断,因此强烈建议结合流式细胞术和核型分析等实验结果。通过这些实验,可以从不同的角度综合评估物种的倍型情况,为后续的测序量确定和组装策略提供更加可靠的支持。
4、 Q:如何处理样本数据中的杂质或污染reads对k-mer分析的影响?
A:样本中的杂质或污染物可能影响k-mer的准确性。通过严格的质控步骤和清洗数据可以减少这些影响。但如果污染比例>5%,则认为该样本存在严重污染,建议更换样本再重新进行测序及survey分析。
5、 Q:如何选择适当的k-mer进行基因组Survey分析?为什么k通常设置为奇数?
A:常规的动植物基因组选择19-mer进行分析,当k=19时,对于重复序列以及测序错误等情况能够大部分跨过,且足以覆盖大部分的基因组,从而将分析结果达到与实际相近的水平 ;对于不同的基因组情况,可根据实际对kmer大小进行调节,常见的kmer大小有:17、19、21。将k-mer设置为奇数是为了防止k-mer与自身的反向互补序列形成回文序列,同时奇数的 k-mer 长度意味着 k-mer 的中心位置可以明确定义,在一些软件算法中可以方便地用于序列比对和组装算法,以提高准确性。
七、总结
基因组Survey分析是理解基因组特征的基础分析内容,能够提供基因组大小、杂合度等关键信息。通过合理的实验设计与数据分析,研究者可以为基因组组装及进一步研究奠定坚实基础。
参考文献:
1. Gomes-Dos-Santos A, et al. PacBio Hi-Fi genome assembly of the Iberian dolphin freshwater mussel Unio delphinus Spengler, 1793. Sci Data. 2023.
2. Ranallo-Benavidez TR, et al. GenomeScope 2.0 and Smudgeplot for reference-free profiling of polyploid genomes. Nat Commun. 2020.
往期精彩:
IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集
文章解读|异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史
NG详解|泛基因组分析为深入了解柑橘进化和果实柠檬酸积累的关键基因提供线索
贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。
贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。
贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。
贝纳课堂-Nanopore交流QQ群:992789813(本群已满)
贝纳课堂-Nanopore交流QQ群2:923119248
生物信息交流QQ群:198746977
客服QQ:3277498363