从NCBI的SRA数据库下载了人类、牛和猪的真实WGBS数据:真实数据集A包含9个数据样本(3种哺乳动物×3次重复),每个样本有200万条reads,总计1800万条reads,用于评估算法的运行时间、内存消耗和唯一比对reads。真实数据集B包含18个数据样本(3种哺乳动物×2组×3次重复),其中人类数据来自精神分裂症患者和正常人的大脑,牛数据来自6头公牛的背最长肌,猪数据来自长白猪的骨骼肌,测序深度>30,总计131亿条reads,用于探索比对算法对生物学解释下游分析的影响。
1. 质控QC
对于真实WGBS数据,首先使用FastQC程序进行reads质量控制,然后使用Fastp软件去除接头序列并过滤低质量reads。接着使用14种比对算法(BWA - meth、BSMAP、WALT、Batmeht2、Bismark - bwt2 - e2e、Bismark - his2、BSSeeker2 - bwt、BSSeeker2 - soap2、BSSeeker2 - bwt2 - e2e、BSSeeker2 - bwt2 - local、Abismal、BSBolt、Hisat_3n和Hisat_3n_repeat)进行reads比对。 在模拟数据集A和真实数据集A中,使用14种比对算法将reads比对到参考基因组,记录并分析运行时间和内存消耗,并计算唯一比对reads、比对精度、召回率和F1分数。在模拟数据集B和真实数据集B中,由于BWA - meth、BSMAP、Bismark - bwt2 - e2e、WALT和BSBolt在唯一比对reads和F1分数方面表现突出,后续分析主要集中在这五种算法上。对于真实数据集B的bam文件,检测其CpG位点、DMCs、DMRs、DMR相关基因和信号通路。
2. 指标计算
将reads分为唯一比对reads、多重比对reads和未比对reads。唯一比对reads是指仅比对到参考基因组一个位置的reads,其比例等于唯一比对reads数量除以总reads数量。比对精度、召回率和F1分数通过特定公式计算,其中考虑了真阳性、假阳性和假阴性reads的数量。对于模拟reads,还比较了原始位置和预测位置,将唯一比对reads进一步分为正确和不正确的唯一比对reads,不正确的唯一比对reads、多重比对reads和未比对reads合并为错误比对(unsatisfactory aligned reads)。
1. 在不同测序错误率下,WALT是最快的算法,而BSSeeker2 - bwt2 - local是最慢的算法。
BWA - meth、Hisat_3n、Hisat_3n_repeat、BSBolt、BSMAP和Bismark - his2的运行时间与测序错误率呈正相关。不同算法在人类、牛和猪中的运行时间差异不大,但Batmeth2、BSSeeker2 - bwt2 - local和Abismal除外。此外,比较不同的比对工具和比对算法组合发现,BSSeeker2 - soap2比BSSeeker2 - bwt、BSSeeker2 - bwt2 - e2e和BSSeeker2 - bwt2 - local快,Bismark - his2比Bismark - bwt2 - e2e快,Bismark - bwt2 - e2e比BSSeeker2 - bwt2 - e2e快。
2. 内存消耗与运行时间相反,WALT占用的内存最多,BSSeeker2 - bwt2 - local占用的内存最少。
BWA - meth和BSBolt的内存消耗与测序错误率呈高度正相关。BSSeeker2 - soap2、BSMAP、BWA - meth、WALT、Batmeth2、Hisat_3n、Hisat_3n_repeat和BSBolt消耗的内存比BSSeeker2 - bwt、Bismark - bwt2 - e2e、BSSeeker2 - bwt2 - e2e、BSSeeker2 - bwt2 - local、Bismark - his2和Abismal多。同时,这些算法的内存消耗随着人类、牛和猪基因组大小的减小而降低。
1. 唯一比对reads情况:在模拟数据集中,BWA - meth在0、0.25%、0.50%、 0.75%和1.00%测序错误率下的三个基因组中表现出最多的唯一比对reads,而BSSeeker2 - bwt2 - e2e最少。测序错误率与Hisat_3n_repeat、Hisat_3n、WALT、BSSeeker2 - soap2、BSSeeker2 - bwt2 - local、Batmeth2和BSSeeker2 - bwt2 - e2e的唯一比对reads率呈高度负相关。在真实数据集中,Batmeth2和BSSeeker2 - bwt2 - local在唯一比对reads方面表现出色,但在模拟数据集中其F1分数较低。
2. 比对精度和召回率:WALT显示出最高的比对精度和召回率,而BSSeeker2 - bwt2 - local表现出最低的比对精度和召回率。除BSSeeker2 - bwt外,比对精度和召回率与测序错误率呈高度负相关。
3. F1分数情况: 大多数比对算法在三个基因组中的平均F1分数>90%,但BSSeeker2 - bwt2 - local和Batmeth2除外。基于这些结果,后续分析主要集中在BWA - meth、BSBolt、BSMAP、Bismark - bwt2 - e2e和WALT这五种算法上。
使用模拟数据集B进一步研究发现,BWA - meth表现出最少的错误比对(unsatisfactory aligned reads),WALT最多。随着测序错误率从0增加到1.00%,五种算法的错误比对数量均增加。在人类中,五种算法的错误比对更多,且其中9.2% - 53%的错误比对是相同的。进一步分析发现,错误比对在重复序列和CGI区域比在非重复序列和非CGI区域更多,不同算法在重复序列和CGI区域的富集程度不同。
在真实数据集B中,评估五种算法对甲基化组的影响发现,BSBolt在人类、牛和猪中调用的CpG位点最多,WALT最少。BSMAP在检测CpG坐标和甲基化水平方面表现出最高的准确性,而BSBolt准确性最低。在考虑BWA - meth、BSMAP、Bismark - bwt2 - e2e和WALT四种算法时,WALT可能导致算法间的不一致性,BSMAP准确性更高,且CGIs和重复序列可能保留更多不一致的CpG位点,一致的CpGs在低甲基化和高甲基化水平下可能过度代表,而不一致的CpGs在中间甲基化水平下可能代表不足。
基于真实数据集B,在BWA - meth、BSMAP、Bismark - bwt2 - e2e和WALT四种算法中,BWA - meth调用的DMCs最多,WALT最少。在调用DMCs的准确性方面,BSMAP最高,WALT最低。同样,BWA - meth在比对结果中产生的DMRs最长,WALT最短,且BSMAP在调用DMRs的准确性方面也最高。在重复序列中,一致的DMCs和DMRs可能代表不足,且对CGIs没有明显偏好。
从真实数据集B中提取DMR相关基因,并通过KEGG富集分析解释和确定四种算法的生物学功能。结果显示,BWA - meth检测到的DMR相关基因最多,WALT最少。在调用DMR相关基因的准确性方面,BSMAP在人类和牛中最高,BWA - meth在猪中最高,WALT最低。在KEGG分析中,四种算法确定了不同数量的通路,其中约67、184和157条通路在人类、牛和猪中被四种算法一致检测到。在调用信号通路的准确性方面,BSMAP最高,WALT最低。
研究结果与现有研究在一些方面具有一致性,如WALT和BSMAP的运行时间和内存消耗特点与之前在植物中的研究结果相符。同时,不同算法在比对精度、唯一比对reads数量等方面的表现也与之前在其他植物和动物中的研究结果有相似之处。然而,本研究在多个方面进行了更全面和深入的评估,包括不同哺乳动物的比较以及生物学解释层面的分析。
BWA - meth、BSBolt、BSMAP、Bismark - bwt2 - e2e和WALT在唯一比对reads、比对精度、召回率和F1分数等方面表现出一定的优势,但在错误比对(unsatisfactory aligned reads)方面存在差异。这些差异可能与算法的设计原理以及对重复序列和CGIs的处理方式有关。此外,重复序列和CGIs对这些算法的比对性能有显著影响,这与之前的研究结果一致,即重复序列区域的比对精度较低,且会减少唯一比对reads的数量。
不同的比对算法对CpG位点、DMCs、DMRs以及相关基因和信号通路的分析结果有显著影响,这表明算法的选择对于准确解读甲基化组数据至关重要。例如,不同算法在检测CpG位点数量和准确性上的差异可能导致对基因调控区域的错误识别,进而影响对生物发育和疾病发生机制的理解。同时,在比较甲基化组研究中,不同算法在不同哺乳动物中的性能差异也提示我们在跨物种研究时需要谨慎选择比对算法。
本研究基于大量的真实和模拟WGBS数据,对14种比对算法在哺乳动物甲基化组研究中的性能进行了全面评估。结果表明,BWA - meth、BSBolt、BSMAP、Bismark - bwt2 - e2e和WALT在模拟数据中表现出较高的唯一比对reads、比对精度、召回率和F1分数。这些结果为研究者在选择比对算法进行哺乳动物DNA甲基化分析时提供了有价值的参考,有助于提高DNA甲基化检测的准确性,推动哺乳动物表观遗传学研究的进一步发展。
参考文献:Gong W, Pan X, Xu D, Ji G, Wang Y, Tian Y, Cai J, Li J, Zhang Z, Yuan X. Benchmarking DNA methylation analysis of 14 alignment algorithms for whole genome bisulfite sequencing in mammals. Comput Struct Biotechnol J. 2022;20:4704–16.
2025国自然热点:单细胞文章有哪些下游验证方式
做肿瘤微生物组没思路,那是你没看过这些工作|备战国自然2025
2025国自然热点:当空间转录组拥有百亿“像素”
扫描下方二维码
点分享
点点赞
点在看