戳戳卡片关注我 !!!
2024年7月,圣庭医疗联合首都医科大学附属北京胸科医院逄宇教授团队,中国科学院合肥研究院谷红仓、张帆教授团队,在生信领域顶级学术期刊《Briefings in Bioinformatics》(IF:6.2 中科院一区TOP)发表了题为“Beyond the base pairs: comparative genome-wide DNA methylation profiling across sequencing technologies” 的学术文章。本研究深入探讨了多种测序技术在全基因组DNA甲基化谱型分析中的性能表现,进行了详尽的对比分析。通过这一系统性评估,包括质量控制指标、基因组覆盖率、CpG 甲基化水平、平台内和平台间相关性以及检测差异甲基化位置的性能等方面,为科研人员选择最适宜的测序策略提供极具价值的参考和指导。该研究论文的发表,充分体现了圣庭医疗强大的生物信息研发实力和积累。
鉴于Illumina NovaSeq 6000和MGI Tech DNBSEQ-T7的广泛应用,本研究评估了这两种测序平台对全基因组甲基化分析的影响。研究收集了5名骨髓增生异常综合征(MDS)患者和2名健康供体的骨髓(BM)和外周血(PB)样本,并使用不同量的DNA生成了WGBS和RRBS文库:
WGBS文库:(骨髓单个核细胞(BMMNCs):5、50、100 ng;WBCs:5、50 ng;cfDNA:5、10、20 ng)
RRBS文库:(BMMNCs:2、10、50 ng;WBCs:2、10 ng;cfDNA:2、5、10 ng)
图一 比较NovaSeq 6000和DNBSEQ-T7平台在亚硫酸氢盐测序性能的研究设计
图二 NovaSeq 6000 和 DNBSEQ-T7 平台生成的 RRBS 和 WGBS 数据的测序指标比较
本研究从以下几个指标进行评估:
原始读长质量:DNBseq-T7平台在RRBS和WGBS样本中的平均质量评分高于NovaSeq 6000。NovaSeq 6000的Read 1质量低于Read 2,而DNBSEQ-T7两者之间差异较小。
读长修剪效率:DNBSEQ的低质量末端(Phred < 20)修剪率较低(RRBS: 3%-7%,WGBS: 1%),而NovaSeq较高(RRBS: 10%-35%,WGBS: 1%-6%)。Read 1与Read 2间存在差异。
亚硫酸氢盐转化率(BCR):两个平台在非CpG环境下的未转化胞嘧啶比例均很低(<1%),无显著差异。
全基因组亚硫酸氢盐测序重复率: RRBS 难以分辨出因 PCR 而产生的重复reads,无法比较重复率。而在WGBS数据中,DNBSEQ的重复率较低,但差异不显著。
插入片段大小:NovaSeq平台更倾向于长的插入片段,这一现象在RRBS和WGBS文库中都存在。
比对质量:在RRBS的唯一比对到基因组的reads pairs的百分比中DNBSEQ略高(72% vs 66%),而在WGBS上两者相近(68% vs 71%)。
比对错误率:两个平台在RRBS 的错误率相同,但在WGBS上NovaSeq的错误率略高。
CpG位点的覆盖度对于评估测序数据质量至关重要。由于两个测序平台的质量控制指标存在显著差异,所以我们对RRBS数据进行了下采样。
图三 NovaSeq 6000 和 DNBSEQ-T7 之间 RRBS 的覆盖度和甲基化比较
RRBS基因组覆盖率
在至少 1X的测序深度下, 两平台的cfDNA样本的覆盖无显著差别(10%-12%)。BMMNC 和 WBC 样本的覆盖度较低,NovaSeq略高为 6%,DNBSEQ 为4%。
RRBS CpG 位点覆盖率
两个平台之间cfDNA的CpG 覆盖率较为相似,而BMMNC 和 WBC的RRBS 数据CpG 位点的覆盖率存在显著差异。
NovaSeq (1x: 约600万 , 10x: 260-286万个(42-50%))
DNBSEQ (1x: 约500万 , 10x: 211-233万个(42-50%))
在不同样本类型(cfDNA、BMMNCs和WBCs)中,NovaSeq和DNBSEQ两个平台检测到的共享CpG位点数量相当。然而,在BMMNC和WBC样本的RRBS数据集中,观察到平台特异性的CpG位点比例较高。具体来说,NovaSeq平台特异性的CpG位点主要集中在启动子区域,而DNBSEQ平台特异性的CpG位点则更多分布在内含子和基因间区域。
NovaSeq在CGI、启动子和增强子区域的覆盖度均高于DNBSEQ。在整体上,两个平台的CpG甲基化水平存在显著差异。然而,在CGI、启动子和增强子区域,两平台的甲基化水平差异并不显著。DNBSEQ平台显示高甲基化CpG的比例显著更高(55% vs. 42%,P值<0.0001),而低甲基化CpG的比例显著更低(30% vs. 41%,P值<0.0001)。
图四 CGI、启动子和增强子区域甲基化水平
CpG甲基化百分比:DNBSEQ平台的CpG甲基化百分比显著更高,高甲基化CpG的比例显著更高,低甲基化CpG的比例更低。
GC含量覆盖:在GC含量为20%到70%的范围内,NovaSeq的覆盖更均匀且覆盖度更高,显示出对富含GC区域的偏好。
图五 NovaSeq 6000 和 DNBSEQ-T7 之间 WGBS 的覆盖度和甲基化比较
在不同DNA含量的样本中,NovaSeq平台表现出一致的覆盖度和甲基化水平。特别是在CGI、启动子和增强子区域,NovaSeq始终展现出更高的读段覆盖率和更低的甲基化水平。相比之下,DNBSEQ平台的覆盖度和甲基化水平则随DNA含量的变化而有所不同。
在两个测序平台上,对于不同的样本类型和不同DNA输入量的RRBS数据的CpG位点数量都是相似的,且这些样本之间共同的CpG位点数量在这两个平台上也相当。任一平台内常见CpG位点具有高度相关性。而在WGBS中,NovaSeq 的平台内重现性优于 DNBSEQ 平台。对 cfDNA 进行 RRBS 时,这两个平台都表现出稳健的性能。对于基因组 DNA, NovaSeq平台则检出更多的CpG。
图六 RRBS 和 WGBS 的平台内可重复性和平台间一致性的比较
为了评估两个平台识别 DMP 的能力,综合分析了两个平台的MDS 患者和健康供体的 BM 的RRBS数据以及TCGA 数据。DNBSEQ 平台检测到的 DMP 比 NovaSeq 多,两个平台共同检测到的DMR的甲基化趋势一致,与HM450 共同检测的DMP变化趋势基本一致,NovaSeq有少部分具有相反的甲基化状态。两平台DMP 在基因组特征分布相似,在不同 GC 含量上DMP数量分布也具有相似的频率。且启动子区域存在DMP的基因有37.7%的重合,这其中包括5个公认的异常甲基化基因,在MDS患者中均表现出一致的高甲基化,与之前的研究一致 。
图七 两个测序平台之间的 DMP 的性能比较
02
研究结果表明,DNBSEQ平台在原始读取质量方面表现更优;然而,在富含GC的区域,该平台显示出较低的测序深度和覆盖均一性,并且倾向于富集甲基化区域。总体而言,两个平台在RRBS和WGBS中均展现出强大的平台内和平台间重现性。这些发现强调了在选择亚硫酸氢盐测序平台时,综合考虑这些因素的重要性。
参考文献
Liu X,Pang Y,Shan J, et al. Beyond the base pairs: comparative genome-wide DNA methylation profiling across sequencing technologies. Brief Bioinform. 2024;25 (5):. doi:10.1093/bib/bbae440
复制链接或点击原文链接,即可下载SCI原文
链接: https://pan.baidu.com/s/1BQGo6NhMBUPUkM7CxPorvQ?pwd=cmtg
提取码: cmtg 复制这段内容后打开百度网盘手机App,操作更方便哦