早期肿瘤检测在癌症治疗中极为重要,这不仅能够显著降低癌症相关死亡率,还能减轻医疗成本以及改善病人患者的预后生活、生命质量。液体活检作为早期癌症检测和管理的一种新兴方法,由于其相比组织活检的微创、无创、早筛的特性而备受关注。很多研究表明,肿瘤生长伴随着细胞脱落和释放到循环肿瘤细胞(CTCs)血液中;循环肿瘤细胞(CTCs)中cfDNA携带着肿瘤细胞的信号包括DNA碱基突变(ctDNA)和修饰(5mC和5hmC)等。不同组织器官特异性的脱离循环游离细胞和游离DNA(cfDNA)。所以,游离DNA(cfDNA)可作为癌症的特异性的标记物进行对特定组织和器官进行溯源。相较于ctDNA,5mC和5hmC可以做到组织表达特异性和溯源性。但也面临着血浆中cfDNA含量少、易降解的问题。液体活检主要利用血浆中的循环无细胞DNA(cfDNA),其中包括来自肿瘤的循环肿瘤DNA(ctDNA)以及背景非ctDNA。ctDNA碎片反映了肿瘤细胞中发生的一系列分子改变,如体细胞点突变、拷贝数变异及胞嘧啶修饰等。然而,目前基于甲基化的液体活检技术在临床应用上存在限制,多数检测需要大量DNA的起始量,同时在传统测序方法的指数扩增步骤中,代表性不足的肿瘤DNA片段可能未被检测到,往往导致样本偏差,影响检测准确性。
为了解决这些问题,2024年6月14日,芝加哥大学何川教授团队在《Genome Biology》【IF=10】上发表题为“LABS: linear amplification-based bisulfite sequencing for ultrasensitive cancer detection from cell-free DNA”的文章,本研究成功开发和展示一种创新的LABS技术,该技术通过对亚硫酸氢盐处理后的DNA片段进行线性扩增,实现对纳克级以下DNA的检测,为超微量DNA的甲基化分析提供了无偏倚的扩增方法。
基于线性扩增的亚硫酸氢盐测序技术(Linear Amplification-Based Bisulfite Sequencing, LABS)实验流程
1)双端连接:完全甲基化的T7接头被连接到DNA片段的两端,接头包含T7 RNA聚合酶启动子序列和一个3'端阻断的短辅助序列,形成部分双链DNA结构。2)亚硫酸氢盐处理:DNA片段经受亚硫酸氢盐处理,其中所有胞嘧啶(C)被转化为尿嘧啶(U),而5-甲基胞嘧啶(5mC)保持不变。3)体外转录初始化:处理后,启动子区域通过互补T7引物退火和延伸,以启动体外转录(IVT)。IVT中,微量DNA均匀放大成多个RNA拷贝。4)逆转录与文库构建:RNA产物随后经历逆转录、第二链合成、接头连接、文库扩增和测序。5)LABS方法的性能测试:分别使用gDNA 不同提督浓度100ng、10 ng、1 ng、100pg、50 pg、20 pg和10 pg的DNA进行文库构建和测试性能指标。6)两种MethylC-seq和EpiGnome方法文库构建和性能对比:分别对100ng、10 ng、1 ng和100pg的基因组DNA进行了文库构建和测试性能指标横向比较。
为了测试LABS技术在不同起始量DNA下的表现以及识别技术的局限性,团队采用了来自E14Tg2a小鼠胚胎干细胞(mESCs)的基因组DNA(gDNA),分别使用了100ng、10 ng、1 ng、100pg、50 pg、20 pg和10 pg的DNA量,每种浓度都进行了两次生物学重复,每个文库平均产生了3130万个reads(标准差为620万)。团队发现所有样品的CpG甲基化水平一致,平均值为42.7%,而CHG和CHH(其中H代表A、C或T)的甲基化水平较低,分别为0.81%和0.72%,比较显示,LABS的结果具有很高的准确性,10 ng输入DNA时的Pearson相关系数为0.88(图1b)。团队也发现LABS数据的生物学重复表现出高可重现性,Pearson相关系数达到0.92(图1c)。
在启动子区域观察到相对较低的DNA甲基化水平,而在基因主体区域则有相对较高的甲基化水平,这与已知的DNA甲基化模式一致,能够抑制无效转录的启动并确保转录的保真度(图1d)。将LABS数据与mESCs中的组蛋白修饰模式相结合,显示出DNA甲基化与H3K4me3/H3K27ac之间存在负相关,而与H3K27me3呈正相关,这表明LABS数据具有很高的特异性(图1e)。进一步注释LABS覆盖的CpG位点表明,这种方法能够可靠地捕获全基因组范围内的CpG,其中大部分位于内含子区域(平均占30.0%)和基因间区域(平均占27.7%)(图1f)。这些结果表明LABS技术在不同起始DNA量的情况下具有良好的性能和可靠性,能够准确且一致地测量DNA甲基化状态,并且在生物学重复上表现出高度的一致性和可重复性。同时,LABS技术还能与组蛋白修饰数据结合,显示出与特定组蛋白标记的相关性,进一步验证了其在分析DNA甲基化模式上的特异性和准确性。图1 LABS技术的实验室开发和验证
为了更深入地评估LABS与现有方法相比的性能,团队在相同的mESC细胞系上使用两种商业化的全基因组亚硫酸氢盐测序方法进行性能比较,即MethylC-seq和EpiGnome,分别对100ng、10 ng、1 ng和100pg的基因组DNA进行了测序,所构建的文库被测序至相近的规模,平均每个文库包含4490万±1030万条读段。值得注意的是,在低起始量DNA的情况下,WGBS文库经常出现高重复率,导致有用信息有限,阻碍了这些检测方法在低起始量cfDNA样本中的应用。团队比较了不同方法的重复率。团队发现LABS在所有DNA起始量下表现出最低的重复水平,相比之下,当使用100pg起始DNA时,MethylC-seq和EpiGnome的重复率极高,分别达到96.87%和97.47%。相比之下,LABS在相同起始DNA量下,重复率仅为9.72%。此外,即使起始DNA限制在10pg,LABS的重复率也只有40.77%,这表明LABS的检测极限相比于现有方法有了显著提高。接下来,团队评估了不同方法的覆盖度,因为高覆盖率对于获取足够信息至关重要,尤其是对于含量低的DNA成分。总体而言,LABS在相同起始DNA量下,对CpG位点、基因组区域及染色体的覆盖度均高于现有方法(图1g、h)。随着起始DNA减少,覆盖度略有下降,从10ng降至100pg时平均下降了12.9%,相比之下,EpiGnome和MethylC-seq在同一条件下,覆盖度分别下降了70.9%和75.8%。针对WGBS方法存在的偏向于GC丰富区域的覆盖偏倚问题,这可能归因于亚硫酸氢盐转化不完全、PCR扩增偏倚以及用于文库构建的某些聚合酶,LABS在本研究中显示出了在具有不同GC含量的区域中最高的均匀性,即使只有100pg起始DNA也能保持良好性能(图1j)。LABS还显著降低了与两个竞争方法相比对GC含量的偏倚,实现了对极端GC区域(GC百分比大于80%或小于20%)的高覆盖度。三种方法在DNA双链上的覆盖模式是可比的。与本研究中观察到的低重复率、高基因组覆盖度和低覆盖偏倚相符,LABS随着起始DNA量的增加,饱和速度较慢,导致了更大的文库复杂度(图1i、k)。相反,MethylC-seq和EpiGnome在100pg起始DNA的2百万reads处就显示出早期饱和(图1i)。团队进一步在1ng和100pg的12个商业化cfDNA样本上对LABS进行了比较。在100pg起始cfDNA时,LABS的性能仅轻微受损,两份样本均表现出低重复率和高基因组覆盖度。团队测试了使用LABS技术在临床循环游离DNA(cfDNA)样本中的可行性,样本包括50名结直肠癌(CRC)患者、16名胰腺导管腺癌(PDAC)患者和34名种族、年龄、性别匹配的健康对照者。提取出cfDNA后,团队使用每份样本1ng的cfDNA(PDAC样本为2.5ng)构建LABS测序文库,并平均对每份样本进行7610万reads。
在SEPT9启动子区域,即目前FDA批准的CRC甲基化生物标志物,团队观察到了CRC组和健康对照组之间有显著差异(图2a)。这表明LABS能够重现这个已建立的生物标志物,证明其有能力捕捉到这一特征。相比之下,PDAC样本在相同区域显示出较低的甲基化水平,这支持了SEPT9甲基化启动子的CRC特异性和LABS的敏感性。图2 LABS揭示cfDNA中的异常基因组和表观基因组
为了进一步研究已知与癌症相关基因的启动子甲基化模式,团队系统识别了3188个来自TCGA结肠腺癌(COAD)数据集中差异表达的基因(DEGs),通过一个相对严格的筛选标准(FDR≤0.05和logFC≥2或≤-2)将其作为结肠癌相关基因。接着,团队通过每个转录起始位点(TSS)前后各1kb提取这些DEGs对应的启动子区域。然后计算这些启动子区域在高覆盖度的CRC和健康对照样本中的甲基化百分比。通过这一过程,团队确定了41个在CRC和健康对照样本间差异甲基化的启动子区域(甲基化差异≥12%,FDR<0.01)。为了进一步验证这些区域的重要性,团队利用这些数据进行主成分分析(PCA),并观察到CRC和健康对照样本基于这些启动子区域的甲基化水平被分离开来,确认了基于LABS数据的启动子DNA甲基化与结肠癌相关的基因表达变化的相关性。随后,团队从cfDNA甲基化图谱中鉴定出1362至10716个3kb的差异甲基化区域(DMRs)。有趣的是,Ctrl组特有的高度甲基化区域和CRC与PDAC样本特有的低度甲基化区域主要位于基因间区域,这与肿瘤发生过程中全基因组的去甲基化现象一致。此外,对DMR相关基因(即在其启动子中有DMRs的宿主基因)的功能富集分析揭示了在各组中已知参与肿瘤发生的途径(图2d)。团队对临床cfDNA样本的LABS数据集进行分析的过程中,团队还发现了源自癌症患者的cfDNA中存在拷贝数变异(CNAs)。传统的全基因组亚硫酸氢盐测序(WGBS)方法容易受到PCR扩增偏倚的影响,导致cfDNA中低丰度DNA片段(比如肿瘤来源的DNA)的代表性不足。团队意识到,在团队的实验方案中采用的线性扩增可能具有额外的优势,即保留原始未扩增样本的DNA片段组成信息。
图3 LABS图谱的反卷积揭示了起源组织和免疫细胞组成
为了检验团队是否能够利用线性扩增固有的低覆盖度偏倚来获取以前在指数扩增中无法获得的新信息,团队仔细评估了每个cfDNA样本的全基因组拷贝数变异。确实,团队观察到一些患者样本中存在着显著的染色体尺度的拷贝数变异,这些变异独立于甲基化水平的变化(图2e)。虽然所有健康对照组的样本显示出一致的拷贝比率,但在50例结直肠癌(CRC)患者中有18例和16例胰腺导管腺癌(PDAC)患者中有8例表现出异常的拷贝数变异(图2f, g)。这些从cfDNA中识别出的CNAs进一步基于TCGA数据库中已知的CNAs被确认为肿瘤来源,其中至少在1例CRC患者的cfDNA概况中找到了10个COAD扩增标记和9个COAD缺失标记。这些结果进一步证实了LABS在cfDNA检测上的高准确性和敏感性。
团队成功地应用LABS检测癌症患者cfDNA中的拷贝数变异(CNAs)促使团队探索LABS相对于基于指数扩增的传统检测方法所能独特提供的额外信息。值得注意的是,cfDNA包含来自不同组织和血液细胞背景中的DNA片段,尽管人体组织拥有相同的基因组DNA序列,但它们具有独特的DNA甲基化模式。由于LABS的线性扩增性质避免了在CNA检测中由指数扩增引入的偏倚,团队进一步探究是否可以应用特定算法,使用已发表的细胞类型特异性甲基化模式作为参考,来估计DNA片段或细胞来源的TOO(Tissue Of Origin)来源的相对比例。
通过对组织或细胞特异性的甲基化特征进行分析,利用解卷积算法,有可能确定cfDNA片段的起源。具体而言,团队发现中性粒细胞对cfDNA贡献最大,这与先前的研究报告一致。作为概念验证,团队还观察到,与健康对照组相比,CRC和PDAC患者的中性粒细胞来源的cfDNA片段比例较低。有趣的是,CRC患者的cfDNA中,来源于结肠的比例显著高于健康对照组和PDAC患者(P=0.047),CRC样本在结肠特异性、低甲基化区域显示出低甲基化水平(图3a, b)。相比之下,在PDAC来源的cfDNA样本中,团队没有观察到显著更高的胰腺特异性贡献,无论是与健康对照组还是CRC患者相比(图3c)。图3 LABS图谱的反卷积揭示了起源组织和免疫细胞组成
此外,癌症特异性DMRs的功能富集结果显示,免疫相关途径发生了显著变化(图2d),这提示cfDNA可能存在不同的免疫细胞组成。团队对特定免疫细胞类型的解卷积分析结果表明,PDAC样本与健康对照组在CD8+T细胞比例上存在显著差异,PDAC样本中的CD8+T细胞几乎耗尽(P = 0.06,图3d)。这一发现与PDAC肿瘤微环境中富含纤维母细胞的免疫抑制特性相吻合。相比之下,CRC样本的免疫细胞组成比PDAC患者更为异质。然而,与健康对照组相比,团队观察到CRC样本中CD4+T细胞水平升高(P = 0.00061,图3e)。在CRC和PDAC组中,单核细胞来源的cfDNA也有所减少(图3f)。团队没有发现在三个组之间B细胞来源的cfDNA有显著差异(图3g)。团队还在TCGA的COAD(n=290)和胰腺腺癌(PAAD)(n=179)转录组数据集上应用了类似的解卷积方法,进一步证实了PAAD样本中CD8+T细胞组成较少(图3h)。总的来说,团队的方法允许直接从cfDNA甲基化分析中分解免疫细胞类型,并在与健康对照组比较时为不同类型癌症的肿瘤微环境提供了见解。最后,团队评估了LABS、MethylC-Seq和EpiGnome方法在免疫细胞分解方面的性能,使用相同的方法。团队的分析显示,LABS在不同DNA起始量下始终能产生各种细胞类型准确的估计值。相比之下,MethylC-Seq无法检测到任何T/NK细胞(CD4T+细胞的数据范围如下:对照组0-23%,MethylC-seq 0-3%,LABS 0-30%,EpiGnome 2-40%;NK细胞的数据范围如下:对照组0-28%,MethylC-seq 0%,LABS 0-14%,EpiGnome 0-18%),而EpiGnome对嗜酸性粒细胞的比例估计过高(嗜酸性粒细胞的数据范围如下:对照组0-51%,MethylC-seq 5-100%,LABS 0-30%,EpiGnome 32-50%)。这种精确度上的差异可能由它们的非线性扩增方法引起,这种扩增方法已知会在最终扩增产物中引入偏倚。团队通过构建评估了整合模型,该模型结合了通过LABS获得的多种特征类型,是否能提供比单独使用甲基化生物标志物更高的预测准确性,具体来说,团队将84个样本(包括CRC患者和健康个体)随机分为训练集和测试集,比例为1:3。团队获得了三类数据:甲基化、拷贝数和免疫细胞组成,并使用随机森林和支持向量机(SVM)来构建分类器。团队最初仅测试了转录起始位点(TSS)区域内的甲基化特征,然后添加了拷贝数比例和免疫细胞组成,以评估集成模型的表现。对于甲基化特征和拷贝数比例,团队进行了主成分分析(PCA)以降低维度。
在测试样本(n=84)中,团队的发现表明,仅使用TSS甲基化,随机森林算法达到了0.79的曲线下面积(AUC)。但是,通过加入拷贝数数据,AUC增加到0.91,而进一步纳入免疫细胞比例后,AUC提升至0.93(图4b)。相反,仅使用免疫细胞比例或拷贝数单独训练得到的AUC分别为0.59和0.88,均较低。类似地,SVM也产生了可比较的结果(图4d)。值得注意的是,被随机森林和SVM共同识别出的最重要特征是由甲基化数据生成的一个主成分(图4c),其中包括FGFR1、MYO6和CDK9等基因的TSS甲基化。总体而言,团队的分析表明,结合LABS获得的多种特征类型能比单独使用甲基化生物标志物带来更高的检测准确性。图4 集成来自LABS的多层信息提供了更好的预测
1. 本研究论文何川教授团队开发的LABS技术,以其高灵敏度和无偏倚的扩增方式,为微量样本的检测提供了全新的方法,将极大地推动肿瘤无创检测领域的发展,该技术有望在临床取得广泛应用,为患者带来更精准更便捷的诊断服务。
2. 通过将LABS技术产生的多方面信息整合进一个综合模型中,团队提高了CRC检测的准确性。这一发现强调了在疾病诊断和监测中考虑多组学数据的重要性。通过结合甲基化、拷贝数变异和免疫细胞组成的特征,团队不仅能够提高诊断的灵敏度,还能更好地理解疾病的生物学基础,为未来的精准医学策略提供信息。
3. 这一策略的实施可能对临床实践产生重大影响,尤其是在早期癌症检测和治疗响应监测方面。通过LABS技术的多维分析,团队能够揭示肿瘤微环境的复杂性,从而为癌症的个性化治疗开辟新的途径。
Driving innovation for better life