Nat Commun |基于多组学整合分析鉴定七种癌症风险相关的组织特异性甲基化标志物

文摘   2024-08-26 11:10   广东  


DNA甲基化在调控基因表达、维持基因组稳定性方面发挥着重要作用。异常的DNA甲基化模式,如全局低甲基化和基因特异性高甲基化,是癌症的标志之一。除环境因素外,DNA甲基化也受遗传因素影响。因此,解析组织特异性遗传预测的DNA甲基化有望揭示复杂性状(包括癌症易感性)的遗传易感性。
此前,美国弗吉尼亚大学综合癌症中心研究团队已在血液中发现了1343个CpGs,其基因预测DNA甲基化水平与癌症风险相关,但组织DNA甲基化数据的缺乏阻碍了对其在癌症相关组织中的评估。近期,在Nature Communications发表的一项新研究中,该研究团队确定了与癌症风险相关的组织特异性DNA甲基化生物标志物。
研究团队开发了可预测七种组织类型基因组中CpG位点DNA甲基化的统计模型,并将该模型应用于癌症GWAS数据,推断遗传预测的CpG甲基化与乳腺癌、结直肠癌、肾细胞癌、肺癌、卵巢癌、前列腺癌和睾丸生殖细胞癌风险之间的关联。对于识别的癌症风险相关CpG位点,研究团队通过整合DNA甲基化组学、转录组学、基因组学和癌症GWAS数据进一步探索其是否通过调控邻近基因的表达影响癌症风险。

01

组织特异性DNA甲基化预测模型

经过处理的DNA甲基化数据,包括来自GTEx联盟的987个无癌供体样本中的754,054个CpG位点的BMIQ标准化β值。经过筛选,研究保留了来自367名受试者的856个样本(主要为欧洲裔和非洲裔),包括49个乳腺、189个结肠、47个肾脏、190个肺、140个卵巢、105个前列腺、47个睾丸、47个全血和42个肌肉组织样本。

图1.研究总体工作流程和数据资源。

对于特定组织内的每个CpG位点,研究团队使用两种方法开发了预测模型,保留了预测性能最好的模型。分析发现,跨组织模型的预测性能显著高于单组织模型。在研究的754,054个CpG中,478,360个(63.4%)的模型具有可靠的预测性能。值得注意的是,这些模型中46.8%是高度组织特异性的,只有3.2%在所有组织中普遍存在。最终,研究团队分别建立了101497个乳腺模型、197947个结肠模型、125745个肾脏模型、195764个肺模型、187911个卵巢模型、152341个前列腺模型和118568个睾丸组织模型。

随后,研究团队评估了与使用单个最佳顺式mQTL相比,利用多个顺式变异的预测策略能否提高预测性能。对于通过该研究方法建立可靠模型的每个CpG,研究团队尝试利用与预测方法相同的数据构建仅基于最佳顺式mQTL的模型。在7种组织中,单个最佳顺式mQTL方法仅能为33.1%的CpG建立可靠模型。此外,对于通过该研究方法和单一最佳顺式mQTL方法均建立模型的CpG,该研究方法的预测精度始终高于后者。

02

组织特异性DNA甲基化与癌症风险的关联

对于7种组织类型,将预测模型应用于相应癌症的GWAS数据,以鉴定具有遗传预测DNA甲基化水平与癌症风险显著相关的CpGs。研究团队在7种组织中识别出了4248个与至少一种癌症风险显著相关的CpG位点(图2),其中4052个(95.4%)特定于某种癌症类型。

通过共定位分析,在4461个CpG-癌症对中,1454对(32.6%)和866对(19.4%)表现出中等至高的共定位概率。在这4461个CpG-癌症对中,4210对CpG分布在先前GWAS分析鉴定的801个(56.5%)癌症易感位点中的453个,其余的251对CpG分布在73个位点上,距离GWAS鉴定的任何癌症风险变异至少1Mb(图2)。总之,研究团队在56.5%的已知GWAS基因位点中发现了大量DNA甲基化可能介导癌症风险遗传效应的CpGs,揭示了55个假定的新基因位点,并在52个已知GWAS基因位点中检测到独立于GWAS识别的风险变异的关联信号。

值得注意的是,对于研究发现的453个已知含有癌症相关CpGs位点中的31.6%,TWAS无法发现任何显著的关联。与TWAS相比,该研究方法在检测GWAS识别位点内关联信号方面具有更高有效性。


<滑动查看>

图2.曼哈顿图显示CpG基因预测的DNA甲基化与癌症风险之间的关联。

03

多组学整合分析

为了进一步理解上述显著CpG位点在癌症风险中的作用机制,研究团队进行了多组学整合分析。研究团队将CpG位点与GTEx数据中的基因表达和DNA甲基化数据进行整合,评估它们是否通过调控邻近基因的表达来影响癌症风险。多组学系统分析显示,在4248个显著CpG位点中,有854个(20.1%)CpG-基因-癌症三联体,在每个三联体中,CpG-癌症、CpG-基因和基因-癌症的关系呈现一致的方向。这些三联体涉及309个独特的CpGs,其DNA甲基化通过调控205个不同的顺式基因的表达来影响7种癌症的风险。这些CpG-基因-癌症三联体的发现,为理解DNA甲基化在癌症病因学中的作用提供了新见解。

此外,研究团队还评估了这些显著CpG位点是否与已知癌症相关基因的表达调控相关。结果显示,在4248个显著CpG位点中,有265个(6.2%)位点位于已知癌症相关基因的启动子区域,且这些位点中的大部分(85.3%)与相应基因的表达显著相关。这进一步支持了这些CpG位点在癌症风险中的潜在调控作用。

图3.CpG-基因-癌症三联体分析表明DNA甲基化通过调节顺式基因表达来影响癌症风险。

综上所述,研究团队开发了用于预测7种组织中CpG位点DNA甲基化的遗传模型,结合相应癌症的全基因组关联研究(GWAS)数据,识别了4248个与癌症风险显著相关的CpG位点,其中大部分与特定的某一种癌症类型有关。此外,该研究还发现了一些新的候选基因位点,并通过多组学整合分析,揭示了DNA甲基化在癌症风险中的潜在调控作用。该研究果强调了多组学整合在癌症生物标志物发现中的有效性,并增强了对遗传学和表观遗传学在癌症病因学中关键作用的理解。未来的研究可进一步探索上述显著CpG位点的功能和机制,为癌症的早期诊断、预防和治疗提供新思路。

论文原文:

Yang, Y., Chen, Y., Xu, S.et al. Integrating muti-omics data to identify tissue-specific DNA methylation biomarkers for cancer risk. Nat Commun 15, 6071 (2024). https://doi.org/10.1038/s41467-024-50404-y


易基因微量cfDNA甲基化测序

(cfDNA-BS)技术

cfDNA片段化严重,片段大小常在150bp左右,现有甲基化检测技术包括cfMeDIP和微量WGBS等。无法做到碱基分辨、具有抗体特异性和非特异性捕获、覆盖深度低、检测成本高等特点。常规RRBS富集约70-350bp范围酶切片段,如对于CG含量高的片段将被切割的更碎而无法检测,保留下来的片段反而是CG含量低,无甲基化信息的基因片段。


易基因研发cfDNA-RBS技术,特异性捕获CCGG位点两端的DNA,通过亚硫酸盐测序,实现高深度,单碱基分辨检测CG位点甲基化信息。DNA起始量仅需1ng,是目前肿瘤甲基化标志物检测研究的优选技术。


技术优势:

  • 超低起始量:100-500ul血浆或1ng cfDNA;

  • 测序覆盖度高:20G测序数据,可达10M的CG位点覆盖,涵盖CpG岛、启动子、增强子、CTCF结合位点等多种核心调控区域

  • 单碱基分辨率:在其覆盖范围内可精确分析每一个C碱基的甲基化状态;

  • 性价比高:成本相对于现有技术大幅降低。


技术指标:


应用场景:

  • 癌前病变的癌变预警标志物检测

  • 肿瘤早期筛查标志物检测

  • 肿瘤预后标志物检测

  • 药物疗效预测标志物检测



易基因提供全面的表观基因组学(DNA甲基化、DNA羟甲基化)和表观转录组学(m6A、m5C、m1A、m7G)、染色质结构与功能组学技术方案(ChIP-seq、ATAC-seq),详询易基因:0755-28317900



添加市场部小助理微信


咨询电话:0755-28317900

官方网站:www.egenetech.com

咨询手机:18124167839  市场部

关于易基因

深圳市易基因科技有限公司(简称易基因,E-GENE Co.,Ltd.)以“引领表观遗传学科学研究与临床应用”为愿景,依托高通量测序技术和云数据分析平台。为医疗机构、科研机构、企事业单位等提供以表观遗传学技术为核心的多组学科研服务及解决方案,全面覆盖针对生命科学基础研究、医学及临床应用研究等内容。


易基因专注表观组学十余年,领跑多组学科研服务。技术团队在国际上首创LHC-BS、HMST-seq、ChIP-BS、cfDNA-TBS等甲基化、羟甲基化技术流程,研发建立简化基因组甲基化dRRBS、cfDNA-RBS,单细胞/微量DNA全基因组甲基化及简化高通量甲基化测序技术,RNA甲基化测序等技术和方法,并建立易基因科技全自动化弹性资源生信分析系统。在Nature、Cell、Lancet、Science、Nat Commun、 Cell Res、Genome Biol、Blood、PloS Genet、Epigenetics、Epigenomics 、Clin Epigenetic等著名期刊发表论文100余篇,申请发明专利14项、软件著作权29项。

易基因
以“引领表观遗传学科学研究与临床应用”为愿景,依托高通量测序技术和云数据分析平台。为医疗机构、科研机构、企事业单位等提供以表观遗传学技术为核心的多组学科研服务及解决方案,全面覆盖针对生命科学基础研究、医学及临床应用研究等内容。
 最新文章