Nat Genet|揭秘癌症密码:萨顿研究所带你探索结直肠癌基因的神秘面纱

文摘   2024-09-25 07:44   江苏  


结直肠癌 (CRC) 每年影响全球约 190 万人,具有显著的遗传基础。最近有研究对 100,204 例 CRC 病例和 154,587 例对照进行了全基因组关联研究 (GWAS),鉴定了 200 多个具有统计学意义的独立风险位点。揭示这些风险关联的功能基础将为 CRC 病因学提供重要的生物学见解。然而,由于变异间的连锁不平衡以及大多数风险变异位于基因组的非编码区域(尤其是增强子元件内),解析 GWAS 风险位点的功能一直具有挑战性。尽管计算精细作图方法可预测假定的因果变异,但这些方法仅依赖于连锁不平衡的相关性,最终确定具有基因调控作用的变异仍需实验验证。

大多数非编码的 GWAS 风险变异可能通过影响靶基因表达的顺式调控机制发挥作用。通过研究与不同变异相关的转录变化,能够将特定等位基因与基因表达变化联系起来。传统的报告基因检测只能评估单个变异的等位基因转录活性,而大规模并行报告基因检测 (MPRA) 提供了表征数千种变异调控效应的可扩展方法,且这一策略已在多种疾病研究中成功应用,包括骨髓瘤和黑色素瘤等。

尽管在风险位点的精细定位和功能注释方面有所进展,但识别 GWAS 信号的靶基因仍然是一项核心挑战。传统上,变异通常被分配给最近的基因。然而,仅根据物理位置来预测可能并不可靠,因为因果变异往往通过长距离相互作用调控基因表达。此外,增强子可能拥有多个靶基因。尽管表达数量性状基因座 (eQTL) 数据的分析帮助识别了靶基因,但已发表的 eQTL 数据仅捕获了癌症 GWAS 遗传率的 9-13%。因此,除了基因转录以外,还需要其他基因组数据来全面破译关联的功能基础。

染色质相互作用在基因表达调控中起着关键作用。将染色质可及性、组蛋白 ChIP-seq 数据与三维 (3D) 染色质相互作用数据相结合,已被证明能够提高识别因果变异及其靶基因的能力。由于依赖单一分析方法识别 GWAS 信号背后的因果变异和靶基因存在局限性,越来越多的研究采用了多数据整合的方法。例如,乳腺癌研究中广泛应用的 INQUISIT 流程将基因表达、染色质相互作用和 ChIP-seq 注释相结合进行评分。最近,接触活性 (ABC) 模型也通过结合增强子活性和 3D 染色质接触频率,系统地将调控元件与靶基因联系起来。

今年9月16号,英国萨顿癌症研究所Richard S. Houlston团队在Nature Genetics 发表了题为「Systematic prioritization of functional variants and effector genes underlying colorectal cancer risk」的研究论文,研究人员结合组织特异性表观遗传注释的统计精细作图,并在多种结肠细胞系中进行 MPRA,提名了每个风险位点的致病变异。其次,通过生成和分析组织特异性基因表达数据和高分辨率染色质相互作用谱,进一步将提名的变异与靶基因联系起来。这一分析为 CRC 风险信号及其潜在基础提供了深入的解释

研究数据表明,组织特异性的转录调控是GWAS变异影响CRC风险的主要机制。尽管24%(170个中的40个)的基因座只有一个Tier 1变异,但58%(170个中的98个)基因座具有多个可能合理的功能变异。这表明在一些基因座上,多个变异可能共同影响CRC风险,甚至作用于多个基因,这与先前在淋巴母细胞eQTL研究中观察到的多个因果调控变异现象一致。在48%的GWAS风险位点中,候选靶基因位于最近的基因或内含子内,通常位于同一个TAD(拓扑关联域)中。这个邻近效应与Open Targets数据集的黄金标准一致,反映了进化保守性。然而,对于相当一部分风险位点,由于功能数据缺乏,研究者未能确定明显的候选基因。这可能意味着存在其他机制尚未被探讨,例如最近有人提出的8q23.3风险位点可能与可变数目串联重复序列有关。

当然,本研究中的一些局限性。首先,36%的GWAS基因座没有检测到MPRA显著变异,这可能是因为这些风险位点的功能基础无法通过MPRA测试,或者技术问题导致未能检测到等位基因转录活性差异。其次,对于96个基因座,研究人员未能通过eQTL分配目标基因。尽管研究人员尝试分析正常和肿瘤数据,但可能由于统计能力不足或低频变异的影响未能找到关系。因此,研究者采用了基于ABC模型的分析,利用表观基因组特征和Micro-C数据预测增强子-基因连接,以弥补eQTL分析的不足。

尽管如此,研究人员通过多层次分析提名了CRC风险位点的可能因果变异,并推断出208个与这些变异关联的基因靶标。在研究者确定的基因中,只有六个(BCL9L、CDH1、SMAD3、SOX9、TBX3和TCF7L2)已被确认为CRC驱动基因。这表明,CRC的遗传易感性可能通过间接影响肿瘤发生,而非直接导致已知的肿瘤驱动基因突变。研究人员还确定了几个新的候选靶基因,尚未明确其在CRC中的作用。例如,钙调蛋白超家族成员CALML4和CAMK2A可能通过调节细胞增殖、程序性细胞死亡和自噬等重要生物过程,成为潜在的治疗靶点。

此外,SLCO2A1和FADS1在前列腺素的合成和清除中发挥作用,进一步强调了炎症和免疫反应在CRC中的重要性。ATXN10和ATXN2则支持了Ras-MAPK激酶通路和EGFR转运在CRC发展中的作用,而BCKDHA的作用与支链氨基酸代谢相关,支链氨基酸失调在多种癌症中与疾病进展相关。

总之,本研究分析深入揭示了CRC风险基因座的功能基础,发现了一些与CRC发展相关的新基因,从而扩大了潜在的治疗靶点范围。这种方法概述了一种通过高通量变异筛选和多层功能注释来解析疾病相关GWAS基因座的通用策略,适用于其他复杂疾病的研究。



原文链接:

https://doi.org/10.1038/s41588-024-01900-w



- 转载须知 -


本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





喜欢就点个 在看 吧 : )



X Omics
生物科学与计算机科学的完美碰撞,激发出探索世界的全新视角,让我们一起探索生命科学的新纪元!合作交流:xomics1@gmail.com
 最新文章