Nat Genet | 破译170个CRC风险位点的功能性变异与208个靶基因的直接关联

学术   2024-10-18 16:44   天津  

全球每年约有190万人受到结直肠癌(CRC)的影响,该疾病具有很强的遗传基础。近期全基因组关联研究(GWAS)发现了200多个CRC相关的独立风险位点。然而,由于变异之间的连锁不平衡以及大多数风险变异位于基因组的非编码区域,对于其中的大多数功能变异及其靶基因是未知的,这使得GWAS风险位点的解析仍具有挑战性。

英国萨顿癌症研究所的团队及合作者在Nature Genetics发表了题为“Systematic prioritization of functional variants and effector genes underlying colorectal cancer risk”的研究文章。通过破译CRC风险位点,研究团队确定了风险变异与靶基因之间的直接联系,揭示了数百个受CRC风险变异影响的基因,进一步了解了CRC易感性的分子基础,为深入理解CRC的发病机制以及探索潜在的治疗策略提供了新线索。

该研究通过结合组织特异性表观遗传注释和大规模并行报告基因实验,对每个CRC风险位点进行了统计精细映射,以系统地优先考虑功能变异。研究确定了170个风险位点的可能因果变异,其中40个位点为单一变异。随后,通过生成和分析组织特异性基因表达数据和高分辨率染色质相互作用图谱,将这些变异与208个靶标基因联系起来,以预测增强子-基因连接。通过解析CRC风险位点,研究揭示了风险变异与靶标基因之间的直接联系,并突出了预防和治疗的潜在药物靶点。

图1.研究概述

风险位点的细胞特异性、染色质景观和精细映射

研究团队利用Tabula Sapiens数据集和肠道细胞图谱,分析了24种组织和11个肠道区域的scRNA-seq数据,得到单细胞疾病相关评分(scDRS)评分,该评分关联了scRNA-seq数据与单细胞分辨率下的多基因疾病风险,用于评估GWAS相关基因在细胞类型中的特异性表达。分析显示,scDRS相关基因在大肠和上皮组织基因表达显著富集,风险变异与BEST4+肠细胞和结肠上皮细胞有很强的关联。研究还证实了结肠和直肠粘膜细胞中增强子和启动子相关组蛋白标记(H3K4me1、H3K4me3、H3K27ac等)显著富集。以上发现揭示了CRC位点的细胞表达模式和调控机制,为理解结直肠癌遗传基础提供新视角。

此外,研究团队精细映射了每个CRC风险位点,并结合ChIP-seq和ATAC-seq数据对H3K4me1、H3K4me3、H3K27ac和CTCF)标记进行了功能注释。然后利用ATAC-seq数据对6个CRC细胞系进行转座酶可及染色质分析,提取变异,计算SNP因果概率,识别可信因果变异集合。最终研究确定了每个位点1-14个可信集合,包括1-226个变异。

风险变异的功能意义

该研究通过互补实验评估了风险位点变异的调控活性,在每个GWAS位点利用MPRAs实验分析了8,880个变异。为检测肿瘤和正常细胞结构中的变异功能,研究团队转染了原代CRC细胞系和永生化原代结肠细胞系。通过测序量化增强子活性,发现共有275个独特变异显示出显著的等位基因转录活性,这些变异更可能被精细映射为因果变异,且更可能被精细映射于结肠表观基因组的增强子和启动子区域。

研究团队还关注了CRC风险变异如何通过假定靶基因塑造调控环境的潜在生物学机制,包括评估染色质可及区域的转录因子结合和预测增强子-基因连接。研究发现,MPRA显著变异优先映射到开放染色质,并与基因转录起始位点(TSS)相互作用。研究团队预测了变异对3D基因组折叠的影响,发现20%变异会影响3D染色质结构;244个变异映射到CTCF基序,其中约50%被预测严重影响3D染色质结构。

使用综合评分系统指定因果变量

研究团队利用8880个变异的多级功能注释和精细映射数据,评估各基因位点的因果变异可能性,为变异及注释赋予评并排序。评分前20%的变异归为1级,后50%的归为3级,其余为2级(图2)。研究识别出2406个1级变异,其中42个亦在GWAS元分析中得分最高。49个GWAS位点未发现1级变异,16个位点缺乏1、2级SNP,这些位点对应功能数据匮乏区域。

图2.每个GWAS基因座的注释分数分布

将指定变异与靶基因联系起来

研究团队将275个MPRA显著变异与易感基因关联,发现113个具有显著的eQTL,其中79个在MPRA和eQTL间有一致影响效果。通过孟德尔随机化分析,在正常数据中识别出54个危险位点的94个候选基因,在肿瘤数据中识别出12个风险位点的14个候选靶基因。

接下来,研究团队利用ABC工具结合多种数据评估增强子-基因调控效应,发现62个风险位点位于调控基因的预测增强子区域内。研究重点分析了每个基因位点的1级变异,94个GWAS位点与至少两个证据来源预测的基因相关,10个位点有一种证据来源,42个位点无法关联基因,多位于不活跃区域。82个候选基因位点中,61个位于内含子中,约70%与靶基因在同一拓扑相关结构域内。

研究为170个风险位点提供了功能基础,涉及208个靶基因。虽然许多风险位点未详细研究,但一些靶基因在结直肠癌中有明确作用。例如,FHL 3与TGFβ信号通路的关键介质相互作用显示致癌功能,rs 9547700与SMAD 9表达降低相关,强调遗传变异在TGFβ信号通路中的中心作用。

图3.每个GWAS基因位点中变异的注释源图

研究团队从GWAS基因位点中识别出208个基因(图4),揭示了风险变异与基因间的联系。靶基因与结直肠癌及更广泛癌症关联分析发现,有142个候选靶基因在CRC中无文献记录,其中47个目前在任何癌症中都没有确定的作用,10个基因有对应的批准药物,44个基因有临床或研究先例。

图4.按功能类别分组的候选靶基因

研究团队采用多种技术,如统计精细映射、跨组织单细胞RNA测序等,结合大规模并行报告基因分析,识别CRC全基因组关联研究中的疑似因果变异。通过数据整合,该研究识别了170个功能变异位点,其中40个含有因果变异,98个含多个疑似因果变异。引入eQTL数据和随机化分析,追踪到208个受疑似因果变异影响的基因。许多风险位点涉及调节功能变异,包括特定组织基因表达。总而言之,研究对风险位点的功能基础提供了进一步的见解,揭示了CRC发展中的新基因,扩展了靶向治疗的潜力。

论文原文:

Law PJ, Studd J, Smith J, et al. Systematic prioritization of functional variants and effector genes underlying colorectal cancer risk. Nat Genet. Published online September 16, 2024. doi:10.1038/s41588-024-01900-w

·END·

热文推荐

王亚东团队发布第一个细胞分辨率多组学遗传调控景观数据资源

MD安德森癌症中心梁晗团队绘制蛋白质表达图谱

哈佛医学院、腾讯AI实验室联合开发病理学基础模型CHIEF

蒋庆华/许召春/王平平团队提出单细胞转录组测序数据挖掘新方法

快点亮"在看”吧

测序中国
聚焦基因科技/精准医学领域的科技前沿与产业动态
 最新文章