✦
医学科研新动向
✦
Mapping the functional network of human cancer through machine learning and pan-cancer proteogenomics
Nature Cancer
<2024年12月11日>
研
究
背
景
癌症是一种由多种遗传和表观遗传改变驱动的复杂疾病,其特征在于不受控制的细胞增殖和侵袭能力。这些变化通常伴随着基因组不稳定性、信号通路失调以及蛋白质网络重塑。近年来,随着高通量测序和质谱技术的进步,得以识别与癌症相关的大量基因突变和蛋白表达模式。然而,如何系统性地解析这些数据以揭示癌症的潜在机制,仍是一个未解决的挑战。传统蛋白-蛋白相互作用网络(Protein-Protein Interaction Networks, PPINs)在基因功能预测和突变优先排序中发挥了重要作用,但其数据多来源于非癌症环境,限制了其对癌症特定分子机制的解释能力。此外,这些网络未充分整合多组学数据(如蛋白质组学和转录组学),导致功能关联预测的准确性不足。为了克服上述挑战,本研究基于机器学习开发了FunMap,这是一种结合质谱蛋白质组学和RNA测序数据构建的功能性基因网络。通过系统性挖掘癌症背景下的蛋白质模块和层级关系,FunMap旨在揭示癌症的关键驱动因素和分子机制。
研究设计
1. 数据整合
数据来源:研究使用了来自11种癌症类型的样本(如乳腺癌、肺癌、肝癌),涵盖1194名患者的数据集,包括肿瘤样本和邻近正常组织样本。
组学数据:整合了32个独立的质谱蛋白质组学(proteomics)和RNA测序(RNAseq)数据集。
基因对评估:基于每个数据集的基因对Pearson相关系数(PCC),计算了互信息排名(Mutual Rank, MR),用于评估基因对的共表达程度。
2. 模型训练
机器学习算法:使用极端梯度提升模型(XGBoost)构建分类器,利用50%“金标准”基因对作为训练集,区分功能相关和不相关基因对。
特征选择:模型结合了32个数据集的特征,包括肿瘤和正常组织的蛋白质和RNA水平表达。
功能网络构建:根据预测的功能相关性分数(log-likelihood ratio, LLR),筛选出高可信度的基因对,最终生成一个包含10,525个基因和196,800条边的功能网络(FunMap)。
3. 网络分析
模块检测:使用CORUM数据库和迭代团簇枚举算法(ICE)识别功能性密集模块。
层级分析:通过网络分级和模块化算法(NetSAM),构建FunMap的层级模块结构,探索模块在多尺度下的组织关系。
突变关联:将癌症相关突变(如TP53、KEAP1)与网络模块的蛋白质丰度关联,通过XGBoost模型评估基因突变对模块功能的影响。
核心结果
- 数据覆盖: 图1a显示了11种癌症中蛋白质和RNA表达的覆盖范围,每种癌症的蛋白质表达基因数量在7,961至11,815之间,RNA表达基因数量在17,733至19,113之间。肿瘤样本中,质谱蛋白质表达的功能相关性(LLR)普遍高于RNA,表明蛋白质水平的数据更能捕捉基因的功能关联。
- 功能预测能力: 蛋白质共表达在功能预测中的表现优于RNA,LLR值随数据集排名下降的趋势在蛋白质数据中表现得更加缓慢。这种趋势在肿瘤样本中尤为显著,进一步支持蛋白质共表达作为基因功能关联强预测因子的结论。
2:FunMap网络的功能相关性和拓扑特征
- LLR与网络覆盖:FunMap在功能相关性和覆盖范围上显著优于其他网络(如STRING、BioGRID)。通过XGBoost模型的整合,LLR超过3.912的边数达196,800条,表明这些边连接的基因对具有极高的功能关联可信度。
- 网络拓扑:FunMap展示了无标度特性,度分布服从幂律分布,表明其具有高度模块化和中心节点特性。此外,其聚类系数较高(与STRING相似),路径长度较短,进一步体现其在功能模块化和癌症相关性分析中的优势。
3:癌症相关的密集模块
- 功能模块检测:FunMap通过与CORUM数据库的比对发现,与癌症相关的功能模块显著富集,例如细胞外基质(ECM)相关模块(Clique 160)在肿瘤中过表达,与癌症侵袭性和不良预后显著相关。
- 临床意义:ECM模块高表达的肿瘤患者生存率显著下降。相比之下,与细胞粘附相关的Clique 46模块低表达,可能导致肿瘤细胞运动性和侵袭性的增强,其低表达的肿瘤显示更差的预后。
4:FunMap的层级模块化结构
多层级组织:通过NetSAM算法,FunMap被分解为8个层级,共255个模块。图4展示了显著关联癌症标志的10大模块分支,如逃避免疫破坏、抗细胞死亡和基因组不稳定性等。
- 模块间功能联系: 例如,L3_M55模块主要参与蛋白质折叠,而其子模块L4_M58和L4_M59进一步细化为蛋白质折叠和运输功能,这些模块的功能与肿瘤细胞快速增殖所需的蛋白质稳态密切相关。
5:蛋白质折叠与运输模块的深入分析
- 模块功能分析: 蛋白质折叠模块(L4_M58)在肿瘤中过表达,显著关联患者的不良生存率,提示其可能通过增强蛋白质稳态维持而促进肿瘤进展。抗血管生成模块(L3_M19)在肿瘤中低表达,与更好的生存预后相关,表明其可能在肿瘤抑制中发挥作用。
- 临床相关性: 在多个癌症类型中,如肝癌和肺癌,L4_M58的高表达显著预测较差的预后,而L3_M19的低表达提示预后改善。
6:基因突变与功能模块的关联
突变与蛋白丰度:KEAP1突变显著影响L2_M40模块的蛋白质丰度,其基因均为NRF2通路的靶标。L2_M40模块在KEAP1突变的样本中显著过表达。TP53突变则主要影响COP9信号体模块(L3_M58),显著降低该模块的蛋白质丰度。
- 功能反馈:TP53突变可能通过破坏信号体模块的负反馈机制,导致p53蛋白水平异常积累,这与肿瘤中p53的稳定性和癌症进展相关。
7:未充分研究蛋白的功能预测
“暗基因”解析:FunMap预测了700个“暗基因”(无文献记录)的潜在功能,发现其中496个基因的网络邻域显著富集于特定功能,如核糖体RNA加工、蛋白质修饰等。
- 示例分析: RBM34和RBM12B在肿瘤中过表达,且与核糖体RNA加工相关,提示其可能通过调控翻译过程在癌症发生中发挥作用。
8. FunMap的临床应用潜力
网络与临床数据整合: FunMap整合了蛋白模块与患者生存数据,为个性化治疗提供了新的可能性。例如,CXorf38的蛋白表达与免疫评分显著相关,而MAB21L4的表达水平在不同肿瘤分级中表现出规律性变化。
小
结
- 蛋白质与RNA共表达比较:蛋白质水平的共表达比RNA水平更能准确预测基因功能关联,尤其在肿瘤样本中表现显著。
网络构建与性能:FunMap网络包含10,525个基因和196,800条功能相关边,功能相关性和覆盖范围显著优于其他网络(如STRING和BioGRID)。
模块分析:识别出多个癌症相关密集模块,包括细胞外基质(ECM)模块,其高表达与多种癌症的不良预后显著相关。
层级结构:FunMap展示了多层级模块化结构,显著关联癌症标志(如逃避免疫破坏、抗细胞死亡等)。
基因突变关联:KEAP1和TP53等癌症驱动突变显著影响特定功能模块的蛋白质丰度,揭示了突变-蛋白网络的功能关联。
未充分研究蛋白功能预测:FunMap有效预测了700个无文献记录的“暗基因”功能,其中496个基因显著富集于癌症相关功能。
临床应用潜力:FunMap通过结合生存数据和功能模块分析,提供了个性化治疗和生物标志物发现的可能性。
-END-
文字丨本人点滴积累,如有补充,下方留言即可
(后台回复“241212”即可获取全文)