DRUGAI
今天为大家介绍的是来自华盛顿大学Paul G. Allen计算机科学与工程学院的Su-In Lee团队的一篇论文。在癌症基因表达的大型数据集中,临床和生物学信息可以通过无监督深度学习进行挖掘。然而,生物学可解释性和方法学稳健性方面的困难使这一应用变得不切实际。在本研究中,作者描述了一种无监督深度学习框架——DeepProfile,用于从18种人类癌症的50,211个转录组中生成低维潜在空间,在生物学可解释性方面优于传统的降维方法。在定义各癌症类型潜在空间时,普遍重要的基因控制免疫细胞的激活,而癌症类型特异性的基因和通路则定义了分子疾病亚型。通过将DeepProfile中的潜在变量与肿瘤的二级特征关联,作者发现突变负荷与细胞周期相关基因的表达密切相关,且DNA错配修复和MHC II类抗原呈递的生物通路活性与患者生存率始终相关。作者还发现,肿瘤相关巨噬细胞是与生存相关的MHC II类转录本的来源,监督学习也可以促进从基因表达数据中发现生物学见解。
基因表达谱反映了复杂的细胞和分子过程网络。无监督学习是从表达谱中提取有意义的生物信息并降低数据维度的关键步骤,但常用方法如主成分分析(PCA)仅能捕捉线性关系,无法处理基因间复杂的相互作用。深度学习在无监督学习中表现出色,能够捕捉变量之间的复杂关系。作者开发了DeepProfile框架,利用来自50,211个转录组的18种人类癌症基因表达数据,生成稳健且可解释的低维潜在空间。通过集成多个深度模型,DeepProfile提升了模型的一致性和稳定性,并能将潜在变量与肿瘤特征关联。研究发现,普遍重要的基因控制免疫细胞激活,特定癌症类型的基因则定义了分子疾病亚型。此外,突变负荷与细胞周期相关基因表达密切相关,DNA错配修复和MHC II类抗原呈递通路的活性与患者存活率相关。DeepProfile的鲁棒性和可解释性能够在大规模基因表达数据中发现独特的生物模式,促进了癌症研究和临床应用。
DeepProfile学习18种癌症类型的鲁棒潜在空间
图 1
DeepProfile通过图1展示了其为18种癌症类型学习稳健潜在空间的框架。由于深度神经网络在样本量较小时容易过拟合,研究团队从GEO数据库收集了18种人类癌症的所有可用基因表达数据,共计50,211个样本和1,098个数据集。DeepProfile采用变分自编码器(VAE)并结合集成方法,将高维基因表达数据投射到低维潜在空间。图1还展示了DeepProfile如何利用集成的VAE模型生成信息丰富的潜在空间,并通过集成多次训练结果提升模型的一致性和稳定性。此外,DeepProfile通过“解释器”部分将潜在变量与基因和通路进行生物学特征映射,利用集成梯度方法量化每个潜在变量对输入基因的贡献。最终,DeepProfile不仅能有效减少数据维度,还能揭示癌症相关的基因表达模式,促进对癌症转录组信号与表型关联的深入理解。
DeepProfile学习具有生物学解释性的潜在变量
图 2
如图2a所示,DeepProfile的潜在变量捕捉的通路数量超过其他降维方法,特别是在癌症相关通路(如MSigDb定义的致癌通路)方面表现更佳,显著多于替代方法。在图2b中,DeepProfile生成的潜在变量中,不与任何已知通路相关的变量较少,提升了整体的可解释性。在不同P值阈值下,DeepProfile的潜在变量具有更高的生物注释比例,证明其潜在变量更具生物学意义(图2c)。
DeepProfile识别调节炎症通路的普遍重要基因
图 3
DeepProfile的高评分基因大多参与免疫反应调节和抗原呈递,其中IL10RA在多数癌症类型中表现突出(图3a–c)。这些基因反映了肿瘤浸润免疫细胞的转录特征。进一步分析显示,DeepProfile识别的高评分基因中,细胞表面受体显著富集(图3d),而传统方法如PCA未能捕捉到这些非线性关系。此外,DeepProfile还发现了多个在大多数癌症类型中一致重要但较少被研究的基因,如CD53、EVI2A/B和TYROBP,这些基因在调控肿瘤内免疫细胞的转录表型中起关键作用。总体而言,DeepProfile通过其深度学习集成方法,能够有效捕捉并解释与炎症和免疫相关的关键基因,提升了对癌症生物学的理解。
DeepProfile识别普遍重要通路以及特异性表达特征
图 4
如图4所示,细胞周期相关的基因集在几乎所有癌症类型中都具有显著重要性,表明增殖指数的差异是癌症转录组变异的主要来源。然而,急性髓性白血病(AML)和甲状腺癌中细胞周期通路的贡献较小,分别主要涉及适应性免疫反应和线粒体功能相关通路。免疫相关通路是第三常见的重要类别,其次是与氧化磷酸化相关的基因集,说明肿瘤在糖酵解与有氧呼吸之间的代谢状态差异解释了基因表达谱的全球差异。这些结果验证了DeepProfile方法的有效性,确认其能够捕捉癌症生物学中的关键过程,并为进一步的深入分析奠定了基础。
DeepProfile的潜在变量不仅捕捉了癌症特异性的表达特征,还涵盖了正常组织的特异性表达特征。如图4d所示,作者通过使用来自GTEx数据库的正常组织基因表达数据,评估了各潜在变量区分癌症与正常组织的能力,并为每条通路定义了癌症相关性得分。与细胞周期通路相比,核糖体基因集的癌症特异性得分较低,这表明这些基因在正常组织中也存在显著的表达变异性。此外,蛋白质折叠(prefoldin)和黏着斑相关通路在癌症相关性得分中排名最高,说明DeepProfile能够有效捕捉癌症样本中表皮-间质转化状态的变异,而这些变异在健康组织中较少见。
癌症类型的特异性基因和通路定义了分子疾病的亚型
DeepProfile能够识别癌症类型特异性的基因和通路,从而定义分子疾病亚型。DeepProfile通过计算每个基因的癌症类型特异性评分,发现高特异性基因通常定义了同一组织类别内的主要“亚型”或“分化等级”。例如,在乳腺癌中,DeepProfile识别出的特异性基因包括PIP、FOXC1和GFRA1,这些基因分别与不同的乳腺癌亚型相关。
图 5
进一步验证显示,DeepProfile能够有效捕捉与癌症亚型差异表达相关的基因,与传统的PCA方法相比,DeepProfile在识别这些特异性基因方面表现更优(图5a)。在AML和甲状腺癌中,DeepProfile同样识别出特异性的通路,如AML中的卟啉代谢和血红素生物合成通路,以及脑癌中的脂质运输通路(图5b)。这些发现表明,DeepProfile不仅能够识别出与癌症相关的关键基因和通路,还能揭示驱动不同癌症亚型的分子机制,而这些是线性模型难以捕捉的。
DeepProfile检测与生存和突变负担相关的通路
研究团队开发了一种方法,将DeepProfile的潜在变量与临床特征连接起来,并应用于两项关键指标:患者生存率和肿瘤突变负荷。在与生存率相关的分析中(图6a),DeepProfile识别出主要与适应性免疫相关的通路,如MHC I类抗原呈递和NF-κB激活,这些通路在多个癌症类型中显著相关。此外,DNA错配修复和MHC II类抗原呈递通路在更多癌种中显示出高度关联性,表明这些通路在癌症生存中扮演重要角色。
图 6
对于TMB相关的通路分析(图6b),DeepProfile发现细胞周期相关通路,如DNA复制和有丝分裂G2/M期通路,与突变负荷显著相关。这表明肿瘤的增殖活动与其突变负荷密切相关,支持了DNA复制作为突变源的观点。
图6c进一步展示了不同癌症类型中与生存率和TMB相关的特异性通路。例如,脑癌中的生存相关通路主要涉及干扰素信号通路,而TMB相关通路则突出细胞-细胞和细胞-基质相互作用。在肉瘤中,生存相关通路主要与DNA修复过程相关,而TMB相关通路则与葡萄糖代谢密切相关。DeepProfile通过其深度学习方法,成功地将基因表达通路与临床特征关联起来,揭示了不同癌症类型中生存率和突变负荷的分子机制,显著优于传统线性模型。
DNA错配修复和MHC II类的抗原呈递是常见的与生存相关的通路
DNA错配修复基因的低表达与较好的生存率显著相关(图7a-b),这可能是由于低表达导致的高新抗原水平增强了抗肿瘤免疫反应(图7c)。
图 7
在MHC II类抗原呈递通路方面,HLA-D基因的表达与生存率呈现双向关联(图8a-b)。在胰腺癌、肾癌、AML和脑癌中,HLA-D基因高表达与较差生存率相关,而在黑色素瘤和子宫癌等其他癌症中,高表达则与较好生存率相关。这种差异主要由肿瘤微环境中的巨噬细胞驱动(图8c-d),尤其是在脑癌和AML中,免疫抑制性巨噬细胞的高丰度导致HLA-D表达与较差生存率相关(图8e)。
图 8
讨论
DeepProfile作为一种无监督学习框架,在基因表达数据分析中展现出创新性和强大能力。不同于传统的聚类、网络推断和线性降维方法,DeepProfile利用深度神经网络的集成方法,生成稳健且可解释的低维潜在空间。通过采用集成梯度等特征归因方法,DeepProfile为每个潜在变量赋予基因重要性评分,并结合通路富集分析,实现了生物学特征的精准解读。在泛癌分析中,DeepProfile不仅识别了普遍重要的免疫相关基因,还发现了癌症类型特异性的通路,能够定义分子疾病亚型并关联临床特征如生存率和突变负荷。DeepProfile在处理大规模、多样化的基因表达数据中表现优异,提供了丰富的生物学见解,推动了癌症研究和精准医学的发展。
编译|于洲
审稿|王梓旭
参考资料
Qiu, W., Dincer, A.B., Janizek, J.D. et al. Deep profiling of gene expression across 18 human cancers. Nat. Biomed. Eng (2024).