DRUGAI
今天为大家介绍的是来自澳大利亚悉尼大学、葡萄牙里斯本INESC-ID研究所、英国维康桑格研究所团队的一篇论文。整合不同类型的生物学数据对于全面理解癌症生物学至关重要,但由于数据的异质性、复杂性和稀疏性,这一工作仍然充满挑战。为解决这个问题,作者的研究引入了一个无监督深度学习模型MOSA(Multi-Omic Synthetic Augmentation,多组学合成增强),该模型专门设计用于整合和增强癌症依赖图谱(Dependency Map,DepMap)。通过利用正交的多组学信息,该模型成功生成了分子和表型谱,使多组学谱的数量增加了32.7%,从而为1523个癌症细胞系生成了完整的DepMap。这些人工合成增强的数据提高了统计检验效能,揭示了与药物耐药性相关的未被深入研究的机制,并完善了癌症细胞系的遗传关联性鉴定和聚类分析。通过应用SHAP进行模型解释,MOSA揭示了对以下两种任务至关重要的多组学特征1)细胞聚类2)与药物及基因依赖性相关的生物标志物鉴定。这种理解对于制定有效策略以优先考虑癌症靶点具有重要意义。
随着对癌细胞系分子和表型特征的深入研究,癌细胞系已成为最受关注的人类细胞模型之一。这些不断增长且丰富的多组学数据持续推动着癌症基因的鉴定和治疗靶点的发现。虽然基因组学一直是寻找癌症预测生物标志物的主要研究方向,但癌症依赖图谱(DepMap)联盟最近开展的功能基因筛选表明,仅有不到20%的RNA干扰癌症依赖性可以通过突变和拷贝数变异来解释。这突出表明了开发整体性机器学习模型的重要性,这类模型需要能够垂直整合正交数据集。在这种情况下,垂直整合不仅涉及基因组学,还包括其他类型的组学数据。
尽管深度学习在多组学整合方面取得了一些成功,但仍面临几个限制,其中最重要的是不同数据类型的高度异质性(例如,离散与连续分布的区别)、内在的技术局限性(例如,缺失值),以及有限的数据可用性(例如,在本研究中,仅有25.8%的癌细胞系具有全部七个组学数据集)。
无监督机器学习在多组学整合方面取得了成功,它能够捕捉不同组学之间共享的数据变化模式。这种方法揭示了与上皮-间质转化(EMT)相关的癌细胞状态,而EMT是药物耐药性和转移过程中的关键过程。基于无监督深度学习的模型可以通过重建缺失测量值和纠正实验误差来生成改进版本的输入数据集,从而增强下游分析。
虽然线性降维模型也是为类似目的而设计的,但深度生成模型在大规模多组学癌细胞模型中的应用仍然滞后。这导致了这些非线性方法在增强数据集和执行统计分析以改善癌症机制、生物标志物和药物靶点特征方面的应用存在空白。
变分自编码器(VAE)等深度学习模型为底层生物学数据提供了更复杂的公式。此外,VAE具有高度灵活的设计,可以稳健地处理数据稀疏性,并且易于扩展以整合不同的数据类型。特别是,基于VAE模型的方法在单细胞多组学整合和增强领域已经取得了显著成功。然而,这些方法通常预设存在特定的数据类型,如来自scRNA-seq和scATAC-seq的计数数据,这限制了它们在更广泛组学领域的应用。
在这项研究中,作者开发了一个多组学合成增强(MOSA) VAE模型,该模型可以整合并合成增强来自DepMap中超过1500个癌细胞系的多组学数据集。
模型部分
图 1
利用DepMap项目,作者整合了七个不同的癌细胞系数据集,包括基因组学、甲基化组学、转录组学、蛋白质组学、代谢组学、药物反应和CRISPR-Cas9基因必需性数据(图1a)。这些数据涵盖了1523个癌细胞系,每个细胞系至少有两个可用的数据集。作者设计了针对癌细胞系多组学数据集的MOSA模型,进行了稳健的数据增强,并为生物标志物的发现提供了模型解释(图1b)。
首先,采用后期整合方法,作者为每个数据集训练了单独的编码器,以获得特定于每个组学层的潜在嵌入。这些嵌入随后被连接并进一步简化,形成了联合多组学潜在表示(图1c)。这里的潜在表示是神经网络隐藏层中学习到的抽象特征集(嵌入),它包含了输入数据的主要信息。与多组学线性降维方法MOFA和另一个基于VAE的方法MOVE相比,作者的模型在多组学潜在空间中能够更好地根据组织类型分离细胞系(图1c)。
其次,由于基因组学数据的稀疏性和定性特征,它带来了独特的挑战。为了解决这个问题,作者仅使用癌症驱动事件,并将基因组学分为拷贝数改动和突变两部分。拷贝数事件通过独立的编码器/解码器作为有序数据进行整合(类似于其他组学数据的处理方式),而突变则作为二元条件整合到每个编码器中(图1b)。这样设计的原理是:遗传背景会影响细胞特征和表型,从而调节其他组学层。条件矩阵包含了癌症驱动基因的遗传改变(包括基因融合)、细胞系的组织来源、细胞系生长速率测量值和微卫星不稳定性信息(MSI高),总共237个条件变量。这个条件矩阵进一步与学习到的多组学联合潜在空间连接,作为解码器的输入。因此,遗传背景和细胞信息对于生成潜在表示和重建每个组学数据集都至关重要。
第三,与用于单细胞数据的类似模型相比,DepMap中可用的样本数量有限且组学数据具有异质性,这给训练一个可推广的癌细胞系模型带来了重大挑战。为了降低模型复杂度,MOSA仅将变异性最大的特征作为编码器的输入,而所有特征都由解码器重建用于合成数据生成,这形成了VAE的非对称设计(图1b)。MOSA的这种独特设计使作者能够舍弃低信息量的特征,例如在所有癌细胞系中表达恒定的基因和非必需基因。这种设计将可训练参数减少了39.2%,同时保持了较低的重建误差。
第四,由于多组学数据集的规模差异,可能导致某些数据集在训练过程中占主导地位,从而降低模型的泛化能力和可解释性。作者开发了一个完整组学(视图)丢弃层,该层基于超参数对完整的组学层进行掩蔽。这显著改善了模型的泛化能力,为特定组学的癌细胞系提供了更好的重建结果(图1b)。随后,作者通过计算所有组学输入特征的SHAP值,对多组学模型进行解释,以评估这些特征对潜在空间整合和组学特征重建的重要性。这为探索潜在的非线性癌症基因型-表型关联提供了一个系统性的资源。
多组学合成数据的评估
图 2
使用10折交叉验证策略,MOSA重建的CRISPR-Cas9和药物响应的留出集与原始数据显示出稳健的相关性(特征的平均皮尔逊相关系数分别为0.35和0.65)(图2a)。与类似的系统性监督分析相比,MOSA表现更好。这些监督分析旨在预测每个CRISPR-Cas9基因依赖性,它们分别使用核心组学(如基因组学、转录组学)、仅基因组学或仅功能相关基因进行预测(最佳特征的平均皮尔逊相关系数为0.25)。
MOSA通过利用从原始数据中学习到的多组学潜在空间来重建输入数据矩阵。数据重建生成完整的组学矩阵,从而处理缺失值(部分数据集增强),更重要的是,通过垂直整合重建整个组学数据(完整数据集增强)(本研究中要求每个细胞系至少需要两个组学数据)。
对于部分数据集增强,MOSA可以填补不完整的特征,例如,由于质谱基础蛋白质组学数据常见的技术限制,某些蛋白质的测量数据比较稀疏。对于一个在模型训练期间完全缺失的最新独立药物响应数据集,MOSA准确地进行了重建(IC50值,皮尔逊相关系数r = 0.87,n = 32,659)(图2b),优于MOFA、MOVE和简单平均填充方法(图2c-e)。
MOSA的重建结果与原始数据集之间的显著差异揭示了可能存在的不准确实验测量。例如,对MEK1/2抑制剂曲美替尼的响应与重复测量结果以及同一细胞系中具有相同经典靶点的药物不一致。这些差异还突显出一些药物(如venetoclax)或药物类别(如抗凋亡抑制剂),它们目前缺乏有效的分子生物标志物,这凸显了为其响应开发可靠预测模型的挑战。
此外,蛋白质组学数据存在大量缺失值,主要影响低丰度蛋白质。MOSA使用所有组学的信息填充了原始矩阵约32%的数据,同时保持了与独立蛋白质组学数据集(CCLE)的样本相关性。值得注意的是,MOSA有效重建了SMAD4基因缺失细胞系中的SMAD4蛋白质谱,这类细胞系通常表现为SMAD4基因表达和蛋白质丰度较低。
MOSA增强的蛋白质组学矩阵保持了通过蛋白质配对相关性识别蛋白质相互作用的能力。与存在缺失值的原始矩阵相比,MOSA增强的蛋白质矩阵是完整的,可以直接用于下游分析,如广义线性模型,这改善了蛋白质复合物相互作用的召回率。
MOSA在完整数据集增强方面的效果
图 3
随后,作者评估了完整数据集增强的效果。对于缺乏蛋白质组学测量数据的癌细胞系,MOSA生成的合成蛋白质组学数据与独立的蛋白质组学测量结果显示出相关性,这种相关性与实际拥有蛋白质组学数据的细胞系相当(图3a)。在药物响应方面,107个重叠药物的重建结果与独立数据集(CTD2)的测量结果显示出稳健的相关性(图3b)。
作者通过比较原始数据矩阵和增强数据矩阵来评估下游分析。MOSA将CRISPR-Cas9细胞系筛选数量增加了34.9%,增强后的数据集提高了发现基因关联的统计效力(图3c)。基因必要性特异性(Fisher偏度检验)可用于识别选择性癌症脆弱性,结果显示合成的CRISPR-Cas9筛选细胞系与先前可用的筛选结果之间存在中等程度的正相关(皮尔逊相关系数r = 0.52)(图3d)。然而,由于潜在的非必需基因异常值的存在,这种相关性可能被低估了。MOSA准确重建了基因依赖关系,例如BRAF功能获得性突变癌细胞系中的BRAF依赖性(图3e),以及携带FLI1-EWSR1融合基因的细胞系中的FLI1依赖性(图3f)。
最后,作者着手评估开发一种能够原生集成两种以上组学数据方法的优势。具体而言,作者关注了转录组学和药物反应数据集,它们分别代表分子和表型数据集。这两类数据集在多组学整合中经常被使用,也是作者基准测试中信息量最丰富的组学类型。在评估的方法列表中,作者考虑了iClusterPlus、JAMIE、scVAEIT和moCluster。MOSA在转录组学和药物反应数据的重建方面表现更好。特别是,向MOSA添加更多组学数据相比现有方法带来了显著改进,支持了使用整体多组学模型的价值。此外,MOSA在组织来源聚类方面持续优于其他方法。仅考虑转录组学和药物反应时,可以获得最佳的组织来源聚类结果,这反映了这些组学数据按组织来源的强结构特征。相比之下,其他组学如蛋白质组学和代谢组学按组织的结构性较弱。因此,包含按组织结构性较弱的组学数据自然会导致较松散的组织聚类。
综上所述,这些多样化的例子展示了MOSA在部分和完整数据集增强方面的能力,这些能力已通过来自不同实验室的各种独立数据集得到验证。大规模多组学数据集的生成既耗时又需要大量资源,因此MOSA成为了一个有价值的工具,可用于药物靶点的计算机模拟测试和优先级排序,为实验验证提供依据。
模型可解释展示了癌症的细胞状态
为了确定最有前景的靶点,模型需要在产生可靠预测之外具有可解释性。因此,作者使用SHAP算法来计算特征重要性,将其定义为每个特征对潜在空间的贡献量(图1b)。当按照相应的组学数据集对特征进行分组时,作者观察到代谢组学、药物反应和拷贝数变异表现出最高的平均特征重要性。关于条件特征,尽管它们的平均特征重要性适中,但某些关键特征,如TP53突变、生长率以及造血和淋巴组织来源,即使与其他组学数据集相比也显示出高度显著性(图4a)。这强调了将条件变量纳入模型的重要性。来自每个组学数据集排名前五的特征也验证了作者的方法能够重现与癌症相关的已知分子过程的能力(图4a),例如CDKN2A拷贝数变异,以及对SRC家族抑制剂达沙替尼的敏感性。有趣的是,其他排名较高但不太明显的特征揭示了此前较少探索的生物学机制。
一个具体的例子是参与烟酸和烟酰胺代谢的代谢物1-甲基烟酰胺,经计算它是代谢组学中对多组学潜在表征最重要的特征(图4a)。作者观察到1-甲基烟酰胺细胞内含量增加与烟酰胺N-甲基转移酶(NNMT)酶的过表达之间存在强相关性,该酶催化这种代谢物的产生。作者还观察到1-甲基烟酰胺与癌细胞系的EMT状态之间存在关联,这一点通过VIM和CDH111的表达得到证实。这证实了最近一项单细胞研究的发现:携带EGFR激活突变的PC-9非小细胞肺癌细胞系通过EMT标志物的表达和1-甲基烟酰胺的积累,发展出对EGFR抑制剂的耐药性细胞状态。此外,在A549细胞系EMT早期阶段观察到1-甲基烟酰胺显著增加,这种增加与糖酵解代谢物和组蛋白翻译后修饰的变化相关,表明1-甲基烟酰胺与EMT过程中的表观遗传修饰之间存在联系。虽然需要进一步的实验验证,但这可能为识别导致药物耐药性的癌症细胞状态铺平道路。
为了深入研究,作者随后使用SHAP算法专门计算了药物反应重建的特征重要性,从而有助于发现最有前景的生物标志物。如预期的那样,药物反应特征本身平均而言是最重要的特征。值得注意的是,条件特征成为第二重要的组学数据,反映了组织来源、突变和生长率在影响药物反应中的关键作用。
以代谢物1-甲基烟酰胺为中心,已知与EMT相关的药物在1-甲基烟酰胺的特征重要性排名中位列前茅(图4b)。除了Daraprim(Pyrimethamine)这个未被纳入数据集作为抗癌药物的药物外,排名前五的所有药物在近期研究中都被发现与EMT有关。具体来说,UNC0638、Entinostat和BIX02189能够抑制EMT,而甲氨蝶呤则表现出诱导EMT的能力。这一发现表明排名最高的药物Daraprim可能也与EMT密切相关,为癌症治疗中的药物重新定位提供了潜在途径。其他与EMT相关的特征,如GPX1蛋白强度,也在Daraprim的顶级特征中排名靠前,这表明可以利用列表中的其他特征来发现最有前景的药物反应生物标志物(图4c)。
在这些排名靠前药物的其他重要特征中,KRAS和KMT2D被一致识别为具有高度重要性,这两个基因都与EMT有关。最后,作者使用外部代谢组学数据集来验证通过SHAP值与1-甲基烟酰胺相关的药物。虽然在他们的研究中没有直接测量1-甲基烟酰胺的丰度,但作者分析了与烟酸和烟酰胺代谢相关的药物,其中1-甲基烟酰胺是烟酰胺甲基化的直接产物。通过SHAP值识别的几种重要药物,包括Daraprim、UNC0638、Entinostat(MS-275)和PAC-1,也被排名为耐药或敏感药物。
综上所述,作者的发现表明1-甲基烟酰胺和EMT在数百个癌细胞系中存在广泛的关联,并可能在药物耐药性中发挥作用。虽然需要进一步评估来证实这一点,但从更广泛的角度来看,这揭示了使用MOSA作为整体模型的潜力。该模型可以整合癌细胞的分子和表型数据,用于研究癌细胞状态、药物耐药性及其潜在机制。
编译|黄海涛
审稿|王梓旭
参考资料
Cai, Z., Apolinário, S., Baião, A. R., Pacini, C., Sousa, M. D., Vinga, S., ... & Gonçalves, E. (2024). Synthetic augmentation of cancer cell line multi-omic datasets using unsupervised deep learning. Nature Communications, 15(1), 1-12.