Nat. Commun. | 整理大规模扰动谱整合图,PRNet成功预测233种疾病的药物候选物

学术   2024-12-01 00:02   韩国  

DRUGAI

今天为大家介绍的是来自中国科学院普适计算系统研究中心和四川大学华西医院团队的一篇论文。理解化学扰动对转录反应的影响对于药物研发至关重要,但无法对所有疾病和化合物组合进行全面实验筛选。为克服这一限制,作者提出了PRnet,一种基于扰动条件的深度生成模型,用于预测全新化学扰动(实验未验证过的)在总体和单细胞水平上的转录反应。评估结果表明,PRnet在预测新化合物、通路及细胞系的反应方面优于其他方法。PRnet可以解释基因水平的反应,并能根据基因特征进行体外药物筛选。PRnet找出并实验验证了对小细胞肺癌和结直肠癌的新化合物候选物。最后,PRnet生成了一个涵盖88个细胞系、52种组织和多个化合物库的大规模扰动谱整合图。PRnet提供了一个稳健且可扩展的候选药物推荐流程,成功为233种疾病推荐了药物候选物。总体而言,PRnet是一种用于基因治疗筛选的有效且有价值的工具。

化学扰动对转录反应的影响揭示了生物功能的基本见解,并在疾病理解和药物研发中发挥了关键作用。总体(Bulk)和单细胞RNA测序(scRNA-seq)实验支持化学扰动在组学水平上的高通量筛选(HTS)。最近的HTS研究已通过实验分析数千种独立的扰动,将细胞或细胞系暴露于化合物中。这些化学扰动的转录反应揭示了能表征个体和细胞过程的基因级别的可解释程序,并通过化学扰动量化它们。尽管取得了一些进展,但对化学扰动进行实验筛选依然耗时、昂贵且发现新疗法的成功率较低。无法对疾病和化合物组合的庞大化学扰动空间进行全面实验筛查。


过去几十年中,基于深度学习的方法成为模拟扰动对转录反应影响的重要工具。许多方法最近被提出来用于建模HTS扰动响应。CPA使用一种基于自编码器的模型,将化学诱导的转录组效应映射到潜在空间中以重建扰动响应。Biolord、scGen和scVIDR利用深度编码器-解码器/生成器框架进行反事实预测,将对照细胞和未知标签作为输入,预测未知细胞状态下的基因表达。这些新发布的细胞扰动建模工具精确模拟了化学扰动,并能预测未知细胞类型中的基因表达化学扰动,但很少能够预测对新化合物的响应。继CPA之后,chemCPA引入了新型编码器-解码器架构,结合了化合物的结构来预测未知药物的扰动效果。深度生成框架及其编码器-解码器的变体能有效预测单细胞基因表达扰动。CellOT和CINEMA-OT利用最优传输(optimal transport)来对配对的未扰动和扰动的观测数据进行匹配。最优传输方法可以匹配经过实验扰动的观测数据,但无法建模新的扰动,比如新化合物或新细胞类型。


基于线性回归的方法通过线性组合基因扰动效果估计化学扰动对基因表达的影响。然而,这种线性组合方法在准确建模跨不同细胞类型和化合物组合的非线性化学扰动方面存在局限性。GEARS和CellOracle利用基因-基因关系的知识图预测基因扰动结果。然而,基于图的模型依赖于准确的先验知识,缺乏扩展性。鉴于大多数疾病与特征性基因表达谱相关,Connectivity Map(CMap)提出了通过基因表达特征连接基因、药物和疾病的概念,催生了如CMap和L1000等项目。受这一概念启发,DLEPS、OCTAD等研究利用基因特征匹配方法,通过寻找能逆转疾病特征的药物来筛选候选药物。但总的来说,需要一种能对全新扰动进行有效预测的响应模型,以应对现有实验和计算方法对新扰动的探索能力不足的问题,并发现有潜力的治疗药物候选物。深度生成模型在自然语言处理、计算机视觉、化学等多个领域取得了巨大进展,展示了其在药物研发应用中的潜力。


模型部分

在本文中,作者将转录反应预测表述为一种基于扰动的分布生成问题。细胞本能地识别并响应化学刺激,其反应受外部刺激和细胞内状态的共同影响。在单细胞或总体HTS中,化学扰动引起的转录反应受到多种条件的影响,包括化合物结构、剂量及细胞类型、细胞系等协变量。在给定n维未扰动的转录组数据(单个细胞或总体RNA-seq观测)以及具有特定结构和剂量的化合物引起的化学扰动的情况下,PRnet旨在预测扰动转录组数据的分布。通过建模扰动模式,可以捕捉新化学扰动对基因级别程序的影响,并在各种扰动情境下对其进行量化(图1a)。

图 1


PRnet是一种灵活且可扩展的基于扰动条件的深度生成模型,旨在预测总体和单细胞水平上对复杂化学新扰动的转录反应。PRnet设计由三部分组成:Perturb-adapter、Perturb-encoder和Perturb-decoder(图1b)。在预处理阶段,每个扰动的转录组数据会匹配同一细胞系的未扰动转录组数据。


首先,对于通过SMILES字符串表示的化合物结构及其对应剂量引起的化学扰动,PRnet利用RDKit工具捕捉结构的功能拓扑信息,生成化合物的功能类别指纹(FCFP)。这些FCFP按剂量缩放后相加,得到重新缩放的功能类别指纹(rFCFP)嵌入。一般来说,对于第i个化合物的扰动,Perturb-adapter将指纹rFCFP_i编码为可加的潜在嵌入,使其能够泛化到新化合物及化合物组合。接着,Perturb-encoder将化学扰动对异质未扰动状态的影响映射到可解释的潜在空间。最后,Perturb-decoder在未扰动状态、应用的扰动和噪声的条件下,估计转录反应分布N。PRnet将化学影响编码到可学习的潜在空间中,估计分布并进行条件采样,以生成具有生物和化学背景的转录反应。采样生成特定的转录组数据,提供基因水平的上调和下调信息。


对于总体HTS数据,预测的978个标志基因的转录反应通过线性转换扩展为12,328个基因。对于单细胞HTS数据,选择了5000个高度变异基因(HVGs)作为转录组数据。SMILES因其简洁和高效而广泛用于将复杂分子结构编码为字符串。通过将化合物的SMILES作为输入,Perturb-adapter具备了筛选大规模化合物库的灵活性,且无需先验知识。PRnet由数据驱动,能自动识别潜在空间中与化合物、剂量背景及细胞类型特异性相关的异质性,使模型能够直接泛化至包含新化合物、通路、细胞类型和细胞系的全新扰动情境。


PRnet具备预测新扰动的转录反应的能力,从而实现了复杂疾病候选药物的高效筛选(图1c)。受到CMap概念中将基因特征作为反映疾病潜在机制指标的启发,PRnet通过找到能够逆转疾病特征的药物,预测出新的治疗候选药物。使用PRnet进行下游任务包含两个步骤:步骤1中,进行体外筛选,PRnet预测由用户定义的化合物库(包含多个浓度梯度)扰动的特定细胞系的转录组数据。步骤2中,计算每种化合物的平均转录组数据和基因表达的倍数变化,并按倍数变化值对基因进行排序。然后,针对特定疾病或已知敏感化合物的查询基因特征,利用基因集合富集分析(GSEA)评估化合物的有效性,基于富集得分对化合物进行排序。大规模高通量筛选数据最初拟合到模型中,使其能够适应各种化合物库和疾病。


PRnet在两个化合物库上进行了训练,并筛选了四个化合物库(图1c)。训练的化合物库包括一个总体高通量筛选库,包含超过883,269个转录组数据,涉及175,549种生物活性化合物,以及一个单细胞高通量筛选库,包含290,888个转录组数据,涉及188种活性化合物。经过HTS观测数据的充分训练,PRnet可以在多种细胞系上进行新化合物库的体外高通量筛选。PRnet还被应用于小细胞肺癌(SCLC)的活性化合物和类药物筛选,以及结直肠癌(CRC)的天然化合物筛选。体外验证实验通过MTT法确认了这些候选化合物在SCLC和CRC细胞系上的有效性。


最后,PRnet筛选了四个化合物库,并生成了一个大规模扰动谱整合图(图1d),包括:(1) 82个细胞系,受到935种FDA批准药物的扰动,(2) 88个细胞系,受到4158种活性化合物的扰动,(3) 14个CRC细胞系,受到30,456种天然化合物的扰动,(4) 6个SCLC细胞系,受到29,670种类药物的扰动,以及(5) 54种组织,受到935种FDA批准药物的扰动。基于这个大规模扰动谱整合图,PRnet能够执行多种下游应用。PRnet已被用于为233种不同疾病推荐药物,并成功预测了这些疾病的药物候选物,展示了其在药物研发中的潜力。


PRnet 能够稳健地预测新扰动的反应

为了评估PRnet在预测未见过的扰动反应方面的性能,所有数据集都严格按照扰动属性(化合物、细胞系和通路)分为三个子集:训练集、验证集和测试集。保留的测试集用于模拟新扰动的数据集。采用了三种训练-测试数据分割策略来评估分布外扰动场景的性能,包括:(1) 随机分割:随机划分化合物和细胞系,(2) 未见(全新)化合物:测试训练期间未见过的扰动化合物,(3) 未见细胞系:测试训练期间未见过的扰动细胞系。每种分割策略都应用了五折交叉验证,并计算了五个折叠的平均性能作为总体比较指标。使用了两种不同分辨率的高通量筛选数据来测试模型性能,包括一个批量 HTS 数据集(来自 L1000 项目)和一个单细胞 HTS 数据集(来自 sci-Plex 测序)。所有模型都在两个 HTS 数据集上分别进行了训练和比较。

图 2


作者使用了来自 L1000 项目的批量高通量筛选数据来拟合模型,在这些数据中选择了 978 个基因(以下简称标志基因),以代表人类细胞中生物路径和过程的多样性。首先预处理了这些数据,并获得了 836,352 对批量 RNA 序列观察值(由 978 个标志基因的表达水平表示),涵盖了 82 个细胞系及其受到 175,549 种化合物扰动的数据。为了定量评估化合物引起的基因表达变化,作者比较了保持测试集中真实值与预测值之间的皮尔逊相关性,即基因表达对数变化的平均值(log(FC))在扰动后的皮尔逊相关性,与替代方法进行了对比。“Pearson of log(FC) in compounds”度量评估了测试集中同一化合物扰动的真实均值 log(FC) 与预测均值 log(FC) 之间的皮尔逊相关性。PRnet 在批量 HTS 数据上的表现展示在图2a中,其中更高的数值表示更好的表现。PRnet 在所有三种分割策略中持续表现出最佳性能,特别是在未见化合物预测场景中,平均皮尔逊相关系数 (PCC) 达到了 0.8。在预测未见细胞系 log(FC) 方面,PRnet 显著优于其他方法,PCC 比其他方法高出超过 0.3。


在更具挑战性的场景中,通过“Pearson of log(FC) in cov_compounds”度量评估了预测特定细胞系化合物诱导的基因变化的表现。“Pearson of log(FC) in cov_compounds”度量是测试集中同一化合物在同一细胞系内扰动的真实均值 log(FC) 与预测均值 log(FC) 之间的皮尔逊相关性。PRnet 在“Pearson of log(FC) in cov_compounds”度量方面于三种场景中均取得了最佳表现。特别是,在未见细胞系预测中,PRnet 的表现比其他方法好两倍多,并且在未见化合物预测中提高了 0.16,这表明 PRnet 对新扰动具有泛化能力(图2b)。


为了更好地描述在某些扰动下基因层面的异质性变化,有必要识别一组细胞或细胞系,并从相应的细胞系或细胞中分离出数据中富集的具体变异。经过训练后,PRnet 学习了在基础未扰动状态和施加扰动背景下的可解释潜在嵌入。t-SNE表征(图2c)展示了PRnet学习到的扰动后转录谱的潜在嵌入。在潜在空间中,来自同一细胞系的嵌入倾向于聚集在一起。每个癌细胞系对相应扰动形成了特定的基因层面响应。某种程度上,PRnet 捕捉了不同条件下强烈的细胞系特异性转录谱变异。有趣的是,作者观察到 PRnet 学习到的嵌入还代表了细胞系对各种扰动响应的相似性。图2c 展示了所有细胞系潜在嵌入的 t-SNE 表示,其中源自同一器官的细胞系在潜在空间中显示出相似性偏好,导致空间位置接近,比如结肠、乳腺和肺的细胞系。


PRnet 适应于建模不同分辨率的高通量筛选(HTS)图谱。sci-Plex 测序筛选了 188 种化合物在 3 种癌症细胞系中的单细胞分辨率,测量了数百万个细胞。筛选的细胞系包括 A549(肺腺癌)、K562(慢性髓性白血病)和 MCF7(乳腺腺癌),每种细胞系都接受了这 188 种化合物在四个剂量(10 nM, 100 nM, 1 μM, 10 μM)下的处理。为了定量评估 PRnet 在单细胞 HTS 数据中的表现,作者遵循常用的度量标准,比较了保持测试集中真实值与预测值之间扰动后基因表达的 R² 分数,与替代方法进行了对比(图2d, e)。"R² in compounds"度量评估了测试集中同一化合物扰动后基因表达平均值的 R² 分数。作者还比较了细胞类型特异性表现的“R2 in cov_compound”度量,该度量评估了测试集中同一化合物在每个特定细胞系内扰动后基因表达平均值的 R² 分数。在未见化合物(R2 in compound: 0.969)和未见路径情景中,PRnet 在“R2 in compound”和“R2 in cov_compound”度量上优于其他模型(R2 in compound: 0.97)。低维(t-SNE)表示展示了 PRnet 从 3 种癌症细胞系的大规模单细胞筛选中学习到的潜在嵌入(图2f)。潜在嵌入自动聚类了细胞与其细胞类型的对应关系。结果表明,PRnet 不仅能捕捉大规模 HTS 的异质性响应,还能解析同质细胞对各种扰动的相似响应。MCF7 细胞经 AG-14361 处理后在潜在空间中的 t-SNE 嵌入(图2g)产生了伪剂量轨迹,表明 AG-14361 引发了异质性响应。补充图6d至f 中展示了几个其他伪剂量轨迹的例子。


为了验证 PRnet 的临床相关性,作者纳入了一组儿童急性髓系白血病(AML)患者的数据。作者训练 PRnet 预测化疗治疗后的转录反应,并验证了其在临床应用中的潜力。PRnet 在预测儿童 AML 患者化疗后的转录反应方面表现出稳健性,展示了 PRnet 协助临床应用的潜力。详细的实验结果,请参见补充注释1和补充图8。


PRnet 捕捉了各种扰动场景中的基因程序

图 3


作者认为,PRnet 可以成为分析和捕捉功能性转录实验的宝贵工具,这些实验旨在通过引入系统扰动来揭示不同条件下的基因程序或效应。为了更深入地研究这一点,作者首先收集并测试了化合物伏立诺他(Vorinostat)的保持测试扰动数据。伏立诺他是第一个获得 FDA 批准的 HDAC 抑制剂,用于治疗皮肤 T 细胞淋巴瘤(CTCL)的皮肤表现,目前也正在作为单一疗法和联合疗法研究用于其他类型的癌症。结果显示,PRnet 在所有 71 个细胞系中全面捕捉了基因层面的变化(图3a)。通过比较来自不同器官的细胞系的转录反应,作者观察到 PRnet 捕捉到了细胞类型特异性的反应。例如,来自肌肉的细胞系表现出相对较弱的反应和较小的变化幅度,而来自肺部的细胞系则不同。图3a 显示,PRnet 正确捕捉了来自 16 种组织/器官的 71 个细胞系中,排名前几位上调和下调基因的扰动趋势和幅度。以基因 FAM57A 和 TP53 为例,PRnet 在所有细胞系扰动后的上调和下调情况中都做出了准确的预测。此外,PRnet 甚至正确预测了所有细胞系中 FAM57A 表达的变化倍数。图3b 显示了伏立诺他处理后,来自不同器官的三个代表性细胞系(HT29:结直肠腺癌,A549:肺腺癌,MCF7:乳腺腺癌)的基因表达变化倍数预测值与实际分布的详细对比。可以看出,PRnet 与预测值和真实观察值的分布保持一致,并准确预测了 log(FC) 值较高的前5个基因的上调和下调趋势。作者使用 KEGG 通路基因集富集分析(GSEA)对所有细胞系中伏立诺他扰动后基因排名的平均预测值进行了分析。GSEA 结果(图3c, d)显示,伏立诺他在与肿瘤抑制机制相关的基础细胞过程通路中富集。GSEA 结果表明,伏立诺他抑制了诸如细胞周期、DNA 复制和剪接体等通路,激活了包括动物自噬、溶酶体、吞噬体等与肿瘤细胞自噬和凋亡相关的通路。


为了展示 PRnet 的泛化能力,作者还基于基因逐一分析了其他测试化合物的扰动观察。作者收集并测试了一些关于 HT29 细胞系的最多观察案例的扰动数据。图3e 展示了 HT29 细胞系分别接受保持测试化合物硼替佐米、MG-132 和渥曼青霉素处理后,前20位上调和下调基因的 log(FC)。这些结果表明,PRnet 能够捕捉与相应化合物证据一致的调控基因水平信息,这些信息可能在扰动分析中被忽略,有助于推断不同的癌症转录谱条件。扰动后基因表达变化倍数的预测分布与实际观察分布紧密吻合,表明 PRnet 在捕捉扰动效应方面的准确性。更多预测的乳腺癌细胞系基因水平扰动响应表现出类似的性能。此外,图3f 展示了PRnet在单细胞 HTS 观察中预测细胞类型特异性基因水平扰动转换的能力。在预测 GSK-LSD1 干扰 A549、K562 和 MCF7 细胞系的反应时,PRnet 准确捕捉了所有10个差异表达基因的表达趋势和反应幅度(图3f)。在其他几种扰动条件下的多个例子中也观察到了类似的性能。能够在不同化合物条件和分辨率下捕捉基因水平程序的变化,表明 PRnet 在预测扰动反应方面的稳健性、泛化能力和精确性能。


PRnet 识别了对抗小细胞肺癌的有效化合物

经过训练以模拟高通量筛选的实验测量后,PRnet 被应用于识别治疗小细胞肺癌(SCLC)的潜在新化合物候选。SCLC 是一种极其侵袭性的肺癌,其特点是细胞体积小、胞浆有限,形成簇状或球形。尽管最初对常规化疗和放疗有积极反应,SCLC 往往会迅速复发,五年生存率低于5%。目前,针对这种疾病的高效治疗方法尚未解决,使得针对该癌症的药物开发成为优先事项。

图 4


鉴于几种新的 SCLC 细胞系,即 NCI-H69、NCI-H526、NCI-H446、NCI-H209 和 NCI-H196,以及 DMS114,作者首先使用 PRnet 预测SCLC细胞系对敏感化合物的转录反应。然后,作者通过计算机筛选了两个用户定义的化合物库来识别对抗 SCLC 的潜在化合物候选(图4a),分别是 Selleckchem 的活性化合物库(4158 种化合物)和内部药物样化合物库(29,670 种化合物)。通过计算机筛选,PRnet 预测了每个化合物在六个细胞系上,八个浓度梯度下的转录反应,每个场景重复三次以确保计算的稳健性,并计算了每个化合物扰动后平均表达变化的基因排名。之后,使用敏感化合物在其细胞系上预测的上调/下调基因为 GSEA 基因签名输入,计算富集得分。随后,作者进行了 GSEA 计算了化合物库中化合物的富集得分,并根据得分对它们进行了排序。最终,选择了排名前三的三种化合物((+)-Fangchinoline、(+)-JQ-1 和 SEL120 34A HCl)作为候选集(图4b)。其中,已经证明小细胞肺癌(SCLC)细胞对 BET 抑制剂 (+)-JQ-1(CAS 编号: 1268524-70-4)的生长抑制极为敏感,而 (+)-Fangchinoline 和 SEL120-34A HCl 则进行了实验评估。作者还通过计算不同浓度梯度下扰动转录谱的富集得分,探索了候选化合物的合适活性浓度。如图4c、d 所示,1-10 μmol/L 的浓度可能是这些候选化合物的适当抑制浓度。


作者使用 MTT 法检测了化合物候选对 SCLC 细胞的活性。选择了六种人 SCLC 细胞系(NCI-H69、NCI-H526、NCI-H446、NCI-H209、NCI-H196 和 DMS114)进行实验。结果显示 SEL120-34A HCl(CAS 编号: 1609452-30-3)和 (+)-Fangchinoline(CAS 编号: 436-771)对小细胞肺癌(SCLC)细胞系具有活性。SEL120-34A HCl 和 (+)-Fangchinoline 对 SCLC 细胞增殖表现出显著的抑制作用,IC50(半最大抑制浓度)小于 10 μmol/L,表明它们对 SCLC 细胞活力有抑制效果(图4e, f)。(+)-Fangchinoline 和 SEL120-34A HCl 对 SCLC 细胞系的活力有中等程度的抑制作用。两种候选化合物的详细抗活力活性见补充表3。这些发现提示了 SEL120-34A HCl 和 (+)-Fangchinoline 在 SCLC 治疗中的潜在疗效,突出了它们作为对抗这种侵袭性肺癌亚型的有效化合物的前景。


PRnet 生成了一个大规模扰动图谱整合图集

由于能够描述特定的基因水平扰动反应并识别抗癌化合物,PRnet 被应用于计算机筛选新的化合物库和细胞系,从而生成了一个涵盖多种场景的大规模扰动图谱整合图集(图5a)。PRnet 使用了两个数据集进行训练:(1) L1000 数据集,这是一个包含 883,269 个转录谱的批量高通量筛选库,来源于 82 个细胞系受到 175,549 种生物活性化合物的扰动;(2) Sci-plex3 数据集,这是一个包含 290,888 个转录谱的单细胞高通量筛选库,来源于 3 个细胞系受到 188 种活性化合物的扰动。

图 5


L1000 数据集筛选了来自超过 20 种不同组织的细胞系,并暴露于靶向多个基因和通路的化合物。Sci-plex3 数据集筛选了三种癌症细胞系,这些细胞系受到了 188 种化合物的处理,这些化合物针对广泛的目标和分子通路,覆盖了多种作用机制。经过训练后,PRnet 被应用于筛选各种扰动场景,以生成大规模扰动图谱整合图集。通过虚拟筛选,PRnet 预测了超过 2500 万个扰动后表达图谱,这些图谱由五部分组成:(1) FDA 批准的药物数据集:一个包含 1,891,330 个转录谱的批量虚拟高通量筛选库,来源于 82 个细胞系受到 935 种 FDA 批准的药物扰动;(2) 抗癌化合物数据集:一个包含 8,781,784 个转录谱的批量虚拟高通量筛选库,来源于 88 个细胞系受到 4158 种活性化合物扰动;(3) 天然化合物数据集:一个包含 10,233,230 个转录谱的批量虚拟高通量筛选库,来源于 14 个结直肠癌细胞系受到 30,456 种天然化合物扰动;(4) 生物活性化合物数据集:一个包含 4,272,486 个转录谱的批量虚拟高通量筛选库,来源于 6 个小细胞肺癌细胞系受到 29,670 种药物样化合物扰动;(5) GTEx 数据集:一个包含 1,245,510 个转录谱的批量虚拟高通量筛选库,来源于 54 种组织受到 935 种 FDA 批准的药物扰动。所有细胞系的详细信息提供在补充数据3中。PRnet 通过提供大规模扰动如何影响转录景观的见解,提供了广阔的视角,并将其用途扩展到多样化的筛选环境中。大规模集成的扰动图谱可以应用于多种下游应用场景。例如,FDA 批准的药物数据集可用于药物重新定位,根据基因特征推荐特定疾病的药物。抗癌化合物数据集、天然化合物数据集和生物活性化合物数据集对于筛选新的抗癌化合物非常有价值。此外,GTEx 数据集对于分析不同组织中的化合物毒性非常有用。PRnet 通过利用用户定义的化合物结构和转录谱来估计基因表达矩阵,引入了不同化合物扰动的基因水平功能,并赋予了灵活性。这些图谱可以通过 PRnet 与各种扰动条件(剂量、化合物结构)进行比较,以评估使用不同化合物对特定基因表达谱的影响,无论是单细胞还是批量数据。这些多样化的图谱为药物发现、疾病治疗和毒性分析提供了潜在的解决方案。

编译 | 黄海涛

审稿 | 王梓旭

参考资料

Qi, X., Zhao, L., Tian, C., Li, Y., Chen, Z. L., Huo, P., ... & Zhao, Y. (2024). Predicting transcriptional responses to novel chemical perturbations using deep generative model for drug discovery. Nature Communications, 15(1), 1-19.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章