✦
医学科研新动向
✦
Predicting transcriptional responses to novel chemical perturbations using deep generative model for drug discovery
Nature Communications
<2024年10月26日>
研
究
背
景
在药物研发中,理解化学扰动引起的转录响应对于靶向治疗和疾病研究至关重要。然而,随着化合物种类的急剧增长,通过实验方法来全面探索疾病和化合物的组合已变得不可行。高通量筛选(HTS)方法虽然在大规模化合物和细胞系的研究上取得进展,但其高昂的成本和低效的成功率限制了其应用范围。近年来,深度学习技术在扰动响应建模中展现出潜力,例如通过条件生成模型,能将基因表达数据映射到扰动响应。然而,现有模型的泛化能力仍不足,尤其在预测新化合物或新细胞系的响应方面存在瓶颈。因此,本研究提出了一种新的深度生成模型PRnet,通过集成化学结构和基因表达数据,在单细胞和群体水平上预测新的化学扰动响应,旨在提高对未见过化合物的转录预测能力,并用于筛选对疾病具有潜在治疗效果的新药物。
研究设计
1. 模型设计:
PRnet模型包括Perturb-adapter(适配器)、Perturb-encoder(编码器)和Perturb-decoder(解码器)三部分。通过化合物结构(SMILES编码)和转录组特征作为输入,模型生成潜在扰动响应分布。
2. 化学结构处理:
通过RDKit生成化合物的功能类指纹(Functional-Class Fingerprints, FCFP),结合化合物剂量信息,转换成适应PRnet的潜在扰动嵌入(rFCFP)。
3. 扰动预测流程:
通过学习基因表达变化,PRnet预测不同扰动条件下的基因响应分布。模型采用条件采样,生成与给定化学背景和基因状态相匹配的转录响应。
4. 模型训练:
PRnet使用约百万条扰动数据,包括175,549种化合物和188种活性成分的单细胞数据,形成一个大规模的模型训练数据集。
5. 模型验证与筛选:
PRnet对小细胞肺癌(SCLC)和结直肠癌(CRC)等多种癌症进行药物筛选,通过体外验证实验(MTT检测法)确定潜在候选药物的效果。
核心结果
1. PRnet在不同数据集分割下的预测效果
Fig. 2a: PRnet在三种数据分割方式(随机分割、未知化合物和未知细胞系分割)中均表现出卓越的预测性能。在未知化合物的测试中,PRnet的Pearson相关系数达到0.8(±0.02),在未知细胞系分割中,PCC较其他模型高出0.3,显示出其对新化合物和新细胞系的泛化能力。
Fig. 2b: 在协变量化合物的“Pearson of log(FC)”评估中,PRnet的PCC超过0.7,展示了模型在不同细胞系下对相同化合物的响应预测能力。该图显示了PRnet在各分割策略下显著高于线性模型和多层感知机(MLP)模型的效果。
Fig. 2c: PRnet的t-SNE低维表示显示了不同细胞系的扰动响应聚类效果。图中82个细胞系被划分成不同的聚类,来自相同器官的细胞系(如结肠、乳腺和肺部)在潜在空间中展示出位置接近的聚类特征。
Fig. 2d: 在化合物的“R2 in compounds”评估中,PRnet的R²评分达到0.9以上,特别是在新化合物和新通路分割的情况下,表现优于其他方法,展示了模型对未见化合物的高效预测能力。
3. PRnet在基因级别上的响应预测准确性
Fig. 3a: 热图展示了PRnet预测的基因表达log(FC)平均值和实际数据在71种细胞系中的一致性。高值区域(橙色)表示基因上调,低值区域(绿色)表示基因下调。PRnet对不同组织类型的细胞系(如肌肉和肺部)的扰动响应具有较强的区分能力。
Fig. 3b: 小提琴图展示了A549(肺腺癌)、HT29(结直肠腺癌)和MCF7(乳腺腺癌)细胞系在vorinostat扰动下基因表达的分布,PRnet准确预测了top5上调和下调基因的log(FC)分布,符合实验数据。
Fig. 3c、d: 使用KEGG通路基因集富集分析(GSEA)评估Vorinostat对71个细胞系的影响。结果显示Vorinostat显著抑制细胞周期、DNA复制和剪接体等关键肿瘤抑制机制,同时激活了自噬、溶酶体等与细胞凋亡相关的通路。
Fig. 3e: 箱线图展示了HT29细胞系在bortezomib、MG-132和wortmannin扰动下,top20上调和下调基因的log(FC)分布。PRnet对基因表达变化的预测准确性在不同化合物的处理下表现出高度一致性。
Fig. 3f: 箱线图展示了A549、K562和MCF7细胞系在GSK-LSD1处理下的10个差异表达基因的预测和实验表达。PRnet捕捉了基因表达水平的变化趋势,展现了在单细胞HTS数据中的高效预测能力。
3. PRnet在SCLC和CRC的抗癌活性筛选结果
Fig. 4a: PRnet预测了6种SCLC细胞系和14种CRC细胞系的转录响应,并筛选了多种浓度的4158种活性化合物和29,670种类药物化合物。
Fig. 4b: 候选化合物的富集评分热图展示了SEL120-34A HCl和(+)-Fangchinoline在SCLC细胞系中获得的较高评分,表明它们具有抑制癌细胞生长的潜力。
Fig. 4c、d: (+)-Fangchinoline和SEL120-34A HCl的剂量-反应曲线显示,其IC50值均低于10 μmol/L,特别是在3.7到11.6 μmol/L范围内表现出较强的抑制效果。
Fig. 4e、f: MTT实验结果显示,7-Methoxyrosmanol和Mulberrofuran Q对CRC细胞的IC50分别为12.6到46.2 μmol/L,这些天然化合物表现出显著的抑癌效果,特别在浓度为1-10 μmol/L时抑制细胞增殖。
4. 大规模扰动图谱集成与疾病靶标推荐
Fig. 5a: PRnet的扰动图谱覆盖了82种细胞系、935种FDA批准药物、和超过30,000种天然化合物,生成了超过2500万个转录谱。
Fig. 5b: 推荐流程中,PRnet通过药物扰动数据计算基因富集评分,特别对233种疾病的基因表达变化提供了推荐。
Fig. 5c-e: 散点图显示了PRnet在非酒精性脂肪肝炎(NASH)、克罗恩病(Crohn’s Disease)和多囊卵巢综合征(PCOS)等疾病中的药物推荐。位于图中右上角的药物如Mirabegron、Escin和Enzalutamide等表现出高富集分值,显示了这些药物在特定疾病中的潜在治疗效果。
小
结
1. 研究目标
文章旨在通过PRnet模型预测新化学扰动对转录组的影响,突破传统实验筛选在时间和成本上的限制,加速药物发现并识别对特定癌症具有潜在疗效的新药物。
2. PRnet模型设计
PRnet是一种基于条件深度生成模型的架构,通过Perturb-adapter、Perturb-encoder和Perturb-decoder三部分实现对化合物结构和未扰动转录组的输入,预测多种扰动条件下的基因响应。
3. 数据与训练
模型训练数据涵盖了超过百万条HTS观测数据,包括来自175,549种生物活性化合物的bulk RNA-seq和单细胞RNA-seq数据,以支持在新化合物、通路和细胞系上的泛化预测能力。
4. 模型性能
PRnet在不同数据集分割(随机、未知化合物和未知细胞系)下表现出高泛化能力,特别在未见过的化合物预测中,Pearson相关系数(PCC)达0.8以上,显著高于其他模型。
5. 抗癌活性化合物筛选
PRnet通过大规模化合物筛选成功识别出对小细胞肺癌(SCLC)和结直肠癌(CRC)有效的候选药物,并通过体外MTT实验验证其在不同细胞系中的显著抑制效果。
6. 大规模扰动图谱集成
PRnet生成了一个覆盖82种细胞系、935种FDA批准药物的扰动图谱,集成了不同剂量和化合物结构下的转录响应,提供了大规模化合物对比和筛选的基础。
7. 疾病靶标推荐
PRnet通过与特定疾病的基因签名匹配,筛选出对233种疾病具有潜在疗效的候选药物,并通过药物富集分值排序,实现精确的药物推荐,例如在非酒精性脂肪肝炎和炎症性肠病中识别出潜在治疗药物。
-END-
文字丨本人编写,如有补充,下方留言即可
(点击左下角“阅读原文”即可获取全文)