Nat.Commun. | 赵屹/杨胜勇团队发表基于深度生成模型(PRnet)进行新化合物扰动转录响应预测加速药物研发

学术   2024-11-12 13:41   天津  


2024年10月26日,中国科学院计算所赵屹教授团队和四川大学华西医院杨胜勇教授团队合作在Nature Communications期刊发表文章:Predicting transcriptional responses to novel chemical perturbations using deep generative model for drug discovery。该研究建立了一个基于深度生成模型的新化合物扰动转录响应预测模型PRnet。该模型能够有效预测群体(Bulk)细胞和单细胞水平化合物扰动后的转录响应变化,并实现高效的虚拟药物筛选。该模型首次实现了新化合物、新细胞类型、任意剂量的扰动转录响应预测。在小细胞肺癌(SCLC)和结直肠癌(CRC)的药物筛选研究中,成功筛选出了潜在的活性化合物,并进行了湿实验验证。该工作通过预测生成了大规模的虚拟扰动图谱,涵盖935种FDA批准药物、4,158种活性化合物、30,456种中药来源的天然化合物以及29,670种类药物化合物,涉及细胞系、器官扰动响应,支持233种不同疾病的药物研究推荐。



1


引言

在现代生物医学中,研究化合物对细胞扰动引发的转录响应提供了对生物功能的深刻理解,并在疾病解析和药物发现中扮演着关键角色。鉴于大多数疾病与特征性的基因表达谱相关,LINCS项目(The Library of Integrated Network-Based Cellular Signatures Program)提出了通过共同的基因表达特征将基因、药物和疾病连接起来的概念,并由此衍生了 CMap(Connectivity Map)、L1000等诸多项目。高通量筛选(HTS)技术能够在群体细胞或单细胞水平测量数千种化合物扰动的转录响应,显著加速了药物发现的进程。然而,尽管高通量筛选技术极大地推动了研究发展,实验筛选的复杂性和高成本仍然限制了全面探索疾病与药物组合的可行性。这导致新药发现的效率较低,而精准预测化合物扰动对转录响应的影响已成为加速这一过程的关键所在。

传统的扰动转录响应预测模型在面对新化合物或新疾病状态时,往往表现出有限的预测能力。这些方法通常依赖于已有的实验数据,或对先验知识的高度依赖,导致在动态复杂的生物系统中难以充分捕捉转录响应的异质性。这些局限性表明现有方法在应对未验证过的化合物或新的细胞类型时,缺乏足够的泛化能力和灵活性。

为应对这些挑战,研究团队提出了PRnet,一个基于深度生成模型的新化合物扰动转录响应预测模型。模型灵活且可扩展,能够预测给定新化合物扰动在群体细胞或单细胞水平上对转录响应的影响,并实现高效的虚拟药物筛选。给定扰动前的细胞表达谱、化合物的结构和剂量信息,PRnet能够有效预测扰动后的转录响应变化。进一步可以根据疾病相关的参考基因集,计算预测的差异表达谱在参考基因集上的富集分数,通过富集分数表征化合物的潜在功效,从而实现高效的虚拟药物筛选。模型预测的群体细胞水平新化合物扰动转录响应差异相关性达0.8,单细胞水平新化合物扰动转录响应相关性达0.969。在儿童急性髓系白血病的验证队列数据上,预测化疗后转录响应相关性达0.951。

图1 PRnet结构及下游应用


2


PRnet模型介绍

PRnet模型分为化合物转录响应预测模块化合物虚拟筛选模块。如图1所示, PRnet的化合物转录响应预测模块是一种基于编码器-解码器架构的新型生成模型包括三个关键组件:扰动适配器、扰动编码和扰动解码器,能够扩展到任意的疾病-化合物-剂量扰动响应预测上,并能将扰动映射到可解释的隐层空间上(如图2)。PRnet通过将化合物结构-剂量和未受扰动的转录谱作为输入来预测扰动后转录响应,从而适应各种扰动场景中的新型化合物和疾病。PRnet在庞大的HTS数据集上进行了训练,包括近一亿条由175,549种化合物和88种细胞系生成的群体细胞水平转录响应数据,以及数千万条由188种化合物扰动生成的单细胞转录响应数据。这些大规模数据的训练确保了PRnet在应对未研究过的疾病和化合物扰动时,仍能提供准确的预测。PRnet在单细胞、细胞系和真实患者数据上都表现出了良好的预测性能。PRnet的化合物虚拟筛选模块,通过给定治愈疾病的参考基因集,计算预测的差异表达谱在参考基因集上的富集分数,通过富集分数表征化合物的潜在功效,从而实现高效的虚拟药物筛选。模型以实际应辅助小细胞肺癌(SCLC)和结直肠癌(CRC)的药物筛选,成功筛选出了潜在的活性化合物

图2 PRnet预测精确且隐层嵌入可解释

PRnet的可学习隐层空间有助于解释基因水平的反应并捕捉异质性。隐层空间能够解析扰动响应的细胞类型,扰动的化合物和剂量,能够捕获转录响应的相似性和异质性。该模型以数据驱动的模型运行,可以有效地推广到新的扰动。


3


SCLC和CRC的候选化合物实验验证

在实际应用中,PRnet成功筛选出了SCLC和CRC的潜在抑制作用的候选化合物,并通过体外实验验证其活性。在SCLC研究中,PRnet预测了多个SCLC细胞系对大量化合物的扰动转录响应,并识别出SEL120-34A HCl和防己诺林碱等候选化合物,这些化合物在实验中展示了显著抑制活性。在CRC研究中,PRnet预测并筛选出了7-甲氧基迷迭香氛和桑呋喃Q等天然化合物,并验证了其具有抑制CRC细胞生长的效果(如图3)。

图3 SCLC和CRC细胞系暴露于候选化合物的胞存活曲线


4


PRnet生成虚拟大规模扰动图谱

PRnet还生成了虚拟大规模扰动图谱,预测超过2500万个扰动后表达谱图谱,该图谱由五部分组成:1)FDA批准药物数据集:一个群体细胞虚拟高通量筛选库,包含由935种FDA批准药物扰动的82个细胞系的1,891,330个扰动转录谱,2)抗癌化合物数据集:一个群体细胞虚拟高通量筛选库,包含由4,158种活性化合物扰动的 88 个细胞系的8,781,784个扰动转录谱,3)天然化合物数据集:一个群体细胞虚拟高通量筛选库,包含由30,456种天然化合物扰动的14种结直肠癌细胞系的 10,233,230个扰动转录谱,4)生物活性化合物数据集:一个群体细胞虚拟高通量筛选库,包含由29,670种类药物化合物的扰动转录谱,以及 5) Gtex数据集:一个群体细胞虚拟高通量筛选库,包含1,245,510个转录谱,来自54种组织,受到935种 FDA批准药物的扰动转录谱。大规模集成扰动图谱可应用于各种下游应用场景。为基因组学研究、药物发现和疾病机制研究提供了宝贵的数据资源。该图谱为药物重定位、新药开发以及毒性评估等应用提供了重要支持,展示了PRnet在生物医学领域的广泛应用潜力。PRnet生成的虚拟大规模扰动图谱可以通过网址访问和下载:http://prnet.drai.cn/

图4 虚拟大规模扰动图谱下载网站


5


PRnet应用于药物研究推荐

PRnet基于虚拟大规模扰动图谱提供了药物推荐流程,并将推荐流程应用于药物重定位,完成了935种FDA批准药物在233种疾病上潜在效用的预测,并挑选出没有明确靶点的三种代谢类疾病(非酒精性脂肪肝炎、炎症性肠病和多囊卵巢综合征)做文献验证,推荐的前10的候选药物都有2-3种药物有动物或临床试验支持(如图5)。针对非酒精性脂肪肝炎,PRnet推荐了米拉贝隆、Vidofludimus 和利福昔明等药物,既往研究表明这些药物有助于改善肝功能指标,降低脂肪肝炎症状。例如,米拉贝隆被发现对NASH诱导的大鼠模型有保护作用,利福昔明则可以降低内毒素水平,从而改善肝脏的炎症反应。在针对克罗恩病等IBD的筛选中,PRnet推荐了七叶皂苷和Ozanimod。七叶皂苷是一种天然成分,已被证实可以通过调节Akt/NF-κB信号通路来改善肠道屏障功能,而Ozanimod则是一种经FDA批准的每日口服药物,可调节肠道免疫反应。在PCOS的药物推荐中,PRnet筛选出恩杂鲁胺、利格列汀和托吡酯等药物。这些药物能够通过调节体内激素水平和改善胰岛素活性来减轻PCOS的症状,帮助患者恢复正常的新陈代谢和内分泌平衡。PRnet为各类疾病提供了基于转录响应进行个性化药物筛选方法,为精准医学和个性化治疗提供了有力支持。

图5 为三种代谢类疾病推荐的候选药物

综上所述,PRnet作为一种基于深度生成模型的新化合物扰动转录响应预测模型,凭借其良好的预测能力和灵活的架构,可帮助提升新药发现的效率,并为复杂疾病的研究提供有力的工具。未来,PRnet有望在精准医疗和新药研发中发挥重要作用,推动生物医学研究的进一步发展。

中科院计算技术研究所齐晓宁博士,赵连鹤博士和四川大学华西医院田辰雨博士为文章共同一作。中科院计算技术研究所赵屹研究员和四川大学华西医院杨胜勇教授为论文通讯作者。

齐晓宁博士就读于中科院计算技术研究所,主要研究方向为基于人工智能算法的多组学数据融合和癌症联合用药药物响应预测等计算生物方向。

赵连鹤博士毕业于中科院计算技术研究所,主要研究方向是基于肿瘤多模态大数据的整合与临床转化应用,为临床肿瘤智能决策和抗癌药物组合使用与精准治疗提供辅助。 

田辰雨博士就读于四川大学华西医院,关注于针对肿瘤、自身免疫性等重大疾病的小分子药物的研发。

杨胜勇教授,是国家级领军人才、新基石研究员、百千万人才工程国家级人选、国家自然科学基金委创新群体项目负责人、国家重点研发计划项目负责人、科技部“创新人才推进计划”重点领域创新团队负责人、教育部“创新团队发展计划”团队带头人。

团队带头人赵屹研究员,拥有医学及计算科学交叉背景,在中国科学院计算技术研究所从事医疗大数据研究十余年,获得2023年北京市科学技术奖自然科学奖一等奖,连续4年入选科睿唯安的全球1%高引用科学家榜,团队承担多项国家级课题。




JOIN US

赵屹老师团队常年开放博士后及客座研究生位置:聚焦Omics-Based及Image-Based新技术,运用多模态数据智能融合、临床数据智能挖掘等人工智能等算法模型,围绕肿瘤常见临床问题,系统性地开展肿瘤早筛标志物、肿瘤分子病理、肿瘤免疫、系统药理的研究。欢迎对交叉学科研究有兴趣的同学发送C.V.到:zhaoyi@ict.ac.cn


文章:Predicting transcriptional responses to novel chemical perturbations using deep generative model for drug discovery

期刊:Nature Communications

时间:2024年10月26日

链接:

https://www.nature.com/articles/s41467-024-53457-1

代码:

https://github.com/Perturbation-Response-Prediction/PRnet


·END·

热文推荐

胡璐璐/刘杰/何川:定量检测超微量样本中核酸表观修饰的新方法

杨运桂/张世华:整合组织学图像和空间基因表达谱的深度学习方法

沈宁/刘志红:预测疾病相关组织特异性可变剪接的多模态深度学习模型

刘鹏/王贵强/项光新:多场景、超灵敏气溶胶呼吸道病毒监测系统

快点亮"在看”吧

测序中国
聚焦基因科技/精准医学领域的科技前沿与产业动态
 最新文章