DRUGAI
今天为大家介绍的是来自巴拉圭的Diego Galeano团队的一篇论文。MicroRNA(miRNA)已被发现与包括癌症和传染病在内的多种人类疾病相关。通过小分子靶向miRNA或其靶基因,为调控与疾病相关的失调细胞过程提供了可能性。然而,由于小分子与miRNA数据集规模较小,预测与miRNA相关的小分子仍然具有挑战性。在此,作者开发了一种通用的深度学习框架sChemNET,该框架基于化学结构和序列信息预测影响miRNA生物活性的小分子。sChemNET通过一种目标函数克服了化学信息稀缺的限制,使神经网络能够从大量尚未明确影响miRNA的化学结构中学习化学空间。作者通过实验验证了预测能够作用于miR-451或其靶标的小分子,并测试了这些小分子在斑马鱼胚胎红细胞成熟中的作用。此外,作者还通过体外和体内实验测试了靶向miR-181网络及其他miRNA的小分子。结果表明,作者的机器学习框架能够预测在人体及其他哺乳动物中靶向miRNA或其靶标的生物活性小分子。
RNA分子在细胞信息传递、结构维持和基因调控中至关重要,参与多种人类疾病。miRNA是主要的小分子非编码RNA,负责转录后基因调控,影响超过一半的人类基因。失调的miRNA与代谢、心血管疾病、癌症、肝炎和COVID-19等传染病的病理有关。血液中的循环miRNA稳定性高,可作为生物标志物和治疗靶点。
目前,已开发出一些用于抑制miRNA的寡核苷酸,例如抑癌miRNA mimics和治疗肝炎的miR-122寡核苷酸。然而,寡核苷酸的递送技术、稳定性及潜在毒性使其开发面临挑战。小分子靶向miRNA或其靶基因则成为一种有吸引力的替代方法。研究显示,小分子能够调控miRNA,但缺乏预测特定小分子和miRNA相互作用的有效手段。
为帮助研究人员开发miRNA调节小分子,作者提出并开发了深度学习框架sChemNET。sChemNET通过化学结构信息预测小分子对特定miRNA或其mRNA靶标的调控能力,能够从任何具有化学结构信息的库中推断新的生物活性小分子。sChemNET还可以整合跨物种数据,适用于较小的化学数据集。作者利用sChemNET预测结果构建了小分子药理类别与miRNA的映射,并设计了体内外实验验证这些小分子对miR-451(与红细胞生成相关)及其他与乳腺癌和线粒体相关的miRNA的效果,例如维生素D对miRNA的影响。
sChemNET: 针对稀疏和小规模化学数据集预测药物靶点的深度学习框架
图 1
如图1所示,作者开发了一个深度学习模型sChemNET,结合已知和未知的小分子生物活性信息,通过化学结构预测靶向miRNA或其下游靶标的小分子。模型中约2400个“未标记”小分子与少量“已标记”小分子(已知影响miRNA表达的小分子)共同构建了一个两层神经网络。在sChemNET中,标记和未标记小分子的化学结构信息输入模型,并通过隐藏层传递,输出层生成每个小分子的miRNA预测得分。
sChemNET的核心是利用大量未标记化学结构信息来训练模型,通过最小化损失函数学习小分子对miRNA的影响概率。损失函数的第一项针对已标记化学信息,学习已知小分子与miRNA的关联。第二项则针对未标记化学信息,使未标记小分子对每个miRNA的预测得分较低,并用超参数α控制其相对重要性。
在人类中预测靶向miRNA的小分子
作者使用小规模化学数据集对sChemNET进行了训练和测试,数据来自SM2miR数据库,包含影响miRNA或其mRNA靶标的小分子信息。此数据集中仅有正标签(yiv = 1),而未标记小分子(yiv = 0)则来自Drug Repurposing Hub数据库,包含6302种临床试验中的小分子。最终,训练集包含6433种小分子,利用其MACCS指纹和miRNA序列相似性得分作为特征输入。
图 2
sChemNET利用未标记化学结构信息,模拟真实场景中的小分子筛选。如图2a所示,在每个miRNA测试集中,4000个小分子中只有一个已知为生物活性,作者通过留一法交叉验证(LOOCV)评估预测性能。sChemNET根据排名预测,检索出前100、300、500或1000个小分子中的已知活性小分子比例。
通过贝叶斯优化,作者选择了sChemNET的最佳超参数。图2b显示,sChemNET在125个miRNA上的预测召回率明显优于XGBoost、逻辑回归、随机森林等基准模型。即使不使用序列相似性信息,sChemNET依然表现良好,且在化学结构不同的数据上预测效果显著优于基准,表明其适用于发现新型miRNA调节小分子。
在模式生物中预测靶向miRNA的小分子
图 3
为了评估sChemNET在哺乳动物模式生物中的适用性,作者在小鼠(Mus musculus)和大鼠(Rattus norvegicus)的小分子-miRNA数据集上测试了其预测性能。如图3a所示,由于这些模型的miRNA-小分子关联较少,作者结合了人类的miRNA信息进行训练。作者使用了Drug Repurposing Hub中的未标记化学结构数据,并对小鼠和大鼠的miRNA目标小分子进行了留一法交叉验证(LOOCV)。
如图3b所示,在小鼠数据集中,sChemNET在不使用序列相似性信息的情况下表现最佳,能在前25%的预测结果中检索到超过43%的活性小分子。对大鼠的预测结果显示,sChemNET在检索的前300和前1000个小分子中,分别比其他方法高出6.18–24.67%和2.74–20.50%。
药物对miRNA的作用图谱及miR-451的实验验证
sChemNET的预测有效性促使作者探索miRNA与小分子药理类别的关联。作者计算了约6300种小分子的药物作用方式(MoA)和药物适应症的富集情况,并对人类miRNA进行了图谱绘制。作者特别关注miR-451(红细胞特异性miRNA),并通过斑马鱼胚胎实验验证其生理效应。
图 4
作者选取了三个候选小分子进行miR-451的实验验证:
微管聚合抑制剂多西他赛;
维生素D受体激动剂α-骨化醇;
β-榄香烯。
图4中的实验结果表明,多西他赛和α-骨化醇处理后,胚胎血液明显增多,这符合sChemNET预测;β-榄香烯也显示出类似效果。
图 5
进一步分析表明,这些药物不会改变miR-451的表达水平,但可能通过类似于miR-451的调控机制促进红细胞成熟。特别是α-骨化醇,它可能通过增加Dicer表达间接影响miRNA加工,从而增强血细胞生成。
miRNAs、维生素D和miRNA-181家族
研究中,维生素D与大多数miRNAs显示出显著关联,其活性形式骨化三醇(1,25(OH)2D)在所有组织中发挥重要作用,尤其是对线粒体功能的调控。实验表明,维生素D受体(VDR)激动剂α-骨化醇直接作用于miRNA的加工过程。作者在斑马鱼胚胎中发现,α-骨化醇能上调let-7,这可能通过Dicer表达增强miRNA加工实现。
图 6
图6显示,sChemNET预测的calcitriol对人类神经母细胞瘤和大鼠骨髓细胞中的miRNAs确有影响,显著miRNAs的排名明显低于非显著miRNAs,证明sChemNET的预测在模式生物上也具参考价值。
miRNA-181家族具有调控线粒体生物能量的作用,是多个癌症中重要的分子标志,包括乳腺癌。实验显示,在转移性乳腺癌细胞中,calcitriol降低了miR-181家族的表达量,在非转移性细胞中,calcitriol引起miR-181a-5p上调。因此,VDR激动剂可能成为癌症治疗的潜在药物。
讨论
蛋白质仍是主要的药物靶点,但许多疾病相关蛋白难以成药。针对调控疾病网络的miRNA提供了一种替代疗法。然而,miRNA疗法尚未临床应用,亟需系统化原则和计算方法支持RNA疗法开发。sChemNET通过深度学习预测影响miRNA功能的小分子,利用小规模miRNA-小分子活性数据和大量未标记的化学结构数据,展示了sChemNET在预测人类和模式生物的miRNA-小分子关联上的潜力。未来,可扩展sChemNET对FDA药物和miRNA作用的图谱,以更全面地支持药物重定位及疾病相关miRNA的研究。
编译 | 于洲
审稿 | 王梓旭
参考资料
Galeano D, Imrat, Haltom J, et al. sChemNET: a deep learning framework for predicting small molecules targeting microRNA function[J]. Nature Communications, 2024, 15(1): 9149.