Brief. Bioinform | 李诗良/李洪林团队开发基于保留机制的小分子pKa值预测AI方法GR-pKa

学术 2024-09-01 00:02 韩国

华东理工大学/华东师范大学的李诗良/李洪林教授团队在Briefings in Bioinformatics期刊上发表了题为 "GR-pKa: A message-passing neural network with retention mechanism for pKa prediction" 的研究论文。该论文介绍了一种创新的用于化学小分子pKa值预测的深度学习模型GR-pKa。该模型联合应用多重保真度学习 (Multi-fidelity learning) 、量子化学特征以及保留机制 (Retention mechanism) ，实现了对化学小分子pKa值的快速准确预测，为化学和药学领域的研究提供了强大的新工具。

研究背景

在药物发现和设计过程中，分子的酸碱解离常数 (pK_a) 对ADMET特性（吸收、分布、代谢、排泄和毒性）及生物活性具有显著影响，因而受到高度重视。然而，传统的实验测定pK_a值方法既费力又复杂。同时，现有的预测方法在训练数据的数量和质量方面以及处理复杂分子结构和物理化学性质的能力方面存在局限性，这限制了模型的预测准确性和泛化能力。因此，开发一种能够快速准确地预测分子pK_a值的方法将在一定程度上有助于分子的结构改造，从而助力新药研发过程。针对上述问题，研究团队开发了一种创新pK_a预测方法——GR-pK_a (Graph Retention pK_a) 。该方法基于消息传递神经网络，并联合使用多重保真度学习策略，以实现对分子pK_a值的高精度预测。GR-pK_a模型特别集成了与分子热力学和动力学相关的五个量子力学 (QM) 特性，作为表征分子的关键特征。特别值得注意的是，该模型首次将最近提出的保留机制引入消息传递阶段中，这一创新显著提高了模型对分子信息的捕获和更新能力。经过多个数据集的测试， GR-pK_a模型在宏观pK_a值预测性能方面优于多个当前领先的模型。在SAMPL7数据集上的预测结果显示，该模型取得了平均绝对误差 (MAE) 0.490、均方根误差 (RMSE) 0.588以及决定系数 (R

) 0.937的高水平结果，验证了其在pK_a值预测方面的高效性和可靠性。

研究方法

GR-pK_a主要包含两个过程，即预训练 (Pre-training) 和微调 (Fine-tuning) 过程，如图1a所示。本研究基于Chemaxon计算所得的小分子pK_a值构建了低保真度数据集，并以此对模型进行预训练。通过在这一数据量庞大的低保真度数据集上的学习，模型能够深入理解化合物分子结构与计算pK_a值之间的定量构效关系。但由于计算pK_a值与实验pK_a值间仍然存在不可忽视的差值，仅依赖此数据集训练学习所得到的预测结果存在不准确性。为此，本研究对预训练后的模型进行微调，以提升预测的准确度。在微调过程中，本研究选用了一个由实验pK_a值构成的小规模高保真度数据集，对预训练的模型进一步优化。通过这种调整，模型实现了从计算pK_a值向实验pK_a值的迁移，从而显著提升了模型预测的精准度。由于计算pK_a值与实验pK_a值之间存在高度的关联性，因此，在二者之间进行迁移是可行的，并且这种迁移能够对预测结果实现正向提升，同时又有效避免了负迁移的发生。

模型整体以消息传递网络为大框架，以分子的SMILES式作为输入，如图1b所示。首先，本方法构建了原子特征矩阵、键特征矩阵以及三个原子间矩阵，以作为分子的局部编码。同时，选用了具有明确物理化学意义的量子化学性质，作为分子的全局特征。在键特征矩阵的处理上，模型通过消息传递层中的键保留模块和键更新函数对特征矩阵进行迭代更新。消息传递阶段完成后，通过聚合传入的键隐藏状态，实现特征的整合。然后，将原子特征矩阵和多头原子保留模块进行拼接，以获得原子表示。在原子保留模块中，将距离矩阵、邻接矩阵以及电荷矩阵这三个缩放的原子间矩阵分别添加到每个保留头的权重中作为偏置项，这些矩阵分别表征了原子间的距离，相邻关系以及电荷信息。最后，将学习到的原子隐藏状态汇聚成为一个分子向量，并与预先定义好的量子化学特征进行拼接。这一组合特征随后输入到全连接层中，用于分子pK_a值预测。

图1 GR-pK_a方法的概况图。a: GR-pK_a的多重保真度学习策略。b: GR-pK_a的模型框架^[1]

研究结果

1. 方法比较

本研究首先在构建的高质量外部数据集E-pK_a数据集上进行方法比较。如图2所示，在所有机器学习方法中，XGBoost表现最佳，其预测结果在一定程度上优于深度学习方法AttentiveFP。然而，从整体上来看，机器学习方法的预测效果弱于MolGpK_a与GR-pK_a模型，这表明采用分子图结构作为输入的深度学习模型在分子pK_a值预测方面具有明显的优越性。此外，在所有比较的预测方法中，GR-pK_a模型在酸性和碱性数据集上均显示出了最优的效果。在酸性数据集上，GR-pK_a取得了最低的MAE、RMSE以及最高的R

，其值分别是0.528、0.758和0.939；在碱性数据集上，也同样实现了最低的MAE (0.447) 和RMSE (0.651) 以及最高的R

(0.897) 。这些结果充分证明了GR-pK_a模型在pK_a值预测方面的优越性和准确性。

图2 方法在E-pK

数据集上的表现^[1]

2. 消融实验

为了进一步评估本研究中所使用的多重保真度学习、QM特征和保留机制的有效性以及其对预测准确性的贡献程度，本研究设计并实施了消融实验进行定量比较，结果如表1所示。实验结果表明，多重保真度学习的使用有效扩展了模型的预测能力，实现了低质量数据和高质量数据的有效融合。同时，先验性的引入具有明确物理化学意义的量子化学性质作为分子特征的辅助表示，同样显著提高了分子pK_a值的预测准确性。此外，研究人员们普遍认同，两个原子之间所间隔的化学键数量越少，它们之间的相互作用越强，这一观点凸显了分子内部局部信息的重要性。本研究中，在特征更新学习中应用保留机制，能够更加集中地关注局部信息，这在一定程度与基本化学原理相符。因此，本研究认为，相比于注意力机制，保留机制在捕获分子信息方面具有一定的优势。消融实验研究的结果进一步证实了本研究的猜想：在信息传递阶段引入保留机制，显著提高了模型更新和学习化学信息方面的能力。

表1 模型在外部数据集E-pK

的消融实验结果^[1]

3. 外部验证

本研究还在两个公认的基准测试集SAMPL6、SAMPL7进行方法测试比较，结果如表2所示。从表中的结果可以看出，四种机器学习方法均表现较差，而其它几种基于分子图的方法则有着较好的表现。在SAMPL6数据集上，本研究的方法GR-pK_a方法与MolGpK_a方法均展现了较好的效果；在SAMPL7数据集中，GR-pK_a方法在所有三项评估指标中均达到了领先水平，并且相较于其他方法有着较大的性能提升。此外，根据图3的SAMPL7测试集详细预测结果可以看出，除了分子SM31的预测结果超出±1这一区域，其他所有分子均处在区域内。这一现象表明，本研究方法在分子pK_a值准确预测方面有着明显优势。

表2 模型在SAMPL6与SAMPL7数据集上的表现^[1]

总结

在本研究中，研究团队基于消息传递神经网络框架，成功开发了一种创新的小分子pK_a值预测方法GR-pK_a。针对实验pK_a值数据稀少的问题，本研究采用了多重保真度学习策略，有效整合了低质量的计算pK_a值数据以及高质量的实验pK_a值数据，以此增强模型的泛化能力和预测精度。此外，本研究还先验性的引入具有明确物理化学意义的量子化学性质作为分子特征的辅助表示，进一步提升了预测的准确性。本项目另一创新点在于首次将保留机制应用于消息传递阶段，优化了特征的更新学习。通过系统评估，模型在一个外部数据集和两个公认基准数据集上均展现了出色的性能。此外，通过消融实验，本研究明确了不同策略对于提升预测性能的贡献，验证了所采用策略的有效性。

华东理工大学苗润雨和华东师范大学博士后刘旦麟为本研究的共同第一作者，参与工作的还有华东理工大学毛丽韫、陈星宇、张雷浩、袁珍、石姗姗。华东师范大学/华东理工大学李诗良教授和李洪林教授为该文章通讯作者。该工作得到了中国国家自然科学基金(82173690，82425104，82150208) 和国家重点研发计划 (2022YFC3400501, 2022YFC3400504) 的经费资助。

参考文献

[1] Miao R, Liu D, Mao L, et al. GR-pKa: a message-passing neural network with retention mechanism for pKa prediction. Briefings in Bioinformatics. 2024, 25(5):bbae408.

供稿：苗润雨

校稿：刘旦麟

编辑：汤荣凡

华东理工大学/上海市新药设计重点实验室/李洪林教授课题组

▼

招聘博后

▼

华东理工大学李洪林教授团队诚聘博士后

Li's Lab

地址:上海市梅陇路130号

电话：021-64250213

课题组网站：http://www.lilab-ecust.cn

长按扫码可关注

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506528&idx=2&sn=2509c1c0b8d130c82b461e50915531bf

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

Nat. Mach. Intell. | 投毒！Scorpius揭示现有医学知识图谱存在巨大风险

Genome Biology | 一种用于肿瘤学多任务学习的可解释预训练多组学模型

Nat.Commun. | GearNet续作！GearBind模型助力抗体亲和力成熟

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

Food Chem. | ChemSweet：人工智能驱动的下一代甜味剂快速筛选平台

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

全球生物医药交易报告(2024第3季度)

Nucleic Acids Res. | 类器官与异种移植蛋白质组学数据与分析平台

西湖大学人工智能研究创新中心干细胞项目实习生招聘

第一届计算药剂学研讨会—制药4.0中的人工智能和建模

Nat. Commun. | 几何图学习助力酶功能预测，中大杨跃东团队提出GraphEC模型

Sci. Data | 德睿发布全球最大单性质ADMET开源数据集，大语言模型驱动

CADD筛选PROTAC新思路：利用非马尔科夫动力学模型发现亚稳态蛋白-蛋白界面

Nat. Catal. | 生成模型的妙用。RENAISSANCE精准解码细胞代谢

第二届AI药物研发算法大赛火热报名中，飞桨携手清华、Intel，探索药物研发新思路！

AI“横扫”诺奖，给AI制药带来什么启发？

德睿智药口服小分子GLP-1RA IIb期临床研究完成首剂量组给药

人工智能也可以通过思考来学习 | Cell Press科学新闻

议程公布！第三届中国生物计算大会，10.26-27日，苏州见（内含福利赠票）

荣誉授予人工智能！蛋白质设计和结构预测获2024年诺贝尔化学奖！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉