Nat. Commun. | SchNet4AIM：从真实空间的化学描述符中学习可解释性

学术 2024-08-17 00:02 韩国

DRUGAI

今天为大家介绍的是来自奥维耶多大学的Ángel Martín Pendás团队的一篇论文。通过机器学习的计算化学导致了一种矛盾的情况，即分子性质可以被准确预测，但却难以解释。可解释的人工智能（XAI）工具可以用于分析复杂模型，但它们高度依赖于AI技术和参考数据的来源。另一种方法是直接使用可解释的真实空间工具，但它们通常计算成本高昂。为了应对解释性和准确性之间的这一困境，作者开发了SchNet4AIM，这是一种基于SchNet的架构，能够处理局部一体（原子）和两体（原子间）描述符。通过预测从原子电荷和离域指数到成对相互作用能量的多种真实空间量，作者测试了SchNet4AIM的性能。SchNet4AIM的准确性和速度打破了在复杂系统中使用真实空间化学描述符的瓶颈。作者展示了由物理上严格的原子预测产生的群体离域指数，提供了可靠的超分子结合事件的指标，从而促进了可解释化学人工智能（XCAI）模型的发展。

化学学科，类似于许多其他科学领域，现在已经不可避免地与计算机辅助模拟紧密相连。例如，电子结构计算已经在化学中根深蒂固，成为化学家的工具箱中的标准表征技术，与核磁共振（NMR）光谱或X射线衍射数据相当。电子结构理论及其与分子动力学的结合，已经革新了材料科学、催化、光化学和化学反应性等领域。许多当前的研究努力都致力于提高电子结构方法的效率和准确性，以提供可靠的分子量化数据。然而，这导致了一个意想不到的结果：现在更容易获得准确的性质预测，而不是从物理或化学上解释它们。从这个意义上说，库尔森（Coulson）的名言“给我们见解，而不是数字”已经被抛在一边。今天，大多数研究人员在基本的后计算解释步骤中使用的技术，其假设要比模拟本身粗糙得多。这种不理想的情况可以通过使用轨道不变的化学描述符来缓解，这些描述符提供物理上有意义的性质，可以在真实空间或动量空间中获得。

这些描述符基于通过在一组化学相关的空间点上评估不同阶次的约简密度矩阵来浓缩波函数的信息内容，通常通过分析其梯度场在真实空间中引起的拓扑来实现，这通常被称为量子化学拓扑（Quantum Chemical Topology）。其中一个重要成分是从波函数中分离原子（或官能团）区域。在这方面，一种特别严格的分解方法是R. F. W. Bader提出的原子中量子理论（QTAIM）。无论使用的是原子中心的、平面波的还是数值基组，QTAIM度量允许对任何理论水平的物理和化学过程进行无偏的解释。

SchNet4AIM的算法与架构

图1：SchNet4AIM架构

图1展示了作者修改后的模型架构示意图。与原始版本一样，表示块将分子信息（几何和原子序数，R和Z）映射到固定大小的SchNet描述符中，生成M个局部原子环境{AE1,...,AEM}。对于一体（1P）性质，这些描述符可以直接用于训练原子神经网络模型，而对于两体（2P）性质，则需要进一步转换为成对描述符。尽管可以设想不同的方法来描述给定的原子对，但作者选择了原子特征与原子间距离的连接来构建2P向量。这种选择的动机是许多两体性质强烈依赖于原子间距离。此外，生成的特征展示了所需的排列、平移和旋转不变性。这些特征都由SPK.atomistic.model处理，对于2P性质，它获取原子向量（AEi, AEj）和原子间距离（||ri-rj||）以重构最终的成对特征描述符{AE1:2,...,AEM-1:M}，包含总共M(M − 1)/2个不等价元素。需要注意的是，每个成对向量AEi:j现在具有2n + 1个元素。因此，应使用适中的n值以防止输入向量过大，导致模型复杂且性能较差。

生成的粒子特征描述符（即AE张量）随后被输入到预测块中，以训练NN模型。在SPK.atomistic模块中，通过移除通常用于预测分子可观测量的累积池化层，已经实现了三种不同的局部输出模型：AIMwise、ElementalAIMwise和ElementalPairAIMwise。AIMwise模型可以用于1P或2P数量，使用单个NN模型处理所有粒子。另一方面，ElementalAIMwise（1P）和ElementalPairAIMwise（2P）分别创建了特定粒子类型模型的集合。K由非等价化学原子类型（T）的数量或其成对组合T(T + 1)/2决定。构建2P特定模型需要为每个化学不同的成对创建唯一且排列不变的标识符。为了解决这个问题，作者使用了对称矩阵pairmat，其非重复整数由每对的原子序数Zi和Zj获得。

最后，作者还注意到，可以利用SchNet4AIM学习到的局部量子化学性质的物理原理来估计其预测的可靠性。例如，对于本文使用的QTAIM电子指标，重构分子电子计数（N）的误差提供了一种非常方便的方法来进行不确定性估计。

初步性能测试

图2：TO与EO-Hinter的离散图

作者评估了SchNet4AIM在训练水簇数据库的局部性质时的表现，重点关注氧原子的多样且稳健的能量性质，特别是动能（TO）和与邻近分子内及分子间氢原子配对的相互作用能量（EO-Hinter）。用了通用（AIMwise）和粒子特定（ElementalAIMwise或ElementalPairAIMwise）模型，图2展示了SchNet4AIM预测的这些性质的离散图。可以看出，SchNet4AIM能够准确预测原子的量子化学性质，氧原子的动能均方误差（MAE）非常合理，略低于2.0 kcal mol−1（≈0.003 a.u.），其值范围约为0.8 a.u.。

SchNet4AIM在外推域中的应用

在展示了SchNet4AIM计算一体和两体性质的能力后，作者评估了其外推能力。通常来说，机器学习模型只能在训练时采样的化学空间区域内使用，而当离开这些区域进入外推域时，预测结果往往变得不稳定。尽管这种限制是该领域的固有特性，处理准可转移性质可以缓解这种限制。在这方面，由于QTAIM吸引子区域及其局部性质的可转移性，作者的方法特别适合这一任务。

图3：1, 3偶极环拼接

由于SchNet4AIM仅在近平衡CHON空间上训练，作者决定采用一个化学反应作为原型外推情景，如图3所示，这种转变涉及远离训练期间采样的势阱的非平衡结构。

图4：外推环境下SchNet4AIM预测1, 3偶极环拼接

反应的初始阶段几乎没有电子波动，如图4A所示，主要原子的电荷表现相对单调。只有在接近过渡态（χ = 25）时，才开始观察到Q的显著变化：原子1（C）经历了中等的电子富集，原子7（O）也有微弱的富集，而原子4（C）的电子减少。如图4B所示，随最终产物形成的原子电荷波动导致约0.6个电子从乙烯转移到乙腈氧化物。与量子力学计算一致，这些发现是由于相互作用片段之间的电负性差异大。这些观察结果本身就很值得注意，因为它们显示了作者方法的显著泛化能力，即使在外推域中也能提供准确的预测。

自然，上述变化伴随着离域电子计数的显著变化：δ(1, 3)和δ(4, 7)指标分别达到约0.95和0.85电子，图4C显示出最终产物的C–C和C–O单键（图4D）的形成。更详细地观察定性趋势表明，1–3键先于稍微滞后的4–7相互作用形成，证明SchNet4AIM能够预测量子化学计算预测的微妙不同步性。总的来说，即使在其训练所使用的插值域之外，作者的模型在定性和定量层面捕捉到了更多昂贵的量子化学计算提供的大部分化学见解。

SchNet4AIM预测的化学见解

图5：13P-CO2复合物的形成与客体释放

在低温（300 K）下，CO2分子被困在超分子笼内，使其能够与13P的不同部分建立显著的化学接触。如图5B（jj）中蓝色所示，SchNet4AIM预测了客体分子与其中一个NH2基团之间的电子离域的明显激增（高达0.10电子），表明形成了高度定向的相互作用。实际上，这通过XCAI分析的预测得到了证实，显示这些接触是由NH2和CO2部分之间的局部N-O和H-O相互作用驱动的。对δ(CO2,NH2)的视觉检查表明了离散的结合事件，其中NH2基团在结合口袋中稳定配体的过程中起了积极作用。实际上，图5A显示，后者中的局部最大值（例如δ(CO2,NH21)的1318 fs）与模拟过程中采样的几何形状之间有理想的一致性。类似的趋势也见于CO2-Ph和CO2-OH离域电子计数，显示出客体分子在建立附加接触（如π-π或偶极-偶极相互作用）方面的多样性。

将温度提高到900 K会促进13P骨架平衡几何的更大扰动，导致顶端和底部的电子离域发生更剧烈的变化，这在δ(OH,OH)和δ(NH2,NH2)指标上可以监测到。在该温度下的热能足以部分破坏维持超分子笼的氢键网络，这对于13P的高度灵活的底部支架尤为不利。这种现象在XCAI δ(NH2,NH2)预测中得到了独特的反映（图5C）：几何变形在大约t = 25 fs时开始破坏这些相互作用，到t = 100 fs时，这些相互作用已降至初始值的一半。稍微长时间存在的NH23–NH24接触（蓝色所示）在t = 250 fs时进一步减弱，导致笼的完全断裂，轨迹证实了这一点。

图6：笼裂解后，二氧化碳与13P之间的化学相互作用

从这一点开始，烷基胺骨架彼此逐渐远离，导致电子离域消失。在(NH2)4氢键网络断裂后，配体逐渐从Calix中解离，最终在t ≈ 1500 fs时系统完全解离。在此过程中，与受体不同部分之间的一些弱相互作用逐渐出现，这可以通过其离域电子计数的演变来证明。如图6下方所示，这些主要由CO2与受体的不饱和骨架的多次接触驱动，一直持续到t ≈ 1000 fs。然而，在此时间窗口内还观察到一些偶发的相互作用：例如，在t = 750 fs时，δ指标预测了与其中一个NH2基团的显著接触，根据SchNet4AIM解释，这源于与CO2中一个氧原子的N–O和H–O相互作用的同时形成。

讨论

实现复杂化学现象的物理一致性图像通常依赖于计算成本高昂的技术。原子描述符在大型系统中不可行，而机器学习模型虽然降低了成本，但牺牲了可解释性。SchNet通过连续卷积滤波器解决了这一问题。在这项工作中，作者修改了SchNet架构，创建了SchNet4AIM，用于预测原子和原子间的量子化学量。SchNet4AIM不仅提供了准确且物理一致的预测，还在插值和外推能力上表现出色，推动了多用途机器学习模型的发展。作者展示了SchNet4AIM在理解复杂超分子系统中的化学现象方面的潜力，提供了可解释且稳健的预测，开启了许多应用的可能性。

编译 | 于洲

审稿 | 曾全晨

参考资料

Gallegos M, Vassilev-Galindo V, Poltavsky I, et al. Explainable chemical artificial intelligence from accurate machine learning of real-space chemical descriptors[J]. Nature Communications, 2024, 15(1): 4345.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247506266&idx=1&sn=1670208c80b236faaac95a53712a7640

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

最新文章

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

Nat. Mach. Intell. | 投毒！Scorpius揭示现有医学知识图谱存在巨大风险

Genome Biology | 一种用于肿瘤学多任务学习的可解释预训练多组学模型

Nat.Commun. | GearNet续作！GearBind模型助力抗体亲和力成熟

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

Food Chem. | ChemSweet：人工智能驱动的下一代甜味剂快速筛选平台

中科院生物药国重室高薪诚聘核酸化学、核酸生物、AI生信方向博后

全球生物医药交易报告(2024第3季度)

Nucleic Acids Res. | 类器官与异种移植蛋白质组学数据与分析平台

西湖大学人工智能研究创新中心干细胞项目实习生招聘

第一届计算药剂学研讨会—制药4.0中的人工智能和建模

Nat. Commun. | 几何图学习助力酶功能预测，中大杨跃东团队提出GraphEC模型

Sci. Data | 德睿发布全球最大单性质ADMET开源数据集，大语言模型驱动

CADD筛选PROTAC新思路：利用非马尔科夫动力学模型发现亚稳态蛋白-蛋白界面

Nat. Catal. | 生成模型的妙用。RENAISSANCE精准解码细胞代谢

第二届AI药物研发算法大赛火热报名中，飞桨携手清华、Intel，探索药物研发新思路！

AI“横扫”诺奖，给AI制药带来什么启发？

德睿智药口服小分子GLP-1RA IIb期临床研究完成首剂量组给药

人工智能也可以通过思考来学习 | Cell Press科学新闻

议程公布！第三届中国生物计算大会，10.26-27日，苏州见（内含福利赠票）

荣誉授予人工智能！蛋白质设计和结构预测获2024年诺贝尔化学奖！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉