Decoupled peak property learning for efficient and interpretable electronic circular dichroism spectrum prediction
https://www.nature.com/articles/s43588-024-00757-7
我院AI4S交叉研究取得重要进展 | 莫凡洋/袁粒与合作者开发机器学习手性分子光谱预测模型
北京大学深圳研究生院 2025年01月04日 16:52
研究进展
电子圆二色光谱(electronic circular dichroism,ecd)作为一种关键的光谱技术,具有用量少、易测定等优点,在不对称催化、功能材料和药物发现等领域有重要且广泛的应用,已成为探索手性分子空间绝对构型的有力工具。然而,圆二色光谱的理论计算往往复杂且耗时,成为化学研究和药物开发中的时间瓶颈。随着人工智能的发展,使用机器学习自动化预测分子光谱的技术得到研究者们的广泛关注。当前,在分子光谱预测研究中,基于连续序列预测的自回归模型在一些任务中展现了出色的性能与发展潜力。然而圆二色谱特征信息稀疏,直接采用连续序列建模会学到很多无关噪声,造成模型过拟合,不具有泛化能力。
近日,北京大学莫凡洋课题组、袁粒课题组与厦门大学王忻昌课题组合作,在Nature Computational Science上发表了题为“Decoupled peak property learning for efficient and interpretable electronic circular dichroism spectrum prediction”的研究论文。
图1 研究在Nature Computational Science上发表
该研究针对手性小分子圆二色光谱的DFT计算耗时、费力且具有高专业门槛的问题,通过将连续的光谱预测任务转换为离散表示的光谱峰表征学习任务,实现了以圆二色光谱为代表的若干分子光谱和质谱的快速、准确和通用预测,并通过多种手性天然产物分子验证其可靠性。
研究团队提出创新性深度学习模型ECDFormer,将连续光谱序列按光谱峰的属性信息解耦为离散令牌组合形式,并使用查询变量进行自注意力机制的光谱属性学习,从而构建光谱峰结构与分子官能团之间的联合表征。在预测阶段,本工作首先学习分子拓扑结构表征,进而基于光谱-分子结构联合表征空间,对光谱峰的数量、位置、强度进行独立预测,最后使用高斯函数将离散的峰属性展宽为连续的光谱序列。这种峰解耦的光谱预测方案显著提升了预测的速度与精度,且具有多种光谱任务的良好扩展性。
图2 本工作模型结构, 基于峰解耦的圆二色光谱预测流程
作者信息
论文的通讯作者莫凡洋长聘副教授提出了研究设想、启动该项研究,并与合作者(论文共同通讯作者)袁粒助理教授、厦门大学王忻昌副教授共同指导整个研究项目。深圳研究生院院长助理、信息工程学院院长田永鸿教授对项目开展进行了算法指导和计算资源支持。北京大学深圳研究生院AI4S“双导师”先行启动计划入选者博士生李昊和厦门大学博士生龙达为论文的共同第一作者。
该工作获得国家自然科学基金委、厦门大学校长基金、北京大学深圳研究生院AI4S交叉研究专项等基金与项目的资助。
拓展阅读
Nature Computational Science于2021年1月创刊,2024年12月16日,Nature Computational Science正式被SCIE收录。期刊涵盖计算科学的关键主题,包括但不限于化学信息学、地理信息学、计算模型、材料科学和城市科学;其主要目标是促进新计算技术的多学科研究和跨学科应用,注重于计算技术和数学模型的开发和使用,并将其应用于解决一系列科学学科中的复杂问题。
来源:科研处
审校:Lilly
本期排版:刘泽凯
本期校对:吴采熹
审核发布:王可佳 王琳