北航孙志梅IM综述:可解释符号回归探索材料数据背后的数学表达式

学术   2024-09-05 09:04   北京  

扫码关注IM直播
视频号:交叉学科材料
公众号:Interdisciplinary Materials

G. Wang, E. Wang, Z. Li, J. Zhou, Z. Sun. Exploring the mathematic equations behind the materials science data using interpretable symbolic regressionInterdiscip. Mater. 2024; 3(5). doi: 10.1002/idm2.12180


摘   要

符号回归 (SR) 方法能够从海量数据集中探索数学表达式,以构建可解释机器学习模型,具有将“黑箱”机器学习方法转化为材料科学研究中物理和化学可解释表达式的潜力。在本综述中,北京航空航天大学孙志梅团队总结了符号回归方法的发展历程和研究现状,重点阐述了符号回归方法的基础理论、训练流程、现有的方法和代码,以及在材料学不同问题中的应用案例。更为重要的是,展望了符号回归方法在材料设计和研究中需要克服的挑战和未来机遇,包括图形处理单元加速方法和迁移学习算法、表达式准确性与复杂性之间的权衡、基于大语言模型的物理或化学可解释性,以及多模态符号回归方法等。



1. 背景介绍


随着科学研究范式从理论模拟向数据和人工智能驱动的研发模式转变,材料领域产生的泽字节(ZB)级别的数据量预估呈现每年40%的增长趋势。基于海量数据,探索输入材料描述符和目标属性之间的关系,并构建准确且可扩展的属性预测模型或逆向材料设计模型是新材料设计研发的趋势。然而这些模型通常基于数学统计和概率原理,缺乏直接的物理或化学解释性,通常被视为“黑箱”模型。由于模型决策过程的不透明,削弱了模型预测结果的鲁棒性和可靠性,导致研究人员难以完全理解模型的预测运行机理。


符号回归(SR)作为可解释机器学习方法之一,旨在打开机器学习模型的“黑盒”,揭示其模型内部工作机制,提供对模型决策过程的洞察。与传统机器学习方法不同,符号回归不仅能够迭代优化模型的参数,而且通过自主搜索最佳模型结构和形式,探索被传统机器学习方法忽略的数据间的潜在关系。


本综述重点介绍了符号回归的基础原理、代码实现、材料应用和未来前景。首先,介绍了与符号回归相关的表征学习和生成模型,以及符号回归的训练拟合方法。其次,概述了基于不同机器学习方法的符号回归算法、基准数据集和可执行代码。然后,讨论了符号回归在材料特征(描述符)选择、材料性质预测和原子相互作用势中的应用。最后,展望了符号回归当前的挑战和未来的机遇。


2. 符号回归发展历程



图1 2000-2022年,Web of Science数据库中收录的符号回归相关的SCI论文发表数量。


首先调研了从2000年以来发表的与符号回归相关的研究论文数量及其在材料科学领域和计算机领域的增长趋势,如图1所示。回顾了符号回归发展过程中相关的标志性事件,包括1990年前提出的遗传算法、2000年左右提出的机器学习方法和最近提出的具有物理意义的AI Feynman方法等。进一步给出了数学符号在机器学习中的二叉树表现形式,如图2(A)所示。其中每个蓝色圈代表输入(或者树叶),每个黄色圈代表对输入参数的符号运算(或者节点)。最终阐述了符号回归模型的构建流程图,如图2(B)所示。



图2(A)符号回归二进制树表达形式及(B)构建符号回归模型的流程图。


3. 符号回归方法和实现代码


针对不同的符号回归模型构建算法,本文将符号回归方法分为遗传算法符号回归(GPSR),传统机器学习符号回归(TMLSR),深度学习符号回归(DLSR),注意力机制符号回归(TSR)和图神经网络符号回归(GSR)。每种方法的关键流程示意图如图3所示,对应的实现软件和可执行代码如论文中表1所示。进一步,介绍了用于评估符号回归模型精度常用的数据集,包括AI Feynman数据集,Chaotic 数据集,SRBench数据集等。



图3 五种不同符号回归方法的示意图。(A)遗传算法符号回归。(B)传统机器学习符号回归。(C)深度学习符号回归。(D)注意力机制符号回归。(E)图神经网络符号回归。


4. 符号回归方法在材料领域的应用


本文主要介绍了符号回归方法在材料特征描述符重要性排序,材料性能预测(结构稳定性、机械性能、带隙预测、热导率预测、热电性能,电池电极材料,催化性能等)和构建简单体系原子间相互作用势等三个领域的应用。以符号回归探究材料机械性能物理表达式应用为例详细阐述了符号回归方法在解决材料问题中的应用流程,如图4所示。



图4 从实验收集的数据中构建具有物理意义符号回归模型的方法。(A)构建流程图。(B)计算机中的运算过程。(C)符号回归模型的表达形式。


  1. 5. 总结与展望


本文总结展望了符号回归方法在GPU加速方法、迁移学习、如何权衡模型复杂度和预测精度、基于大语言模型(LLMs)的物理化学可解释性探索、多模态符号回归方法等方面的进展与挑战。

Author Biography



孙志梅


北京航空航天大学材料科学与工程学院教授,博士生导师,国家杰青。在Phys .Rev. Lett.Proc. Natl. Acad. Sci.J. Am. Chem. Soc.Nano Lett.等国际知名学术期刊上发表SCI论文300余篇,连续4年(2020-2023)入选材料领域爱思唯尔中国高被引学者。出版专著《先进材料的计算与设计》。授权13项国家发明专利,16项软件著作权。主要研究领域为材料基因工程高通量算法、材料数据库、材料人工智能方法,相变存储材料等。



周  健


北京航空航天大学材料科学与工程学院研究员,博士生导师。在Adv. Funct. Mater.Nano EnergyJ. Mater. Chem. A等SCI 期刊上发表论文200余篇。主要研究领域:金属间化合物和能源材料等。



王冠杰


北京航空航天大学集成电路科学与工程学院博士后。于2022年在北京航空航天大学获得材料物理与化学博士学位。以第一作者在Sci. Bull.J. Phys. Chem. CiScienceJ. Alloys Compd.等期刊发表SCI论文10余篇。主要研究领域:机器学习势函数、高通量智能计算平台、材料数据库和大模型、相变存储材料等。




Interdisciplinary Materials(交叉学科材料)是由Wiley出版集团与武汉理工大学联合创办的开放获取式高水平学术期刊。主编为张清杰院士和傅正义院士。30位国际杰出学者和45位两院院士作为期刊的编辑委员会委员。Interdisciplinary Materials 是国际上聚焦材料与其它学科交叉前沿发起出版的首本“交叉学科材料”领域高水平期刊,旨在发表材料学科与物理、化学、数学、力学、生物、能源、环境、信息等学科交叉研究的最新成果。

 · 2022年1月首发,前三年完全免费发表

 · 2022年6月被DOAJ数据库收录

 · 2022年9月入选“中国科技期刊卓越行动计划高起点新刊”

 · 2023年7月被Ei Compendex数据库收录

 · 2023年11月被ESCI数据库收录

 · 影响因子:24.5

期刊主页

https://onlinelibrary.wiley.com/journal/2767441X


各期文章快速链接

http://sklwut.whut.edu.cn/im/wz/


投稿系统

https://mc.manuscriptcentral.com/intermat


编辑部邮箱

im@whut.edu.cn

ISSN号

2767-441X (online);2767-4401 (print)


CN号

CN 42–1945/TB


交叉学科材料
长按识别二维码
了解期刊更多信息

MaterialsViews
Wiley MaterialsViews中国,带给您前沿的材料科技动态。欢迎关注我们的视频号。投稿请联系:materialsviewschina@wiley.com
 最新文章