JACS: 数据驱动的多保真机器学习训练—为高精度原子间力场铺平道路

学术 2024-12-19 09:01 中国台湾

研究背景：挑战与机遇

原子间势是连接微观世界和宏观世界的桥梁，它描述了原子之间相互作用的方式，是理解材料性质和预测材料行为的基础。传统的从头计算方法（ab initio）虽然能够提供高精度的模拟结果，但计算成本非常昂贵，难以应用于复杂的材料体系。近年来，机器学习方法被广泛应用于构建原子间势，使得研究人员能够以更低的计算成本进行高精度的材料模拟。然而，高质量的训练数据集对于构建精确的机器学习模型至关重要。高质量的数据通常需要花费巨大的计算资源和时间，因此，如何利用有限的高精度数据进行有效的模型训练成为了一个重要的挑战。

北京，2024年12月17日 - 近日，美国化学会《Journal of the American Chemical Society (JACS)》期刊发表了一项由韩国首尔国立大学Seungwu Han教授团队领导的突破性研究。该研究开发了一种名为SevenNet-MF的全新机器学习（ML）框架，它能够利用多保真度数据进行原子间势（MLIP）的训练，从而在材料科学领域取得更精确、更高效的模拟结果。这一创新方法有望在药物发现、新材料设计和能源存储等领域开辟新的研究方向。

研究方法：多保真度训练策略

为了解决这一难题，Han教授团队提出了一个多保真度训练的机器学习框架，SevenNet-MF。该框架利用了不同精度的数据集，同时训练机器学习模型。具体来说，研究团队采用了两种不同的密度泛函理论（DFT）计算方法：广义梯度近似（GGA）和元GGA。GGA方法计算成本较低，但精度相对较低，而元GGA方法则能够提供更高的精度，但计算成本也更高。研究团队将GGA计算产生的数据视为低保真度数据，而将元GGA计算产生的数据视为高保真度数据。

SevenNet-MF模型的核心是一个等变图神经网络（GNN）。该网络能够有效地学习原子之间的相互作用，并利用不同保真度的数据进行训练。该模型采用一种独特的架构，通过一种称为“one-hot encoding”的方法，将数据的保真度信息嵌入到节点特征中。然后，模型使用共同的权重来学习数据的整体趋势，同时使用保真度相关的权重来拟合不同数据之间的差异。这种方法使得模型能够有效地利用低保真度数据中的信息，并将其传递到高保真度数据的学习中，从而在少量高精度数据的情况下实现准确的预测。

研究结果：突破性的性能提升

研究团队分别在两种材料体系上对SevenNet-MF进行了测试，包括：

固体电解质材料LiPS5Cl：研究结果表明，在低保真度训练集大小10%的情况下，该模型能够以10%以内的误差预测锂离子电导率。

氮化铟镓合金In₁Ga₁-xN：该模型在预测混合能时，R2值达到0.98，与参考高保真MLIP的结果非常一致。

这些结果表明，即使在高精度数据覆盖不到的几何和组成空间中，SevenNet-MF也能够有效地从低保真度数据中推断出高精度信息，从而提高了机器学习模型的准确性和分子动力学稳定性。

除了在特定的材料体系上的测试，研究团队还利用Materials Project数据库中的数据训练了一个通用的多保真MLIP。该模型利用GGA和元GGA数据，显著提高了在晶体高精度任务上的性能。比如，在预测晶体能量高于壳能（energy above hull）方面表现出色的性能。此外，研究团队还验证了多保真度训练方法比迁移学习或A学习更为有效，并且可以扩展应用于学习耦合簇级别的高精度数据。

研究团队还发现，使用多保真度训练，能够比传统方法更有效地利用数据，从而在减少计算成本的同时，保持或提高模型的精度。并且，通过对模型架构的调整，研究人员可以根据具体的应用需求，优化模型的性能。

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

NepTrainKit NEP训练集可视化软件

欢迎加入学术之友社群

《Nature》重磅推荐：突破学术瓶颈的深度好文—诚挚推荐科研人必读一次！

JACS: 数据驱动的多保真机器学习训练—为高精度原子间力场铺平道路

Groupy程序：分子模拟和性能计算开源工具

Adv. Funct. Mater.：具有双重配体增强铁磁性的 2D Janus 铬硫化物中的室温拓扑自旋纹理

最近7篇PRL涉及铁电、磁性、超导等

5代Intel 8581C服务器配置，在售最快配置

史无前例|寒门师妹凭借这篇顶刊一跃成为特级教授！将解决材料研究百年难题

【招聘】中国科学院金属研究所刘培涛、陈星秋团队诚聘博士后2名

Sci. Adv.: 机器学习赋能！兼顾高强度和高延展性的新型铝富集高熵难熔B2合金的成功设计

最近4篇JACS：人工智能赋能化学与材料科学新突破

5代Intel 8581C服务器配置，在售最快配置

LLAMAT模型：新型人工智能模型加速材料发现

字节跳动ByteFF力场：助力扩展化学空间覆盖，加速药物发现

Hugging Face与Entalpic联手推出LeMaterial：加速材料发现的开源新举措

必看：十投九中，退搞率仅10%的SCI的学术水刊，快冲，快收藏～

Chem: 基于人工神经网络的钙钛矿材料预测模型

4代Intel高主频超算低至4分

5代Intel 8581C服务器配置，在售最快配置

天才少年巨作：领先传统计算30年，人工智能在材料科学杀疯了，将改写教科书！

澳门理工大学人工智能药物发现中心招收博士生(2025年入学)

Nat. Commun.: 二维铁电CuInP2S6中Cu(I)多重占据和迁移的原子级直接成像

Nat. Commun.: CrystaLLM晶体结构生成语言模型

纯计算JACS: 高通量搜索基于热力学描述符的光致伸缩材料

纯计算PRL: 通过多轨道链实现强而鲁棒的准一维超导体

通报！半年连续发布10余篇SCI，揭秘后的原因让人震惊！

南开大学李福军教授课题组诚聘博士后

241206科研基金申报机会汇总

纯计算JACS: 新型Al₂B₁₂C半导体材料展现出优异的双极载流子迁移率

4代Intel高主频超算低至4分

微软正式发布MatterSimV1-1M and MatterSimV1-5M模型

DFT大爆炸！不做实验和模拟计算连发3篇国际顶刊！改写教科书！

B站系列优质视频教程推荐2

纯计算Phys. Rev. Lett.: γ-Ga2O3的“无序”本质

Nat. Mach. Intell.:人工智能赋能催化剂吸附构型筛选

第五期VASPKIT团队“VASPKIT+VASP软件培训基础班”调研

破百年难题！青年博士连发3篇Nature顶刊！AI+DFT彻底扭转现有局面！

纯计算Nano Lett.: 揭示三维多轨道平带模型及材料

Nature打破质疑！寒门博士运用“第一性原理计算”解决计算材料学百年难题！颠覆教科书！

纯计算JACS: 最小富勒烯单元构建新型二维网络提升稳定性与光催化性能

JACS: 使用生成式预训练Transformer探索催化剂新可能

Science: 计算催化，SISSO符号回归机器学习应用

4代Intel高主频超算低至4分

极性声子敢与自旋输运共舞

滑移铁性：一种低能激发习惯

HfO2 之铁电奋斗历程

打破质疑！材料研究迎来史上最大进展，连续登顶Nature、Science等各大国际顶刊！

DiffractGPT：利用生成式预训练模型从XRD中解析原子结构

JPCC: 电催化剂数据库BEAST DB

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉