在现代物理学、化学和材料科学领域,第一性原理计算已成为不可或缺的研究手段,用于预测和解释材料性质。这类方法不依赖于实验数据与经验参数,而是基于量子力学的基本原理,通过数值求解薛定谔方程来预测多电子相互作用系统的物理性质,从而为理解材料性质和设计新材料提供了新途径。然而,尽管第一性原理计算已成为多个学科不可或缺的重要方法,但其高昂的计算成本限制了其实际应用,计算复杂度随着体系中原子数目的增加而迅速上升,限制了其在高通量材料筛选和大尺度系统模拟中的广泛应用。
近年来,深度学习方法在各个领域取得了令人瞩目的成果,为第一性原理计算开辟了新的机遇。深度学习深度学习方法通过从海量数据中学习,利用神经网络自动发掘隐藏的规律和模式,高效建模特征表示和复杂函数关系,从而准确高效地进行预测和分析。深度学习模型可以基于有限的训练数据,创建精度接近第一性原理计算方法的近似模型,从而大幅降低计算成本。由于兼具准确性和计算效率,深度学习模型有望超越传统的第一性原理算法,显著加速第一性原理计算过程。
2024 年诺贝尔物理奖与化学奖都颁给“AI for Science”相关领域,这一重大事件无疑为该领域的蓬勃发展注入了强劲动力。在科学研究的新范式——“AI for Science”时代,基于数据驱动的机器学习力场(ML-FFs)成功化解了第一性原理电子结构方法与传统经验力场之间在准确性和效率方面的矛盾。近年来,该领域发展态势迅猛,在 Web of Science 平台的检索结果中清晰可见相关工作频繁登上 Nature、Science、Cell 等顶尖学术刊物。
随着计算机算力的迅速发展,通过 ML-FFs 实现第一性原理级别精度的大规模分子模拟研究已成为现实。机器学习方法还使人们对原本以为熟知的系统有了新的化学认知,例如小分子的非对称电子效应等现象,使研究者们能够更好地理解实验结果。由此可见,ML-FFs 极有可能成为现代计算化学与分子模拟的重要组成部分。
然而,作为新兴的跨学科领域,该领域知识涵盖面广、门槛较高,涉及量子化学、分子模拟和机器学习等多个学术领域。相关资料和学习平台相对匮乏,信息技术也不够开放。在这种情况下,专业培训学习显得尤为迫切。
01
机器学习分子动力学
本次授课内容丰富,涵盖快速上手量化软件、深入理解机器学习、熟练运用 LAMMPS 模拟软件、精通机器学习力场模型等,并附带大量相关代码与示例脚本。本次课程不仅带来生态最完善的 DeePMD 系列软件的详细解读和使用方法,还将介绍机器学习力场领域具有超高数据效率的等变模型(NequIP/MACE/Allegro),从而显著降低高昂的数据生产成本。此外,还有机器学习力场领域的 ChatGPT 产品——开箱即用、免费开源的通用大模型(MACE-OFF23,MACE-MP0,DPA 等)的使用与微调技巧。
02
机器学习第一性原理
本次课程介绍了深度学习在第一性原理计算中两个方面的应用——深度神经网络势函数和深度学习密度泛函微扰理论,授课内容丰富。通过此次课程,学员能够快速上手深度学习方法,全面认识DP、MPNN和Allegro等深度学习势函数模型,深入理解DeepH和DFPT等深度学习密度泛函微扰理论方法;并安排了较多的上机实验,提供大量相关代码与示例教程,帮助学员熟悉各种深度学习第一性原理计算方法的使用,快速复现顶刊论文结果。
01
机器学习分子动力学
第一天:理论与实操并行,开启分子动力学探索之旅
第一天的课程内容丰富多样。理论部分从诺贝尔奖的 AI 元年出发,探讨 AI 与 SCIENCE 的交叉,介绍科学研究的四范式,重点阐述了从大数据时代到 AI4SCIENCE 时代,如 Google DeepMind/微软研究院/Meta FAIR 等著名 AI 团队的 AI4SCIENCE 工作。接着深入讲解了 AI4SCIENCE 时代的分子动力学模拟,包括分子模拟基本方法与发展历史、经验力场与第一性原理方法的对比与区别、机器学习力场方法的兴起。还介绍了基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势,以及相关支撑项目,阐述了机器学习的分子动力学的特点、分类和工作流程,以及数据集的常见收集方式与建议。实操内容涵盖 Linux 系统与超算服务器的常规操作、虚拟环境(Anaconda 或 Mamba)的使用、Python 的集成开发环境(IDE)的介绍与基本使用、分子模拟软件介绍,包括 LAMMPS 和 OpenMM 的入门与使用,以及量子化学计算软件的介绍与快速上手。
第二天:深入机器学习力场模型设计理论与实操
第二天主要聚焦机器学习力场的模型设计。理论方面,快速入门机器学习与深度学习,介绍常见概念与分类、机器学习的发展历史以及通用近似理论,通过交互的可视化案例理解神经网络的通用近似理论,解释神经网络对 GPU 的依赖,讲解神经元、反向梯度下降、损失函数、过/欠拟合、残差连接等基本概念,介绍 ANN、CNN、RNN、TRANSFORMER、ResNet 等经典深度神经网络的基本框架的介绍与特点,并推荐相关学习资源。同时,深入讲解科学领域的机器学习模型,包括 AI 模型在 SCIENCE 领域需要遵守的几个物理约束/物理对称性,高效描述局部环境方法的分类与特点,基于描述符的机器学习力场模型如 HDNNPs(BPNN)模型、有机体系的 ANI 模型、生态最好的机器学习力场模型 DeePMD 系列工作,以及基于图框架的机器学习力场模型等。实操内容包括 DeePMD 的离线安装与验证测试、输入文件详解、常见功能及问题分析,综合使用 LAMMPS 和 DeePMD 执行高精度的分子动力学模拟,分子模拟的数据后处理与分析,以及 DPGEN 软件的安装、介绍与工作流程、输入和输出文件参数详解、跨计算分区提交任务示例、常用命令与使用经验等。
第三天:高级课程聚焦等变模型系列与领域热点
第三天进入高级课程,探索等变模型系列与领域热点。讲解不变系列模型的总结、等变模型的概念、特点、分类和应用,介绍等变的概念、等变模型的分类与特点、高阶等变模型的介绍、群的简要介绍、SO(3)群的简单入门与张量积、欧式神经网络(E3NN)的介绍与注意事项、高阶等变模型与传统模型及经验力场的区别,详解 Nat. Commun.上高被引的 NequIP 模型的详解和代码框架。实操内容包括 DeePMD 软件的进阶使用与补充讲解,包括多 GPU 并行训练,LAMMPS 以多 GPU 并行方式运行机器学习力场模型,使用 Python 代码快速可视化机器学习力场模型在等变与不变设计上的区别,使用多种机器学习的降维方法结合 K-Means 聚类从分子模拟轨迹中以低冗余方式提取多帧结构文件,NequIP 模型的超参数介绍和使用,复现 Nat. Commun.文章结果,使用 wandb 进行超参数调优与训练过程中各种信息的可视化分析。
第四天:聚焦高效/高精度等变模型与通用大模型
第四天主要聚焦高效/高精度的基于 ACE 的等变模型,介绍 ACE 方法、消息传递和等变框架的集大成者 MACE 模型及其在多个领域的应用,认识机器学习力场领域的 ChatGPT 模型及通用大模型,包括有机分子体系的通用大模型 MACE-OFF23、几乎涵盖元素周期表所有元素的材料领域的通用大模型 MACE-MP0 以及其他大模型,介绍适用于大规模 GPU 并行框架的等变模型如 Allegro 模型和 SevenNet 模型。实操部分包括 MACE 模型和 Allegro 模型的超参数介绍和使用经验,MACE 模型与 DeePMD 模型的对比,Libtorch 与 LAMMPS 软件的编译,机器学习力场领域的 ChatGPT 的使用与分析,快速上手 MACE-OFF23 和 MACE-MP0 模型,对通用大模型进行微调与分析,以及 DPA-1 和 DPA-2 的介绍与特点。
课程大纲如下:
《基于机器学习的分子动力学》
1. 第一天理论内容
a) 诺贝尔奖的AI元年
i. AI与 SCIENCE的交叉:
b) 科学研究的四范式
i. 从大数据时代到AI4SCIENCE时代,如Google DeepMind/微软研究院/Meta FAIR等著名AI团队的AI4SCIENCE工作介绍
c) AI4SCIENCE时代的分子动力学模拟
i. 分子模拟基本方法与发展历史
ii. 经验力场与第一性原理方法的对比与区别
iii. 机器学习力场方法的兴起
d) 基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势,以及相关支撑项目
e) 机器学习的分子动力学的特点,分类和工作流程
f)数据集的常见收集方式与建议
2. 实操内容
a) Linux系统与超算服务器的常规操
i. ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常见操作
b) 虚拟环境(Anaconda或Mamba)的使用
i. conda create/activate/deactivate/install/info/env等命令
c) Python的集成开发环境(IDE)的介绍与基本使用
i. Python的基本数据类型
ii. Pycharm的常见用法与代码调试,以及虚拟环境的配套
d) 分子模拟软件介绍
i. LAMMPS的入门与使用
1. 软件发展趋势与特点
2. 大规模并行的原理:域分解算法介绍
3. 输入文件的详细解析与注意事项
4. 相关势函数和晶格常数的获取渠道
5. 分子模拟轨迹的后处理与分析:径向分布函数与扩散系数
6. 机器学习势函数在LAMMPS中的使用
ii. OpenMM的入门与使用
1. 软件发展趋势与方法特点
2. 运行脚本与注意事项
3. GAFF(Amber)力场的简要介绍
4. 使用sobtop软件和Python快速、自动化生成任意有机分子的力场参数文件(同时也适用GROMACS)
e)量子化学计算软件的介绍与快速上手
i.量子化学中常见理论方法的分类与区别,DFT相关泛函的简要介绍
ii. CP2K软件的介绍与快速上手:
1. 软件发展趋势与特点
2. 安装与使用,以及赝势文件的介绍与获取
3. 使用MULTIWFN软件快速生成CP2K的单点能或分子动力学模拟的输入文件
4. 输入文件的字段解释与注意事项
5. 使用Python实现自动化提交任务与任务后处理
6. 在CP2K中使用GFN1-xTB方法,适合新手快速入门的理论方法
iii. ORCA软件的介绍与特点:
1. 软件发展趋势与特点
2. 使用MULTIWFN软件快速生成单点能或分子动力学模拟的输入文件,以及注意事项
3. 使用Python实现自动化提交任务与任务后处理
4. ωB97M-V泛函的介绍与在ORCA中的使用
iv.XTB软件的发展介绍与特点:
1.软件发展趋势与特点:发展迅猛!年被引用增长率高达87%;能够执行单点能,几何优化,分子模拟等功能
2. 安装与常用命令
3. GFN系列方法的简要介绍
4. 使用Python实现自动化提交任务与任务后处理
v. DFTB(简单介绍)
1. 执行单点能,几何优化,分子模拟等
2. 使用Python实现自动化提交任务与任务后处理
f) 案例:传统力场方法与机器方法力场方法的对比
i. 使用OpenMM执行有机体系的分子模拟
ii. 基于机器学习力场方法,结合LAMMPS执行合金体系,锂电池体系的分子模拟
iii. 使用MDtraj等软件进行模拟结果的后处理分析与Python高质量科研绘图,包括:能量与力的预测曲线,径向分布函数,键长键角二面角分布,电池电压曲线等.
3. 第二天理论内容(机器学习力场的模型设计)
a) 机器学习与深度学习的快速入门
i. 常见概念与分类
ii.机器学习的发展历史以及通用近似理论:
1.通过交互的可视化案例,理解神经网络的通用近似理论
2. 解释神经网络对GPU的依赖
iii. 神经元,反向梯度下降,损失函数,过/欠拟合,残差连接等基本概念
iv. ANN, CNN, RNN, TRANSFORMER,ResNet等经典深度神经网络的基本框架的介绍与特点
v. 相关学习资源的推荐
vi. Pytorch与Tensorflow的发展现状
b) 科学领域的机器学习模型介绍
i.AI模型在SCIENCE领域需要遵守的几个物理约束/物理对称性
ii.高效描述局部环境方法的分类与特点
1. 基于核方法或深度神经网络方法
2. 基于描述符或分子图方法
iii. 基于描述符的机器学习力场模型
1. HDNNPs(BPNN)模型详解与发展
a) 机器学习力场的开篇工作
2. 有机体系的ANI模型的介绍
3. 生态最好的机器学习力场模型
a) DeePMD系列工作的详解
b) DeePMD的发展和几种描述符的介绍,特点与应用
c) DeePMD的压缩原理与特点
d) DPGEN的工作原理
iv. 基于图框架的机器学习力场模型
1. 图神经网络、图卷积网络和消息传递神经网络的发展与理解
2. 图神经网络的机器学习力场模型的经典模型
3. SchNet模型的特点与代码实现
4.基于三维空间建模的完备性与效率的几何系列模型:
a)DimeNet, SphereNet和ComENet模型的详解与比较
5. 其他机器学习力场模型概述:DTNN和PhysNet等
c) 实操内容
i. DeePMD的离线安装与验证测试
ii. DeePMD输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解,及使用经验
iii. DeePMD的常见功能,包括训练,重启,冻结,压缩和测试
iv. DeePMD的常见问题与训练过程的分析
v. 综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟
vi. 分子模拟的数据后处理与分析
vii. DPGEN软件的安装,介绍与工作流程
viii. DPGEN软件的输入和输出文件:param.json和machine.json文件的参数详解
ix. DPGEN软件跨计算分区的提交任务示例;不同量化级别方法的示例
x. DPGEN软件的常用命令与使用经验,以及不同体系收敛的参考标准
4. 第三天(高级课程 —— 等变模型系列,领域热点)
a) 不变系列模型的总结
b)等变模型的概念,特点,分类和应用
c)等变的概念
d) 等变模型的分类与特点
e) 高阶等变模型的介绍:超高数据利用率与优秀的泛化能力
f) 群的简要介绍
g) SO(3)群的简单入门与张量积
h) 欧式神经网络(E3NN)的介绍与注意事项
i) 高阶等变模型与传统模型,经验力场的区别
j) 常见误区的提醒
k) 等变机器学习力场的经典模型
i. Nat. Commun.上高被引的NequIP模型的详解和代码框架
l) 实操内容
i. DeePMD软件的进阶使用与补充讲解,包括多GPU并行训练
ii. LAMMPS以多GPU并行方式运行机器学习力场模型
iii. 使用Python代码快速可视化机器学习力场模型在等变与不变设计上的区别
iv. 使用多种机器学习的降维方法,结合K-Means聚类,从分子模拟轨迹中以低冗余方式提取多帧结构文件。
v. NequIP模型的超参数介绍和使用
vi. 复现Nat. Commun.文章结果,包括计算径向分布函数、键角分布等性质
vii. 使用wandb进行超参数调优与训练过程中各种信息的可视化分析
5. 第四天
a) 高效/高精度的基于ACE的等变模型
b) ACE方法,消息传递和等变框架的集大成者:MACE模型
c) 方法的完备性,效率和系列发展
d) MACE模型在多个领域的应用
e) 机器学习力场领域的ChatGPT模型
f) 有机分子体系的通用大模型:MACE-OFF23
g)几乎涵盖元素周期表所有元素的材料领域的通用大模型:MACE-MP0
h)其他大模型的简要介绍
i) 适用于大规模GPU并行框架的等变模型
i. 消息传递模型的不足
ii. NequIP团队在Nat. Commun.上的新作--Allegro模型的方法详解与比较
iii. SevenNet模型的介绍与比较
j) 实操部分
i. MACE模型和Allegro模型的超参数介绍和使用经验
ii. MACE模型与DeePMD模型的对比,包括精度,数据效率等
iii. Libtorch与LAMMPS软件的编译
iv. 机器学习力场领域的ChatGPT的使用与分析
v. 快速上手MACE-OFF23和MACE-MP0模型
vi. 对通用大模型进行微调与分析
vii.DPA-1和DPA-2的介绍与特点
02
机器学习第一性原理
第一部分:第一性原理基础和Python编程
1. 理论内容
(1) 课程引言
① 深度学习在第一性原理的应用和优势
② 课程内容安排
(2) 第一性原理计算介绍
① 第一性原理计算的发展历程——从薛定谔方程到密度泛函理论
② 密度泛函理论(DFT)——从波函数到电子密度
③ 常用的原子建模环境软件——ASE和pymatgen
④ 常用的第一性原理计算软件——VASP和GPAW
2. 实操内容
(1) Linux系统的常用命令和超算服务器的使用
① 命令行终端软件——iTerm和Xshell
② ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch等命令行操作
③ vim文本编辑
(2) Python编程语言基础和集成开发环境(IDE)的介绍
① 数据类型、函数、类和对象、模块
② Pycharm软件的使用和常见用法
(3) Python环境管理软件Anaconda的使用
① 使用Conda命令创建环境、安装Python库
② 使用Conda命令管理环境和环境的回溯
③ Pytorch的安装和调用GPU训练模型
(4) 原子建模环境软件ASE的使用
① 使用ASE对体系结构进行建模,得到cif文件
② ASE和GPAW软件结合使用
(5) 第一性原理计算软件GPAW的使用
① 第一性原理计算软件的参数设置和结果收敛性检查
② 以晶体材料为例,使用GPAW进行第一性原理计算
③ 体系能量、原子受力和极化等性质的计算
第二部分:深度学习在第一性原理计算中的应用—神经网络势函数(一)
1. 课程内容
(1)深度学习的发展历程和优势
① 人工神经网络与万能近似定理
② 以ResNet为例入门深度神经网络
③ 常用的神经网络框架——Pytorch介绍
④ 人工智能课程相关的学习资源推荐
(2)神经网络势函数
① 从高斯核回归到神经网络势函数
② 神经网络势函数的基本假设——局域性假设和对称性要求
③ 原子结构和周围化学环境的表征
④ BPNN描述符和DP深度神经网络势函数
⑤ 神经网络势函数作为分子动力学模拟的力场模型
2. 实操内容
(1) 深度学习项目实践——ResNet残差网络用于手写数字识别
① 手写数据集的准备
② 训练ResNet模型
③ ResNet模型的测试和评估
④ 熟悉Pytorch的使用
⑤ 熟悉使用GPU训练神经网络模型
(2) DeePMD的使用
① DeePMD的离线安装与测试
② DeePMD模型的训练和验证
③ 使用DeePMD模型进行高效的分子动力学模拟
④ 数据的处理和分析
⑤ 使用wandb可视化训练过程
第三部分:深度学习在第一性原理计算中的应用—神经网络势函数(二)
1. 课程内容
(1) 图神经网络和MPNN消息传递神经网络
① 具有不变性的消息传递神经网络
② 晶体图卷积神经网络CGCNN
③消息传递神经网络的一般框架和组成
(2)SchNet和DimeNet++等不变消息传递神经网络的介绍
① SchNet和DimeNet++的特点
② DimeNet++中角度信息的引入——球谐基函数
③ 深入理解消息传递过程——图卷积
④ 图卷积和图像卷积的区别
2. 实操内容
以不变消息传递神经网络SchNet为例,介绍SchNetPack的安装和使用,包括:
① QM9数据集的准备
② 使用QM9数据集训练SchNet模型
③ 模型对体系能量和原子受力预测精度的评估
④ 将SchNet模型用于分子动力学模拟
⑤ 原子对径向分布函数等性质的计算
第四部分:深度学习在第一性原理计算中的应用—神经网络势函数(三)
1. 课程内容
(1) 具有等变性的消息传递神经网络
① 等变的概念
② 等变性和不变性的区别
③ 理解等变性——群论的初步介绍
④等变消息传递神经网络和不变等变消息传递神经网络的对比
(2)常见的等变模型——PaiNN、NequIP和Allegro模型
① PaiNN——通过距离矩阵实现等变性
② NequIP和Allegro——通过不可约表示实现等变性
2. 实操内容
(1) 高精度、轻量化的PaiNN等变神经网络
① PaiNN模型代码的详解
② PaiNN模型的训练和使用
③ SchNet和PaiNN模型的对比——精度
④ 切身体会不变性和等变性消息传递神经网络的区别
(2) NequIP模型的安装和使用,以及Nature Communications顶刊论文结果复现
① NequIP软件包的安装
② 超参数的设置和介绍
③复现Nature Communications论文结果
第五部分:深度学习在第一性原理计算中的应用——高阶内容
1. 课程内容
(1) 在神经网络势函数模型中加入长程相互作用
① 使用神经网络预测离子电荷
② 基于离子电荷计算长程相互作用
(2)利用神经网络对密度泛函理论哈密顿量进行建模
①DeepH方法
②深度学习密度泛函微扰理论(DFPT)方法
(3) 课程进阶:通用原子体系大模型——MACE框架
① 原子簇展开(ACE)方法
② MACE:MPNN和ACE方法的结合
2. 实操内容
(1) Allegro模型的安装和使用以及Nature Communications顶刊论文结果复现
① Allegro代码框架详解
② Allegro软件的安装和使用
③ Allegro和LAMMPS分子动力学软件结合使用
④Nature Communications论文结果复现,
(2)声子谱的计算
① 使用Phonopy软件计算固体材料的声子谱
②使用深度学习势函数加速声子谱的计算
讲师介绍
机器学习分子动力学专题
主讲老师来自国内高校胡老师授课,已发表SCI论文近20余篇,研究方向为基于机器学习的分子动力学模拟,包括 构建高效、高精度的AI分子力场模型,采用主动学习或大模型的知识蒸馏方法来获取高质量训练数据集, 开发基于C++的高性能的多GPU并行的LAMMPS的插件。熟知各种AI模型DeePMD, SchNet, DimeNet, SphereNet, DPA2和等变系列模型的Nequip, MACE, Allegro等,精通所有量子化学软件!
机器学习第一性原理专题
主讲老师来自国内985重点高校,拥有两年海外留学经历,计算物理和计算材料研究方向,参与多项国家自然科学基金面上项目。熟悉深度学习方法和第一性原理计算及相关软件的使用,具有丰富的编程经验,对深度学习方法应用于第一性原理计算有深入的研究和优秀的成果,在Physical Review Letters、Physical Review B等PR系列期刊和Journal of Physical Chemistry C等期刊上发表15余篇论文。
授课时间
机器学习分子动力学专题
2024.12.21-----2024.12.22(上午09:00-11:30 下午13:30-17:00)
2024.12.28-----2024.12.29(上午09:00-11:30 下午13:30-17:00)
机器学习第一性原理专题
2024.12.23-----2024.12.26(晚上19:00-22:00)
2024.12.30-----2024.12.31(晚上19:00-22:00)
2025.01.04-----2025.01.05(上午09:00-11:30 下午13:30-17:00)
培训费用
机器学习分子动力学 机器学习第一性原理
公费价:每人每个课程¥4980元 (含报名费、培训费、资料费)
自费价:每人每个课程¥4680元 (含报名费、培训费、资料费)
优惠福利:
福利一:同时报名两个课程¥9680元 报二赠一(含报名费、培训费、资料费)
免费参加一年课程价格:16680元 (含报名费、培训费、资料费)
福利二:现在报名一门赠送一门往期课程回放
报名两门赠送四门往期回放
优惠三:提前报名缴费学员可得300元优惠(仅限前15名)
报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销
1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握 3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!
学员对于培训给予高度评价
联系人:江老师
微信:13017692038
电话:13017692038
QQ:2929430477
引用往期参会学员的一句话: