独占鳌头！破百年难题，寒门师弟连发三篇国际顶刊，纯计算已经out了？AI+DFT+MD杀疯了

文摘 2024-11-20 08:10 江苏

2024 年诺贝尔物理奖与化学奖都颁给“AI for Science”相关领域，这一重大事件无疑为该领域的蓬勃发展注入了强劲动力。在科学研究的新范式——“AI for Science”时代，基于数据驱动的机器学习力场（ML-FFs）成功化解了第一性原理电子结构方法与传统经验力场之间在准确性和效率方面的矛盾。近年来，该领域发展态势迅猛，在 Web of Science 平台的检索结果中清晰可见相关工作频繁登上 Nature、Science、Cell 等顶尖学术刊物。

随着计算机算力的迅速发展，通过 ML-FFs 实现第一性原理级别精度的大规模分子模拟研究已成为现实。机器学习方法还使人们对原本以为熟知的系统有了新的化学认知，例如小分子的非对称电子效应等现象，使研究者们能够更好地理解实验结果。由此可见，ML-FFs 极有可能成为现代计算化学与分子模拟的重要组成部分。

然而，作为新兴的跨学科领域，该领域知识涵盖面广、门槛较高，涉及量子化学、分子模拟和机器学习等多个学术领域。相关资料和学习平台相对匮乏，信息技术也不够开放。在这种情况下，专业培训学习显得尤为迫切。

在现代物理学、化学和材料科学领域，第一性原理计算已成为不可或缺的研究手段，用于预测和解释材料性质。这类方法不依赖于实验数据与经验参数，而是基于量子力学的基本原理，通过数值求解薛定谔方程来预测多电子相互作用系统的物理性质，从而为理解材料性质和设计新材料提供了新途径。然而，尽管第一性原理计算已成为多个学科不可或缺的重要方法，但其高昂的计算成本限制了其实际应用，计算复杂度随着体系中原子数目的增加而迅速上升，限制了其在高通量材料筛选和大尺度系统模拟中的广泛应用。

近年来，深度学习方法在各个领域取得了令人瞩目的成果，为第一性原理计算开辟了新的机遇。深度学习深度学习方法通过从海量数据中学习，利用神经网络自动发掘隐藏的规律和模式，高效建模特征表示和复杂函数关系，从而准确高效地进行预测和分析。深度学习模型可以基于有限的训练数据，创建精度接近第一性原理计算方法的近似模型，从而大幅降低计算成本。由于兼具准确性和计算效率，深度学习模型有望超越传统的第一性原理算法，显著加速第一性原理计算过程。

机器学习分子动力学

本次授课内容丰富，涵盖快速上手量化软件、深入理解机器学习、熟练运用 LAMMPS 模拟软件、精通机器学习力场模型等，并附带大量相关代码与示例脚本。本次课程不仅带来生态最完善的 DeePMD 系列软件的详细解读和使用方法，还将介绍机器学习力场领域具有超高数据效率的等变模型（NequIP/MACE/Allegro），从而显著降低高昂的数据生产成本。此外，还有机器学习力场领域的 ChatGPT 产品——开箱即用、免费开源的通用大模型（MACE-OFF23,MACE-MP0,DPA 等）的使用与微调技巧。

机器学习第一性原理

本次课程介绍了深度学习在第一性原理计算中两个方面的应用——深度神经网络势函数和深度学习密度泛函微扰理论，授课内容丰富。通过此次课程，学员能够快速上手深度学习方法，全面认识DP、MPNN和Allegro等深度学习势函数模型，深入理解DeepH和DFPT等深度学习密度泛函微扰理论方法；并安排了较多的上机实验，提供大量相关代码与示例教程，帮助学员熟悉各种深度学习第一性原理计算方法的使用，快速复现顶刊论文结果。

机器学习分子动力学

第一天：理论与实操并行，开启分子动力学探索之旅

第一天的课程内容丰富多样。理论部分从诺贝尔奖的 AI 元年出发，探讨 AI 与 SCIENCE 的交叉，介绍科学研究的四范式，重点阐述了从大数据时代到 AI4SCIENCE 时代，如 Google DeepMind/微软研究院/Meta FAIR 等著名 AI 团队的 AI4SCIENCE 工作。接着深入讲解了 AI4SCIENCE 时代的分子动力学模拟，包括分子模拟基本方法与发展历史、经验力场与第一性原理方法的对比与区别、机器学习力场方法的兴起。还介绍了基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势，以及相关支撑项目，阐述了机器学习的分子动力学的特点、分类和工作流程，以及数据集的常见收集方式与建议。实操内容涵盖 Linux 系统与超算服务器的常规操作、虚拟环境（Anaconda 或 Mamba）的使用、Python 的集成开发环境（IDE）的介绍与基本使用、分子模拟软件介绍，包括 LAMMPS 和 OpenMM 的入门与使用，以及量子化学计算软件的介绍与快速上手。

第二天：深入机器学习力场模型设计理论与实操

第二天主要聚焦机器学习力场的模型设计。理论方面，快速入门机器学习与深度学习，介绍常见概念与分类、机器学习的发展历史以及通用近似理论，通过交互的可视化案例理解神经网络的通用近似理论，解释神经网络对 GPU 的依赖，讲解神经元、反向梯度下降、损失函数、过/欠拟合、残差连接等基本概念，介绍 ANN、CNN、RNN、TRANSFORMER、ResNet 等经典深度神经网络的基本框架的介绍与特点，并推荐相关学习资源。同时，深入讲解科学领域的机器学习模型，包括 AI 模型在 SCIENCE 领域需要遵守的几个物理约束/物理对称性，高效描述局部环境方法的分类与特点，基于描述符的机器学习力场模型如 HDNNPs（BPNN）模型、有机体系的 ANI 模型、生态最好的机器学习力场模型 DeePMD 系列工作，以及基于图框架的机器学习力场模型等。实操内容包括 DeePMD 的离线安装与验证测试、输入文件详解、常见功能及问题分析，综合使用 LAMMPS 和 DeePMD 执行高精度的分子动力学模拟，分子模拟的数据后处理与分析，以及 DPGEN 软件的安装、介绍与工作流程、输入和输出文件参数详解、跨计算分区提交任务示例、常用命令与使用经验等。

第三天：高级课程聚焦等变模型系列与领域热点

第三天进入高级课程，探索等变模型系列与领域热点。讲解不变系列模型的总结、等变模型的概念、特点、分类和应用，介绍等变的概念、等变模型的分类与特点、高阶等变模型的介绍、群的简要介绍、SO(3)群的简单入门与张量积、欧式神经网络（E3NN）的介绍与注意事项、高阶等变模型与传统模型及经验力场的区别，详解 Nat. Commun.上高被引的 NequIP 模型的详解和代码框架。实操内容包括 DeePMD 软件的进阶使用与补充讲解，包括多 GPU 并行训练，LAMMPS 以多 GPU 并行方式运行机器学习力场模型，使用 Python 代码快速可视化机器学习力场模型在等变与不变设计上的区别，使用多种机器学习的降维方法结合 K-Means 聚类从分子模拟轨迹中以低冗余方式提取多帧结构文件，NequIP 模型的超参数介绍和使用，复现 Nat. Commun.文章结果，使用 wandb 进行超参数调优与训练过程中各种信息的可视化分析。

第四天：聚焦高效/高精度等变模型与通用大模型

第四天主要聚焦高效/高精度的基于 ACE 的等变模型，介绍 ACE 方法、消息传递和等变框架的集大成者 MACE 模型及其在多个领域的应用，认识机器学习力场领域的 ChatGPT 模型及通用大模型，包括有机分子体系的通用大模型 MACE-OFF23、几乎涵盖元素周期表所有元素的材料领域的通用大模型 MACE-MP0 以及其他大模型，介绍适用于大规模 GPU 并行框架的等变模型如 Allegro 模型和 SevenNet 模型。实操部分包括 MACE 模型和 Allegro 模型的超参数介绍和使用经验，MACE 模型与 DeePMD 模型的对比，Libtorch 与 LAMMPS 软件的编译，机器学习力场领域的 ChatGPT 的使用与分析，快速上手 MACE-OFF23 和 MACE-MP0 模型，对通用大模型进行微调与分析，以及 DPA-1 和 DPA-2 的介绍与特点。

详细课表如下：

《基于机器学习的分子动力学》

1. 第一天理论内容

a) 诺贝尔奖的AI元年

i. AI与 SCIENCE的交叉：

b) 科学研究的四范式

i. 从大数据时代到AI4SCIENCE时代，如Google DeepMind/微软研究院/Meta FAIR等著名AI团队的AI4SCIENCE工作介绍

c) AI4SCIENCE时代的分子动力学模拟

i. 分子模拟基本方法与发展历史

ii. 经验力场与第一性原理方法的对比与区别

iii. 机器学习力场方法的兴起

d) 基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势，以及相关支撑项目

e) 机器学习的分子动力学的特点，分类和工作流程

f)数据集的常见收集方式与建议

2. 实操内容

a) Linux系统与超算服务器的常规操

i. ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常见操作

b) 虚拟环境(Anaconda或Mamba)的使用

i. conda create/activate/deactivate/install/info/env等命令

c) Python的集成开发环境(IDE)的介绍与基本使用

i. Python的基本数据类型

ii. Pycharm的常见用法与代码调试，以及虚拟环境的配套

d) 分子模拟软件介绍

i. LAMMPS的入门与使用

1. 软件发展趋势与特点

2. 大规模并行的原理：域分解算法介绍

3. 输入文件的详细解析与注意事项

4. 相关势函数和晶格常数的获取渠道

5. 分子模拟轨迹的后处理与分析：径向分布函数与扩散系数

6. 机器学习势函数在LAMMPS中的使用

ii. OpenMM的入门与使用

1. 软件发展趋势与方法特点

2. 运行脚本与注意事项

3. GAFF(Amber)力场的简要介绍

4. 使用sobtop软件和Python快速、自动化生成任意有机分子的力场参数文件（同时也适用GROMACS）

e)量子化学计算软件的介绍与快速上手

i.量子化学中常见理论方法的分类与区别，DFT相关泛函的简要介绍

ii. CP2K软件的介绍与快速上手：

1. 软件发展趋势与特点

2. 安装与使用，以及赝势文件的介绍与获取

3. 使用MULTIWFN软件快速生成CP2K的单点能或分子动力学模拟的输入文件

4. 输入文件的字段解释与注意事项

5. 使用Python实现自动化提交任务与任务后处理

6. 在CP2K中使用GFN1-xTB方法，适合新手快速入门的理论方法

iii. ORCA软件的介绍与特点：

1. 软件发展趋势与特点

2. 使用MULTIWFN软件快速生成单点能或分子动力学模拟的输入文件，以及注意事项

3. 使用Python实现自动化提交任务与任务后处理

4. ωB97M-V泛函的介绍与在ORCA中的使用

iv.XTB软件的发展介绍与特点：

1.软件发展趋势与特点：发展迅猛！年被引用增长率高达87%；能够执行单点能，几何优化，分子模拟等功能

2. 安装与常用命令

3. GFN系列方法的简要介绍

4. 使用Python实现自动化提交任务与任务后处理

v. DFTB(简单介绍)

1. 执行单点能，几何优化，分子模拟等

2. 使用Python实现自动化提交任务与任务后处理

f) 案例：传统力场方法与机器方法力场方法的对比

i. 使用OpenMM执行有机体系的分子模拟

ii. 基于机器学习力场方法，结合LAMMPS执行合金体系，锂电池体系的分子模拟

iii. 使用MDtraj等软件进行模拟结果的后处理分析与Python高质量科研绘图，包括：能量与力的预测曲线，径向分布函数，键长键角二面角分布，电池电压曲线等．

3. 第二天理论内容（机器学习力场的模型设计）

a) 机器学习与深度学习的快速入门

i. 常见概念与分类

ii.机器学习的发展历史以及通用近似理论：

1.通过交互的可视化案例，理解神经网络的通用近似理论

2. 解释神经网络对GPU的依赖

iii. 神经元，反向梯度下降，损失函数，过/欠拟合，残差连接等基本概念

iv. ANN, CNN, RNN, TRANSFORMER,ResNet等经典深度神经网络的基本框架的介绍与特点

v. 相关学习资源的推荐

vi. Pytorch与Tensorflow的发展现状

b) 科学领域的机器学习模型介绍

i.AI模型在SCIENCE领域需要遵守的几个物理约束/物理对称性

ii.高效描述局部环境方法的分类与特点

1. 基于核方法或深度神经网络方法

2. 基于描述符或分子图方法

iii. 基于描述符的机器学习力场模型

1. HDNNPs(BPNN)模型详解与发展

a) 机器学习力场的开篇工作

2. 有机体系的ANI模型的介绍

3. 生态最好的机器学习力场模型

a) DeePMD系列工作的详解

b) DeePMD的发展和几种描述符的介绍，特点与应用

c) DeePMD的压缩原理与特点

d) DPGEN的工作原理

iv. 基于图框架的机器学习力场模型

1. 图神经网络、图卷积网络和消息传递神经网络的发展与理解

2. 图神经网络的机器学习力场模型的经典模型

3. SchNet模型的特点与代码实现

4.基于三维空间建模的完备性与效率的几何系列模型:

a)DimeNet, SphereNet和ComENet模型的详解与比较

5. 其他机器学习力场模型概述：DTNN和PhysNet等

c) 实操内容

i. DeePMD的离线安装与验证测试

ii. DeePMD输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解，及使用经验

iii. DeePMD的常见功能，包括训练，重启，冻结，压缩和测试

iv. DeePMD的常见问题与训练过程的分析

v. 综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟

vi. 分子模拟的数据后处理与分析

vii. DPGEN软件的安装，介绍与工作流程

viii. DPGEN软件的输入和输出文件：param.json和machine.json文件的参数详解

ix. DPGEN软件跨计算分区的提交任务示例；不同量化级别方法的示例

x. DPGEN软件的常用命令与使用经验，以及不同体系收敛的参考标准

4. 第三天（高级课程 —— 等变模型系列，领域热点）

a) 不变系列模型的总结

b)等变模型的概念，特点，分类和应用

c)等变的概念

d) 等变模型的分类与特点

e) 高阶等变模型的介绍：超高数据利用率与优秀的泛化能力

f) 群的简要介绍

g) SO(3)群的简单入门与张量积

h) 欧式神经网络(E3NN)的介绍与注意事项

i) 高阶等变模型与传统模型，经验力场的区别

j) 常见误区的提醒

k) 等变机器学习力场的经典模型

i. Nat. Commun.上高被引的NequIP模型的详解和代码框架

l) 实操内容

i. DeePMD软件的进阶使用与补充讲解，包括多GPU并行训练

ii. LAMMPS以多GPU并行方式运行机器学习力场模型

iii. 使用Python代码快速可视化机器学习力场模型在等变与不变设计上的区别

iv. 使用多种机器学习的降维方法，结合K-Means聚类，从分子模拟轨迹中以低冗余方式提取多帧结构文件。

v. NequIP模型的超参数介绍和使用

vi. 复现Nat. Commun.文章结果，包括计算径向分布函数、键角分布等性质

vii. 使用wandb进行超参数调优与训练过程中各种信息的可视化分析

5. 第四天

a) 高效/高精度的基于ACE的等变模型

b) ACE方法，消息传递和等变框架的集大成者：MACE模型

c) 方法的完备性，效率和系列发展

d) MACE模型在多个领域的应用

e) 机器学习力场领域的ChatGPT模型

f) 有机分子体系的通用大模型：MACE-OFF23

g)几乎涵盖元素周期表所有元素的材料领域的通用大模型：MACE-MP0

h)其他大模型的简要介绍

i) 适用于大规模GPU并行框架的等变模型

i. 消息传递模型的不足

ii. NequIP团队在Nat. Commun.上的新作－－Allegro模型的方法详解与比较

iii. SevenNet模型的介绍与比较

j) 实操部分

i. MACE模型和Allegro模型的超参数介绍和使用经验

ii. MACE模型与DeePMD模型的对比，包括精度，数据效率等

iii. Libtorch与LAMMPS软件的编译

iv. 机器学习力场领域的ChatGPT的使用与分析

v. 快速上手MACE-OFF23和MACE-MP0模型

vi. 对通用大模型进行微调与分析

vii.DPA-1和DPA-2的介绍与特点

机器学习第一性原理

第一部分：第一性原理基础和Python编程

1. 理论内容

(1) 课程引言

① 深度学习在第一性原理的应用和优势

② 课程内容安排

(2) 第一性原理计算介绍

① 第一性原理计算的发展历程——从薛定谔方程到密度泛函理论

② 密度泛函理论（DFT）——从波函数到电子密度

③ 常用的原子建模环境软件——ASE和pymatgen

④ 常用的第一性原理计算软件——VASP和GPAW

2. 实操内容

(1) Linux系统的常用命令和超算服务器的使用

① 命令行终端软件——iTerm和Xshell

② ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch等命令行操作

③ vim文本编辑

(2) Python编程语言基础和集成开发环境(IDE)的介绍

① 数据类型、函数、类和对象、模块

② Pycharm软件的使用和常见用法

(3) Python环境管理软件Anaconda的使用

① 使用Conda命令创建环境、安装Python库

② 使用Conda命令管理环境和环境的回溯

③ Pytorch的安装和调用GPU训练模型

(4) 原子建模环境软件ASE的使用

① 使用ASE对体系结构进行建模，得到cif文件

② ASE和GPAW软件结合使用

(5) 第一性原理计算软件GPAW的使用

① 第一性原理计算软件的参数设置和结果收敛性检查

② 以晶体材料为例，使用GPAW进行第一性原理计算

③ 体系能量、原子受力和极化等性质的计算

第二部分：深度学习在第一性原理计算中的应用—神经网络势函数（一）

1. 课程内容

(1)深度学习的发展历程和优势

① 人工神经网络与万能近似定理

② 以ResNet为例入门深度神经网络

③ 常用的神经网络框架——Pytorch介绍

④ 人工智能课程相关的学习资源推荐

(2)神经网络势函数

① 从高斯核回归到神经网络势函数

② 神经网络势函数的基本假设——局域性假设和对称性要求

③ 原子结构和周围化学环境的表征

④ BPNN描述符和DP深度神经网络势函数

⑤ 神经网络势函数作为分子动力学模拟的力场模型

2. 实操内容

(1) 深度学习项目实践——ResNet残差网络用于手写数字识别

① 手写数据集的准备

② 训练ResNet模型

③ ResNet模型的测试和评估

④ 熟悉Pytorch的使用

⑤ 熟悉使用GPU训练神经网络模型

(2) DeePMD的使用

① DeePMD的离线安装与测试

② DeePMD模型的训练和验证

③ 使用DeePMD模型进行高效的分子动力学模拟

④ 数据的处理和分析

⑤ 使用wandb可视化训练过程

第三部分：深度学习在第一性原理计算中的应用—神经网络势函数（二）

1. 课程内容

(1) 图神经网络和MPNN消息传递神经网络

① 具有不变性的消息传递神经网络

② 晶体图卷积神经网络CGCNN

③消息传递神经网络的一般框架和组成

(2)SchNet和DimeNet++等不变消息传递神经网络的介绍

① SchNet和DimeNet++的特点

② DimeNet++中角度信息的引入——球谐基函数

③ 深入理解消息传递过程——图卷积

④ 图卷积和图像卷积的区别

2. 实操内容

以不变消息传递神经网络SchNet为例，介绍SchNetPack的安装和使用，包括：

① QM9数据集的准备

② 使用QM9数据集训练SchNet模型

③ 模型对体系能量和原子受力预测精度的评估

④ 将SchNet模型用于分子动力学模拟

⑤ 原子对径向分布函数等性质的计算

第四部分：深度学习在第一性原理计算中的应用—神经网络势函数（三）

1. 课程内容

(1) 具有等变性的消息传递神经网络

① 等变的概念

② 等变性和不变性的区别

③ 理解等变性——群论的初步介绍

④等变消息传递神经网络和不变等变消息传递神经网络的对比

(2)常见的等变模型——PaiNN、NequIP和Allegro模型

① PaiNN——通过距离矩阵实现等变性

② NequIP和Allegro——通过不可约表示实现等变性

2. 实操内容

(1) 高精度、轻量化的PaiNN等变神经网络

① PaiNN模型代码的详解

② PaiNN模型的训练和使用

③ SchNet和PaiNN模型的对比——精度

④ 切身体会不变性和等变性消息传递神经网络的区别

(2) NequIP模型的安装和使用，以及Nature Communications顶刊论文结果复现

① NequIP软件包的安装

② 超参数的设置和介绍

③复现Nature Communications论文结果

第五部分：深度学习在第一性原理计算中的应用——高阶内容

1. 课程内容

(1) 在神经网络势函数模型中加入长程相互作用

① 使用神经网络预测离子电荷

② 基于离子电荷计算长程相互作用

(2)利用神经网络对密度泛函理论哈密顿量进行建模

①DeepH方法

②深度学习密度泛函微扰理论（DFPT）方法

(3) 课程进阶：通用原子体系大模型——MACE框架

① 原子簇展开（ACE）方法

② MACE：MPNN和ACE方法的结合

2. 实操内容

(1) Allegro模型的安装和使用以及Nature Communications顶刊论文结果复现

① Allegro代码框架详解

② Allegro软件的安装和使用

③ Allegro和LAMMPS分子动力学软件结合使用

④Nature Communications论文结果复现，

(2)声子谱的计算

① 使用Phonopy软件计算固体材料的声子谱

②使用深度学习势函数加速声子谱的计算

免费赠送录播课程（可以滑动查看）

一、机器学习材料

二、深度学习材料

三、材料基因组

四、CP2K专题

机器学习材料

第一天

理论内容

1.机器学习概述

2.材料与化学中的常见机器学习方法

3.应用前沿

实操内容

Python基础

1.开发环境搭建

2.变量和数据类型

3.列表

4.if语句

5.字典

6.For和while循环

实操内容

Python基础（续）

1.函数

2.类和对象

3.模块

Python科学数据处理

1.NumPy

2.Pandas

3.Matplotlib

第二天

理论内容

1.线性回归

1.1 线性回归的原理

1.2 线性回归的应用

2. 逻辑回归

2.1原理

2.2 使用方法

3. K近邻方法（KNN）

3.1 KNN分类原理

3.2 KNN分类应用

4. 神经网络方法的原理

4.1 神经网络原理

4.2神经网络分类

4.3神经网络回归

实操内容

1.线性回归方法的实现与初步应用（包括L1和L2正则项的使用方法）

2.逻辑回归的实现与初步应用

3.KNN方法的实现与初步应用

4.神经网络实现

项目实操

1.利用机器学习设计高体积模量高熵合金

2.训练机器学习模型预测多孔材料的催化性能

这两个实操项目同时穿插讲解如下内容

A1 机器学习材料与化学应用的典型步骤

A1.1 数据采集和清洗

A1.2 特征选择和模型选择

A1.3 模型训练和测试

A1.4 模型性能评估和优化

第三天

理论内容

1．决策树

1.1决策树的原理

1.2决策树分类

2．集成学习方法

2.1集成学习原理

2.2随机森林

2.3Bosting方法

3．朴素贝叶斯概率

3.1原理解析

3.2 模型应用

4. 支持向量机

4.1分类原理

4.2核函数

实操内容

1.决策树的实现和应用

2.随机森林的实现和应用

3.朴素贝叶斯的实现和应用

4.支持向量机的实现和应用

项目实操

1.使用实验数据训练机器学习模型预测金属有机框架材料中的气体吸附

2.通过机器学习方法筛选新型四元半导体化合物

这两个实操项目同时穿插讲解如下内容

A1 模型性能的评估方法

A1.1 交叉验证：评估估计器的性能

A1.2 分类性能评估

A1.3 回归性能评估

第四天

理论内容

1. 无监督学习

2.1 什么是无监督学习

2.2 无监督算法——聚类

2.3 无监督算法——降维

2. 材料与化学数据的特征工程

2.1分子结构表示

2.2 独热编码

3. 数据库

3.1材料数据库介绍

3.2 Pymatgen介绍

实操内容

1. 分子结构的表示与特征提取

2. 聚类、降维等无监督学习方法应用于分子特征处理

项目实操

1. 在机器学习技术的指导下加速钙钛矿材料的发现

2. 机器学习对CO2 封存的解释和预测

第五天

项目实操

１. 基于分子特征和逻辑回归预测分子性质

2. 基于分子特征的无监督学习综合应用

项目实操

1. 通过机器学习预测 NiCoFe 氧化物催化剂的活性

2. 利用基于成分的能源材料描述符进行机器学习模型的综合预测

学习目标

机器学习（ML）在材料研究中的应用，让学员能够掌握学习理论知识及熟悉代码实操，文章的复现，学会anaconda、Python、pymatgen等软件、以及机器学习数据采集及清洗、分子结构表示及提取、模型训练和测试、性能评估及优化，KNN、线性回归方法，学会机器学习材料预测，材料分类，材料可视化，多种机器学习方法综合预测等操作技能，独自完成自己的课题研究项目

深度学习材料

第一天上午

理论内容

1.材料数据库：介绍Material Project, OQMD, AFLOW等数据库的特点和使用方法。

2.深度学习入门：基础概念，包括神经网络、激活函数、损失函数等。

3.图神经网络：图神经网络的基本原理和在材料科学中的应用。

4.材料特征工程：如何从材料数据中提取有用的特征。

实操内容

Pytorch深度学习框架演练：安装和配置Pytorch，基础的神经网络模型构建和训练。

第一天下午

实操内容

1.Pymatgen介绍及结构文件生成

2.Pymatgen构建机器学习特征：

3.ASE（Atomic Simulation Environment）的使用

4.爬虫获取二维数据集

5.材料结构分析与可视化

第二天上午

实操内容

1. AFLOW数据库的数据获取

1.1 AFLOW数据库功能练习

1.2. 爬虫获取AFLOW数据库的数据

2. OQMD数据库

2.1 OQMD数据库功能练习

2.2 OQMD数据库的数据获取

第二天下午

实操内容

1. material project数据库

1.1 新版material project获取材料XRD、DOS图、能带图、吸收谱等数据

1.2 Pymatgen按照属性要求获取material project材料数据

2. 材料特征工程工具matminer演练

2.1 matminer获取材料数据集

2.2 matminer生成材料描述符演练

第三天上午

理论内容

卷积神经网络（CNN）基础

卷积层、池化层、卷积核、特征图

经典的CNN架构，如LeNet、AlexNet、VGGNet、GoogLeNet和ResNet

循环神经网络（RNN）基础

时间步和隐藏状态、梯度消失和梯度爆炸、RNN的变体

实操和演示内容

基于CNN方法训练扫描电镜图像对锂离子阴极成分及状态的预测

基于RNN和CNN辅助识别有序结构

第三天下午

实操内容

基于数据驱动的功能材料开发案例二（晶体图神经网络实现材料属性预测）：

1. 用PYG搭建图神经网络（GCN、GAT）

2. 晶体图神经网络CGCNN模型代码原理

3. 利用晶体图神经网络实现材料属性预测

第四天上午

理论内容

长短期记忆网络、门控网络的架构与原理

输入门、遗忘门、输出门

自注意力机制、多头注意力机制、位置编码、残差连接、编码器和解码器

Transformer

实操内容

基于LSTM、GRU的分子生成模型

Transformer用于聚合物性质预测

第四天下午

理论内容（约1小时）

自回归模型、自编码器、序列生成模型

变分自编码器（VAE）基础

生成对抗网络（GAN）基础

实操内容（约2小时）：

GAN模型的构建

训练GAN进行材料属性预测

GAN在材料设计中的案例研究

自编码器和变分自编码器的训练

变分自编码器在材料设计中的应用

培训目标

1.学习Material Project，AFLOW，OQMD三大材料数据库的数据获取方法。

2.学习卷积神经网络、循环神经网络和晶体图神经网络等深度学习方法在材料预测方面的应用。

3.学习主流材料数据库的数据获取方法；

4.深度学习方法在材料预测方面的应用。

部分案例图片

材料基因组

第一天

Python讲解与实操

理论内容：

1.材料基因组概述

2.材料基因组的基本方法

3.材料数据库material project, OPMD, AFLOW

实操内容：

Python基础

1.开发环境搭建

2.变量和数据类型

3.列表

4.if语句

5.字典

6.For和while循环

实操内容：

Python基础（续）

1.函数

2.类和对象

3.模块

4.Python科学数据处理

5.NumPy

6.Pandas

7.Matplotlib

第二天

材料基因组与数据库

实操内容：

1. Scikit-learn机器学习操作入门（约1小时）

2. AFLOW数据库

2.1 AFLOW数据库功能练习

2.2. AFLOW数据库的数据获取

实操内容：

1. OQMD数据库

1.1 OQMD数据库功能练习

1.2 OQMD数据库的数据获取

2. material project数据库

2.1 Pymatgen练习

2.2 Pymatgen获取material project材料数据

第三天

结构数据驱动的高通量计算

实操和演示内容：

基于结构数据驱动的高通量计算：

1. pymatgen大批量结构获取

2. 基于pymatgen的计算文件生成

3. 大批量计算结果的获取与统计

实操内容：

案例一：基于数据驱动的功能材料开发（合金材料）

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评测

穿插常见机器学习算法的介绍

第四天

基于数据驱动的多个功能材料开发案例实操

案例二：基于数据驱动的功能材料开发（半导体材料）

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评测

穿插材料特征工程的介绍

案例三：基于数据驱动的功能材料开发（钙钛矿材料）

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评测

CP2K专题

第一天

CP2K与量子力学

理论内容

1. CP2K框架

2. DFT（密度泛函理论）基础

3. CP2K的核心：GAPW（Gaussian-augmented plane wave approach）介绍

4. CP2K的input

QM（量子力学）计算实操内容-1

1. 基组文件和势场文件选取

2. 分子体系单点能计算

3. 分子结构优化

4. 分子结构和电子结构的可视化

理论内容

1.分子动力学模拟介绍

2.周期性边界条件

3.MD模拟系综

4.势函数

MM（分子力学）计算实操内容-1

1. 溶剂体系的构造与可视化

2. L-J势场的参数设置

3. 利用L-J势场对溶剂体系的模拟

4. 分子动力学模拟分析（径向分布函数RDF，均方位移MSD，模拟退火…）

第二天

量子力学实操

理论内容

1. 周期性体系

2. 平面波与倒空间

3. DOS（态密度）知识基础

4. 能带知识基础

QM（量子力学）计算实操内容-2

　 1. 晶体结构的获取与可视化

2. 晶体结构的单点能和结构优化

3. ＤＯＳ计算和分析

4. 能带计算和分析

理论内容

CP2K、GROMACS和力场类型介绍

MM（分子力学）计算实操内容-2：

1. CP2K、GROMACS计算MD详解

2.热浴、退火计算与分析

3.VMD可视化轨迹与分析

4.Gromacs对轨迹进行后处理分析

5.自由能势能面的模拟

第三天

量子力学实操

理论内容

1. 晶体表面和晶面指数

2. 过渡态理论介绍

QM（量子力学）计算实操内容-3

1. 晶体表面的构造与可视化

2. 晶体表面的结构优化

3. 晶体表面的分子吸附与成键状态分析

4. NEB方法计算离子迁移路径

理论内容

1. AIMD（从头计算分子动力学）的基本知识和应用

2. 自由能势能面介绍

AIMD（从头计算分子动力学）计算实操内容

1.Cu颗粒熔化过程的MD模拟

2.Cu颗粒在CO2中结构演变的MD模拟

3.催化剂作用下N2分解的二维自由能曲面计算

第四天

QM+MM

理论内容

元动力学（metadynamics）介绍

QM（量子力学）计算实操内容-4

1. metadynamics方法的关键参数设置

2. metadynamics方法计算分子解离过程

3. 锂离子电池电极材料锂离子迁移过渡态的计算

理论内容

1.QM/MM理论介绍

2.QM/MM在不同体系的应用

QM/MM计算实操内容-2

1. 一般的溶剂化蛋白的处理流程

2. 蛋白晶体的准备

3. 结构的能量最小化

4. 对体系的预平衡

5. 无限制的分子动力学模拟

6. RMSD、RMSF、能量变化及蛋白的回旋半径分析

第五天

QM+AIMD

理论内容

1. TDDFT计算激发态的介绍

2. 振动熵和零点能的计算

QM（量子力学）计算实操内容-5

1. 分子激发态的计算和结果分析

2. 电化学催化ORR（氧还原反应）过程的计算矫正和台阶图绘制

理论内容

1.不同体系下AIMD建模

2. CP2K电子结构与MD

文献案例分析实操内容

1.AIMD研究Au/TiO2对CO的催化机理

2.利用DFT和AIMD研究N5H对CO2的催化机理

讲师介绍

机器学习分子动力学

主讲老师来自国内高校胡老师授课，已发表SCI论文近20余篇，研究方向为基于机器学习的分子动力学模拟，包括构建高效、高精度的AI分子力场模型，采用主动学习或大模型的知识蒸馏方法来获取高质量训练数据集，开发基于C++的高性能的多GPU并行的LAMMPS的插件。熟知各种AI模型DeePMD, SchNet, DimeNet, SphereNet, DPA2和等变系列模型的Nequip, MACE, Allegro等，精通所有量子化学软件！

机器学习第一性原理

主讲老师来自国内985重点高校，拥有两年海外留学经历，计算物理和计算材料研究方向，参与多项国家自然科学基金面上项目。熟悉深度学习方法和第一性原理计算及相关软件的使用，具有丰富的编程经验，对深度学习方法应用于第一性原理计算有深入的研究和优秀的成果，在Physical Review Letters、Physical Review B等PR系列期刊和Journal of Physical Chemistry C等期刊上发表15余篇论文。

授课时间

机器学习分子动力学

2024.12.21-----2024.12.22（上午9:00-11:30 下午13:30-17:00）

2024.12.28-----2024.12.29（上午9:00-11:30 下午13:30-17:00）

机器学习第一性原理

2024.12.23-----2024.12.26（晚上19:00-22:00）

2024.12.30-----2024.12.31（晚上19:00-22:00）

2025.01.04-----2025.01.05（上午9:00-11:30 下午13:30-17:00）

培训费用

机器学习分子动力学机器学习第一性原理

公费价：每人每个课程￥4980元（含报名费、培训费、资料费）

自费价：每人每个课程￥4680元（含报名费、培训费、资料费）

优惠福利：

福利一：同时报名两个课程￥9680元报二赠一（含报名费、培训费、资料费）

参加一年课程价格：16680元（含报名费、培训费、资料费）

福利二：现在报名一门赠送一门往期课程回放

报名两门赠送四门往期回放

优惠三：提前报名缴费学员可得300元优惠（仅限前15名）

报名费用可开具正规报销发票及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握 3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高！

学员对于培训给予高度评价

报名咨询联系方式

报名咨询方式（请二维码扫描下方微信）

联系人：叶老师

报名电话：13838281574 ( 微信同号）

邮箱：y13838281574@163.com

引用往期参会学员的一句话：

发现真的是脚踏实地的同时需要偶尔仰望星空非常感谢各位对我们培训的认可！祝愿各位心想事成！

http://mp.weixin.qq.com/s?__biz=MzkzMzMzNzU1OA==&mid=2247496700&idx=1&sn=78bab3fbcc2b26f76614cb9b8e07c9f6

水处理文献速递

分享水处理相关的前沿科学成果