Nature重磅成果 | 材料科学与大语言模型的最新成果

文摘   2024-07-16 08:02   广东  


在当今的科学研究中,材料科学与人工智能的结合正成为推动创新的关键力量。本课程《材料与大模型》《材料计算与机器学习》将引导学生深入探索这一交叉领域。我们将直面材料科学领域中的一些具体难点,如复杂材料系统的多尺度模拟、高通量材料数据库的构建与分析、以及材料性能预测的准确性和可靠性问题。课程将通过讲授和实践相结合的方式,帮助学生掌握如何运用大模型和机器学习技术来克服这些挑战。利用先进的大模型和机器学习技术,我们可以在有限的预算内实现更卓越的科研成果。让我们携手向顶尖学术期刊发起挑战,共同攀登2024年科研领域的高峰!

 1.材料与大模型            

 2.材料计算与机器学习



专题一:材料与大模型





第一天上午 

大模型介绍

1.       大模型介绍与发展历程

2.       大模型技术在材料化学中的研究现状

3.       大模型训练的基础设施和资源需求

  开源大模型本地部署硬件指南

  需要准备的工具和环境

  大模型必备:Linux操作系统入门介绍

实操:

通过Azure OpenAI使用GPT模型流程

1、注册微软Azure账号 

2、申请和配置Azure OpenAI

3、部署模型和调用Azure OpenAI API

第一天下午

1.       在线大模型理论讲解与prompt实战

2.       在线大模型GPTGLM4生态介绍

3.       ChatGPTChatGLM系列模型的发展历程 (1 -4)模型剖析

4.       在线大模型GPTGLM4调用函效全参数详解

5.       控制大模型输出0neshot & Few-shot提示学习法

实操:

代码环境调用API流程

与大语言模型对话

·        生成晶体信息文件,

·        空间群对称性

·        大模型阅读理解材料论文

第二天上午 

1.       在线大模型微调与实战

·        0penAl fine-tuning创建方法

·        0penAI在线微调

Ø  实战例子:材料科学论文摘要生成工具

  数据准备:收集材料科学论文和对应的摘要数据集;

  应用展示:展示模型生成的摘要,并与人工摘要进行对比。

第二天下午

1.       开源大模型理论讲解

·        开源中文大语言模型:ChatGLMBaichuanYi-34B

·        开源英文大语言模型:LLaMAMistralphi

2.       开源大模型的私有化部署

·        开源大模型的迭代和架构变化

·        开源大模型的私有化部署

3.       微调模型的方法和建议

4.       开源大语言模型用于材料合成

实操

1.        ChatGLMBaichuanYi-34B 调用

2.        LLaMAGemmaphi模型的部署与调用

3.         Qwen  YI 大模型的私有化部署

4.        训练以及部署微调模型,模型部署与应用

5.        LLaMA 模型微调的案例分析

  文档读取和解析

  文档的切分和文档向量化

  提示模版与大模型 API 接入

Ø  实战例子使用会话语言模型快速从研究论文中提取准确的材料数据

  ChatGPT等对话式提取金属玻璃的临界冷却率

  ChatGPT等对话式提取高熵合金的屈服强度

  三元[材料、值、单位]的形式提取材料属性

  使用精度和召回评估

第三天上午

微调详解

1.       提示工程技术

·        提示词的常见结构与模版化

·        In-context learning

·        Chain of thought prompting

·        模板学习与Prompt设计

2.       高效微调技术

·        LoRAQLoRA

·        Prefix Tuning

·        Prompt Tuning

·        p-Tuning v2方法

3. fine-tune过程中模型超参数等调整

Ø  实战例子:大型语言模型(Llama-3GPT模型)提取的燃料电池材料的属性和应用

·        微调Llama-3GPT模型

·        大型语言模型模型性能评估

第三天下午

·          高效微调框架LLaMA-Factory

·        LLaMA-Factory介绍

·         LLaMA-Factory基本用法

实战例子: 使用LLaMA-Factory 微调模型解决材料化学领域任务(信息提取)

  环境配置

  数据集配置

  模型微调和调用

第四天上午

1.       多模态大模型基础

2.       多模态的应用场景与最新进展

3.       DALLE-3  Midjourney

4.       Stable Diffusion  ControlNet

5.       使用OpenAI API处理语音转文本

Ø  实战例子: ChatGPT化学助理预测MOF合成

  • 基于ChatGPT的文本挖掘的设计

  • 提示工程设计

  • 大语言模型辅助Python代码生成和数据处理

  • MOF合成结果的预测建模

  • 探索大型语言模型的适应性和多功能性

第四天下午

1.       Ollama应用全面解析

  Ollama安装与运行

  Ollama 电脑端模型部署

2.       Ollama 移动端模型部署(TermuxOllama

3.       Gradio框架介绍和使用

Ø  实战例子:OllamaGradio打造个人智能助手

案例图片




专题二:材料计算与机器学习




第一天上午

  • 材料计算与机器学习的背景

  • 机器学习在材料科学中的应用与前景

  • 分析当前机器学习技术在材料科学领域的应用案例。

  • 安装Python和必要的机器学习库

  • Python基础教程:实操Python的基本语法和数据类型;环境搭建、基础语法、变量、运算符、字符串、列表、字典、集合等

第一天下午  

  • Python高级教程:Python条件语句、循环语句、循环嵌套、while语句;break语句、continue语句、pass语句等,自定义函数、面向对象、模块

  • Python科学计算库介绍:NumPy、Pandas和Matplotlib,机器学习工具,常用的机器学习库Scikit-Learn等

第二天上午  

  • 讲解第一性原理计算:薛定谔方程、波函数与电子状态、Hohenberg-Kohn定理、Kohn-Sham方程、交换-相关泛函、晶格的周期性、平面波与平面波基组、

  • 介绍VASP软件的基本操作和输入文件编写方法。

  • 详细指导如何编写VASP的输入文件,包括INCAR、KPOINTS、POSCAR等。

  • 演示如何提交VASP计算任务:命令行提交、作业调度系统提交、OSZICAR、OUTCAR

第二天下午

  • 介绍如何利用VASP进行材料性质的高通量计算和数据分析

  • 高通量计算策略、自动化脚本编写、数据分析方法、结构优化结果分析、性质预测与验证

  • 用机器学习预测二氧化碳还原催化剂的少特征模型

  • DFT和机器学习方法加速了具有高ORR和OER催化活性的DMSCs的发现

第三天上午

  • 介绍晶体结构、电子结构特点、能带计算流程、能带图的解读、态密度分析、电荷密度分析

  • 材料计算的特征工程:空间特征、拓扑特征、化学特征、物理特征、统计特征、信息熵、领域特定特征

  • VASP计算TiO2的电子能带结构和密度态、电荷密度、功函数

  • VASP和机器学习实现二维材料的高通量计算

第三天下午  

  • 讲解分子动力学模拟的基本原理:温度、压力与化学势、微观状态与系综选择、温度、压力与化学势、微观状态与系综选择

  • VASP-MD及机器学习力场计算:力场的构建与训练

  • 从头算分子动力学模拟AIMD后处理分析

第四天上午

  • LAMMPS输入文件的编写及任务提交

  • 指导如何编写LAMMPS的输入脚本,并提交计算任务。

  • in文件基本语法:结合实例,讲解in文件常用命令

  • 机器学习势VASP-LAMMPS接口PyXtal_FF

第四天下午

  • 通过案例展示LAMMPS在模拟材料力学性能方面的应用。

  • 介绍如何使用DFT数据集训练机器学习原子势,并使用LAMMPS进行验证。

  • 演示如何使用机器学习势(如MLIP)和LAMMPS计算特定材料的热导率

    案例图片

上课时间

材料与大模型

2024.08.01 --2024.08.04 全天授课(上午09:00-12:00,下午14:00-17:00)

材料计算与机器学习

2024.08.05 --2024.08.08 全天授课(上午09:00-12:00,下午14:00-17:00)



培训费用

公费价:材料与大模型课程¥5000元 (含报名费、培训费、资料费)

公费价:材料计算与机器学习课程¥5000元 (含报名费、培训费、资料费)



报名方式

19801252103

扫描二维码或电话咨询

可联系老师咨询课程详细内容



主讲老师

李博士长期从事化学和材料体系机器学习与理论研究,在大语言模型、数据挖掘和催化材料等领域拥有丰富的研究背景和实践经验。擅长Python编程、数据挖掘、数据处理与分析、机器学习框架、机器学习算法与模型等开发和应用。

张博士从事生物和材料体系理论模拟研究,在量子化学、分子模拟、第一性原理方面有长期深入的研究,擅长VASP、Gromacs、Python、CP2K等计算化学程序的开发和使用。




科泰催化
电催化入门,干货分享,科研交流
 最新文章