学习收获:
掌握前沿的大模型技术,包括各类基座模型、微调算法、推理方法、多模态技术、图算法和大模型的结合等 掌握每一种前沿算法背后的理论知识、以及应用场景,部分算法的讲解涉及到代码解读、从零算法实现、实战案例等 全面掌握2024上半年,新出现的最热门大模型技术
下面是两门课程的具体学习安排,感兴趣的朋友们欢迎扫码咨询。
大模型微调实战营-算法篇
介绍课程目标、安排和预期成果 明确对学员的要求和期望 概述课程中将探讨的项目和技术 讨论大模型技术的行业现状 推荐关注的工具和开源项目
大模型的定义和重要性 大模型发展历程和关键里程碑 预训练与微调的基本概念 大模型预训练、数据处理、微调、对齐 大模型训练的基础设施和资源需求 面临的挑战和未来发展方向
Transformer模型的基本架构 Self-Attention机制的原理和计算过程 Multi-Head Attention的设计和作用 注意力权重的计算和可视化 Self-Attention在模型中的作用和优势
Positional Encoding的概念和实现方法 Rotary Positional Embedding BPE tokenizer,SentencePiece Encoding Transformer中的Feed-Forward Networks Layer Normalization的原理和重要性 Transformer模型中的残差连接 编码器和解码器的结构差异
Transformer的训练策略和优化方法 参数初始化和学习率调度 Transformer模型的正则化技术 Attention机制的变种和改进 Greedy Decoding, Beam-search Top-K Sampling, Top-p Sampling Transformer源码解读
全量微调与高效微调的区别 Transformer模型微调的常见策略 选择合适的微调任务和数据集 微调中的挑战和最佳实践 评估微调效果的标准和工具
PEFT的安装 PEFT的使用说明,核心模块讲解 指令数据准备和预处理的技巧 实施微调的详细步骤 微调项目的性能评估和分析
GPT系列模型的发展历程 GP1到GPT4,GPT3模型剖析 GPT代码解读 InstructGPT模型剖析 Zero-shot Prompting Few-shot Prompting GPT模型的局限性和挑战
LLaMA模型的特点和技术创新 LLaMA模型的原理剖析 LLaMA源码解读 LLaMA与其他大模型的对比 LLaMA模型的训练和微调策略 面对LLaMA模型的未来发展方向
ChatGLM的架构和设计理念 ChatGLM模型解读 ChatGLM1到ChatGLM3的技术迭代 ChatGLM模型的优势和应用领域 ChatGLM模型微调和部署的实践指南 ChatGLM模型的评估和性能优化
Baichuan模型的概述和核心技术 Baichuan原理剖析和源码解读 Baichuan模型与其他模型的比较 Baichuan模型在特定任务上的应用 微调Baichuan模型的策略和技巧 Baichuan模型的局限
指令微调的定义与应用背景 指令微调与传统微调的对比 指令微调在大模型中的重要性 指令微调流程概览 指令微调的挑战与策略
矩阵和向量的基本概念 矩阵运算与性质 特征值和特征向量 矩阵分解(SVD)技术简介 矩阵在LoRA算法中的应用
LoRA算法的原理与动机 Lora中的Low-rank假设 LoRA的关键技术组件 LoRA算法的实现步骤 LoRA算法的优化与调试 LoRA算法源码解读
指令数据的重要性与来源 自动化和手动搜集指令数据的方法 指令数据的预处理和标准化 生成高质量指令数据的技巧 指令数据集的维护与更新 指令数据的人工质量评估与自动质量评估
Alpaca微调项目的设计与目标 准备Alpaca微调所需的指令数据 实施Alpaca微调的详细步骤 评估Alpaca微调效果的方法 分析与解决Alpaca微调中遇到的问题 解读Alpaca项目源码
AdaLoRA与LoRa的比较 动态改变矩阵权重的意义 SVD与AdaLoRA 训练AdaLoRA AdaLoRA源码解读 AdaLoRA案例讲解
Vicuna微调项目的背景与应用场景 ShareGPT数据收集 Vicuna微调的实施流程和技术细节 Vicuna微调效果的评估与分析 基于Vicuna微调项目的经验总结与展望
Quantization在深度学习中的作用与原理 常见的Quantization技术及其分类 模型Quantization对性能和精度的影响 Quantization的实践步骤和工具 模型Quantization的挑战与解决策略
QLoRA算法的定义和背景 QLoRA与LoRA的关键区别和改进 QLoRA算法的详细实现过程 4bit NormalFloat, double quantization QLoRA算法的优化和调试技巧 QLoRA源码解读
技术方案的设计 收集和预处理指令数据 基于PEFT进行QLora大模型微调 评估QLoRA微调之后的效果 分析QLoRA微调过程中遇到的问题及其解决方案
模型压缩的必要性和技术背景 常见的模型压缩方法概述 模型压缩与Quantization的关系 实施模型压缩的步骤和注意事项 模型压缩技术的最新研究进展
模型蒸馏的基本概念和工作原理 模型蒸馏在模型优化中的应用 不同蒸馏技术的比较和选择 实施模型蒸馏的具体方法 模型蒸馏技术面临的挑战及其解决策略
ZeroQuant算法的基本原理和应用背景 ZeroQuant在模型Quantization中的创新点 实现ZeroQuant的关键步骤和技术要求 ZeroQuant源码解读 ZeroQuant技术的局限性和未来方向
SmoothQuant算法的设计理念和核心技术 SmoothQuant与传统Quantization方法的区别 实施SmoothQuant算法的具体流程 SmoothQuant源码解读 SmoothQuant面临的技术挑战和改进路径
RLHF的起源和背景 RLHF在人工智能中的作用和重要性 强化学习与人类反馈:结合的优势 RLHF的主要应用领域和案例研究 从InstructGPT到GPT4
人类反馈在强化学习中的角色 不同形式的人类反馈:标注、偏好、指导 从人类反馈中学习:方法和策略 人类反馈数据的收集和处理 人类反馈强化学习的挑战和解决方案
PPO的起源和动机 PPO与其他策略梯度方法的对比 算法核心概念和原理 PPO的优势和局限性 PPO的应用领域和案例
强化学习基本概念介绍 数据在强化学习中的作用和重要性 状态、动作和奖励的数据结构 数据收集、处理和利用的方法 使用模拟环境进行数据生成和测试
策略梯度方法简介 优势函数和回报 基线的概念和作用 累积回报与折扣回报 探索与利用的权衡
目标函数和KL散度 裁剪目标函数的原理 多次迭代优化策略 广义优势估计(GAE) 重要性采样和策略更新
构建神经网络模型 实现PPO的优化循环 自适应学习率调整 调试和性能分析技巧 评估对齐之后的大模型
PPO变体和改进策略 处理高维输入和模型泛化 多智能体环境中的PPO应用 强化学习中的迁移学习和多任务学习 强化学习中的安全性和可解释性
项目需求分析和技术方案设计 环境设置和任务定义 对齐数据的收集和预处理 实现PPO训练流程 结果分析和性能优化
DPO(Direct Preference Optimization)介绍 与PPO算法对比 DPO的应用场景和重要性 基本原理和工作机制 DPO算法的优势和挑战
偏好与排序问题在AI中的角色 数据表示:成对比较和偏好矩阵 偏好学习的挑战 排序和偏好预测的评估指标 经典偏好学习算法概览
偏好建模的数学框架 直接与间接偏好优化的对比 DPO中的关键算法组件 成对比较数据的处理方法 DPO的损失函数和优化策略
数据整理与预处理 构建偏好学习模型的步骤 使用Python实现基础DPO模型 在benchmark上测试DPO性能 DPO的优势和缺点
推荐系统中的偏好学习 设计DPO驱动的推荐算法 处理实时用户反馈 实施DPO进行推荐模型微调 评估推荐系统的性能
多任务学习与DPO的结合 DPO在非监督学习中的应用 深度学习方法与DPO 交互式偏好学习 DPO技术的变种
Prefix Tuning的基本原理 实现Prefix Tuning的关键步骤 Prefix Tuning源码解读 Prefix Tuning与其他微调方法的比较 在NLP任务中应用Prefix Tuning的案例 Prefix Tuning的局限性和挑战
Adaptor Tuning的基本原理 如何在大模型中插入Adaptor层 Adaptor Tuning的优点和应用场景 Adaptor Tuning源码解读 实际案例:Adaptor Tuning在分类任务中的应用 Adaptor Tuning的效率和扩展性问题
Flash Attention的设计思想和算法原理 优化Transformer模型中的注意力机制 Flash Attention在提升处理速度和效率上的作用 应用Flash Attention改进大模型的案例分析 Flash Attention的实现挑战和解决方案
介绍Flash Attention 2与前版本的区别 深入探讨Flash Attention 2的技术改进点 Flash Attention 2在复杂任务处理中的应用示例 评估Flash Attention 2的性能和适用范围 Flash Attention 2的实现细节和调优建议
KTO算法背景和理论基础 Kahneman-Tversky优化在微调中的应用 实施KTO的关键技术步骤 KTO在提高决策质量中的角色 KTO应用案例和性能分析
结合QLoRA和Flash Attention的微调策略 任务选取和数据准备 微调流程详解:从预处理到模型评估 分析微调后模型的性能改进 面临的挑战及解决方案分享
增量学习(Continual learning)的重要性 与传统从零训练的对比 增量学习的应用场景 任务选取和数据准备 微调流程详解:从预处理到模型评估
什么是灾难性遗忘 解决灾难性遗忘的思路 正则化、动态网络架构、元学习 通用数据与垂直数据的混合训练 数据中的信息分析 调整学习率
增量学习在大规模数据集上的应用 多模态与跨领域增量学习 自适应学习和在线学习技术 强化学习与增量学习的结合 未来增量学习的发展方向
大模型高级研修班
多头自注意力机制:Query, Key, Value机制 Multi-query attention 位置编码技术 层归一化与残差连接 案例:剖析LLama3模型结构
预训练、微调与对齐过程 SFT与LoRA微调 对齐与DPO 处理长距离依赖 处理更长的上下文 梯度下降变体
Transformer与Seq2Seq各自有缺点 Differential Equation基础 选择性状态空间模型(SSMs) Discretization, Recurrent计算 The HIPPO矩阵 基于Pytorch实现一个基本的Mamba块
局部卷积宽度及其重要性 Selective Scan 整体模型架构 Mamba的优化策略 与Transformer优化的比较分析
Mamba与Mamba2的区别 Mamba2中的高级SSMs 结构状态空间对偶性 SSMs和Transformers之间的等价性 块分解技术 面向硬件的实现 高效投影和归一化 实践:在Mamba2中实现高维SSMs
文本生成与文本摘要生成 机器翻译与情感分析 基于Mamba构造大模型 基于Mamba构造多模态大模型 医疗、金融领域的应用
混合架构设计基础 SSMs与Transformer注意机制的集成 结合Mamba和Transformer方法的优点 Jamba模型剖析 多模态注意力和状态空间集成 跨模态嵌入对齐
KANs vs MLPs Kolmogorov-Arnold representation theorem 基础架构 Convolutional KANs (CKANs) 训练KANs 实践:从零实现KANs
必要的数学知识 - 低秩分解 LoRA的核心原理 LoRA中的各类参数设置 优化并获得LoRA参数 LoRA源码解读 基于开源模型实现LoRA微调
从LoRA到DoRA DoRA解决的核心问题 权重分解的低秩适应 DoRA的梯度分析 DoRA的源码分析 基于开源模型实现DoRA微调
量化技术基础 不同的量化技术 传统方法与基于LoRA的量化 LoftQ算法的详细介绍 背后的理论分析
Weight Gradient的low rank特性 GaLore模型详解 低秩子空间的组成 内存高效优化 超参数的调整 背后的一些理论分析
Routing策略设计 MoA架构设计 模型的详解 模型源码分析 基于开源模型实现模型微调
模块三:对齐技术
偏好优化基础 Bradley-Terry model 推导DPO的目标 详解DPO的训练 DPO背后的理论分析 基于开源模型实现DPO对齐
HALOs介绍 KTO的推导过程 KL的估计 理解超参数 KTO与DPO
序列似然校准 算法详解 online IPO 背后的理论分析 基于开源模型实现IPO对齐
DPO与SimPO主要区别 推导SimPO的目标 SimPO的参数设置 SimPO源码分析 对齐技术的未来发展
量化技术基础 OBQ介绍 GPTQ算法详解 背后理论分析 基于LLama大模型进行GPTQ量化
数据分布对量化的影响 SmoothQuant核心思想 SmoothQuant算法详解 算法源码分析 基于LLama大模型进行SmoothQuant量化
AWQ核心思想 分析量化导致的误差 选取最有价值的1%权重 AWQ算法详解 基于LLama大模型进行AWQ量化
从GPU到CPU使用 GGUF核心思想 GGUF算法详解 基于LLama大模型+GGUF
视觉大模型基础 训练多模态大模型的Scaling挑战 Hard Routers和Soft Routers MoE总体结构 MoE三阶段训练 模型源码解读 微调一个MoE-LLaVA模型
模型背后核心思想 Dual Vision Encoders Patch Info Mining 模型详解 模型源码解读
模型背后核心思想 模型总体结构 模型算法解析 多任务微调 微调一个VideoLLaMA2模型
图、知识图谱基础 图和大模型结合三种常见方法 利用图来增强大模型推理 利用大模型来增强图模型 两者的直接结合 大模型对图的推理
推荐系统设计 推荐系统中使用大模型 Prompt的设计 微调推荐大模型思路 微调一个推荐领域大模型
Graph的推理能力分析 图结构的编码 Self- supervised微调 基于任务的微调 CoT蒸馏 GraphGPT的应用场景
知识图谱背景介绍 知识图谱与LLM结合的几种方式 训练能够理解知识图谱的LLM基座模型 知识图谱与LLM对推荐系统的价值
历史背景和关键里程碑 应用和未来趋势 具身智能和大模型的结合 具AI的理论 具身AI的认知架构
LLM在具身AI中的角色 将LLM与具身系统集成的技术 具身AI中的自然语言理解和生成 机器人学简介和机器人类型 传感器技术和数据采集 执行器和控制系统 案例:使用LLM的机器人系统
具身AI的设计原则 人机交互(HRI) 多模态界面 具身AI中的强化学习 实时决策
评估具身AI系统的指标 性能测试和基准测试 用户研究和反馈收集 迭代设计和改进
课程主讲
互联网大厂资深算法工程师,清华大学博士后
拥有丰富的大模型预训练、微调和部署优化经验
曾负责大规模对话系统的开发和落地上线工作
先后在AAAI,NeurIPS,ACL,EMNLP等国际顶会及期刊发表高水平论文十余篇
多家上市公司技术战略顾问 曾任金融科技独角兽公司首席科学家 曾任量化投资初创公司首席科学家 曾任美国亚马逊推荐系统工程师 深耕人工智能领域十余年,授课培养AI学员数万人
大模型专家
某头部互联网公司AIGC相关技术负责人 UC Cruze博士后,香港大学博士
主要从事大模型训练,AIGC,机器学习,图卷积,图嵌入的研究
先后在ACL, EMNLP, ECCV, Trans on Cybernetics, Trans on NSE等国际顶会及期刊发表高水平论文十余篇
中科院博士 头部金融科技公司资深算法专家 曾任埃森哲人工智能实验室数据科学家 拥有丰富的大模型微调/情感分析/博文品牌识别/问答系统等各类项目经验
报名咨询