大模型微调与对齐在推荐系统中的应用总结

科技 2024-07-18 08:01 新加坡

随着大模型的飞速发展，在短短一年半间就有了大幅度的技术迭代更新，LoRA，QLoRA，AdaLoRa，ZeroQuant，Flash Attention，DPO等技术效果已经在工业界逐渐得到验证。过去半年又涌现出更多效果更好的技术和模型，从Mamba2，Jamaba，TTT等基座模型，到Dora，LoftQ，GaLore等最新的微调技术；KTO，IPO，SimPO等对齐技术；再到GPTQ，SmoothQuant，AWQ，GGUF等量化技术。大模型全链路的技术的迭代日新月异。

作为算法工程师，面对如此庞大又在飞速迭代的大模型技术体系，您是否有感觉自己的技术能力以及学习步伐有点跟不上技术的发展？或者对这些新兴技术的理解仅仅停留在应用层面上，实际上并没有对背后的算法原理深入剖析过？如果您希望快速适应大模型时代的发展，而不致于在海量的论文和技术文献中挣扎和迷茫；如果你希望在大模型赛道上持续巩固竞争壁垒，而不至于因为技术到达瓶颈而导致项目停滞不前。对技术本身的深入理解、对前沿技术的深入洞察一定是个必选项

基于此类痛点，并紧密贴合llm前沿技术发展，贪心科技联合数位业内顶级专家共同打造了《大模型微调实战营-算法篇》+《大模型高级研修班》的组合学习路径。通过3个半月的时间，全面掌握从基础到最前沿的大模型技术以及背后的精髓，帮大家大大节省学习成本、提高技术竞争力。

学习收获：

掌握前沿的大模型技术，包括各类基座模型、微调算法、推理方法、多模态技术、图算法和大模型的结合等
掌握每一种前沿算法背后的理论知识、以及应用场景，部分算法的讲解涉及到代码解读、从零算法实现、实战案例等
全面掌握2024上半年，新出现的最热门大模型技术

下面是两门课程的具体学习安排，感兴趣的朋友们欢迎扫码咨询。

扫描二维码，添加顾问老师咨询~

大模型微调实战营-算法篇

第一阶段：大模型基础

第一章：开营典礼

介绍课程目标、安排和预期成果
明确对学员的要求和期望
概述课程中将探讨的项目和技术
讨论大模型技术的行业现状
推荐关注的工具和开源项目

第二章：大模型是怎么炼成的

大模型的定义和重要性
大模型发展历程和关键里程碑
预训练与微调的基本概念
大模型预训练、数据处理、微调、对齐
大模型训练的基础设施和资源需求
面临的挑战和未来发展方向

第三章：Transformer模型原理剖析（1）

Transformer模型的基本架构
Self-Attention机制的原理和计算过程
Multi-Head Attention的设计和作用
注意力权重的计算和可视化
Self-Attention在模型中的作用和优势

第四章：Transformer模型原理剖析（2）

Positional Encoding的概念和实现方法
Rotary Positional Embedding
BPE tokenizer，SentencePiece Encoding
Transformer中的Feed-Forward Networks
Layer Normalization的原理和重要性
Transformer模型中的残差连接
编码器和解码器的结构差异

第五章：Transformer模型原理剖析（3）

Transformer的训练策略和优化方法
参数初始化和学习率调度
Transformer模型的正则化技术
Attention机制的变种和改进
Greedy Decoding, Beam-search
Top-K Sampling, Top-p Sampling
Transformer源码解读

第六章：Transformer模型全量微调和高效微调

全量微调与高效微调的区别
Transformer模型微调的常见策略
选择合适的微调任务和数据集
微调中的挑战和最佳实践
评估微调效果的标准和工具

第七章：【项目实战1】大模型PEFT微调项目

PEFT的安装
PEFT的使用说明，核心模块讲解
指令数据准备和预处理的技巧
实施微调的详细步骤
微调项目的性能评估和分析

第八章：GPT模型家族剖析

GPT系列模型的发展历程
GP1到GPT4，GPT3模型剖析
GPT代码解读
InstructGPT模型剖析
Zero-shot Prompting
Few-shot Prompting
GPT模型的局限性和挑战

第九章：LLaMA家族模型剖析

LLaMA模型的特点和技术创新
LLaMA模型的原理剖析
LLaMA源码解读
LLaMA与其他大模型的对比
LLaMA模型的训练和微调策略
面对LLaMA模型的未来发展方向

第十章：ChatGLM家族模型剖析

ChatGLM的架构和设计理念
ChatGLM模型解读
ChatGLM1到ChatGLM3的技术迭代
ChatGLM模型的优势和应用领域
ChatGLM模型微调和部署的实践指南
ChatGLM模型的评估和性能优化

第十一章：Baichuan家族模型剖析

Baichuan模型的概述和核心技术
Baichuan原理剖析和源码解读
Baichuan模型与其他模型的比较
Baichuan模型在特定任务上的应用
微调Baichuan模型的策略和技巧
Baichuan模型的局限

第二阶段：大模型指令微调之- LoRA

第十二章：指令微调基础

指令微调的定义与应用背景
指令微调与传统微调的对比
指令微调在大模型中的重要性
指令微调流程概览
指令微调的挑战与策略

第十三章：必要矩阵知识

矩阵和向量的基本概念
矩阵运算与性质
特征值和特征向量
矩阵分解（SVD）技术简介
矩阵在LoRA算法中的应用

第十四章：LoRA算法剖析

LoRA算法的原理与动机
Lora中的Low-rank假设
LoRA的关键技术组件
LoRA算法的实现步骤
LoRA算法的优化与调试
LoRA算法源码解读

第十五章：指令数据搜集和生成

指令数据的重要性与来源
自动化和手动搜集指令数据的方法
指令数据的预处理和标准化
生成高质量指令数据的技巧
指令数据集的维护与更新
指令数据的人工质量评估与自动质量评估

第十六章：【项目实战2】Alpaca微调大模型

Alpaca微调项目的设计与目标
准备Alpaca微调所需的指令数据
实施Alpaca微调的详细步骤
评估Alpaca微调效果的方法
分析与解决Alpaca微调中遇到的问题
解读Alpaca项目源码

第十七章：AdaLoRA算法剖析

AdaLoRA与LoRa的比较
动态改变矩阵权重的意义
SVD与AdaLoRA
训练AdaLoRA
AdaLoRA源码解读
AdaLoRA案例讲解

第十八章：【项目实战3】Vicuna微调大模型

Vicuna微调项目的背景与应用场景
ShareGPT数据收集
Vicuna微调的实施流程和技术细节
Vicuna微调效果的评估与分析
基于Vicuna微调项目的经验总结与展望

第三阶段：大模型指令微调之- Quantization

第十九章：模型Quantization基础

Quantization在深度学习中的作用与原理
常见的Quantization技术及其分类
模型Quantization对性能和精度的影响
Quantization的实践步骤和工具
模型Quantization的挑战与解决策略

第二十章：QLoRA算法剖析

QLoRA算法的定义和背景
QLoRA与LoRA的关键区别和改进
QLoRA算法的详细实现过程
4bit NormalFloat, double quantization
QLoRA算法的优化和调试技巧
QLoRA源码解读

第二十一章：【项目实战4】QLoRA微调LLaMA大模型

技术方案的设计
收集和预处理指令数据
基于PEFT进行QLora大模型微调
评估QLoRA微调之后的效果
分析QLoRA微调过程中遇到的问题及其解决方案

第二十二章：模型Compression技术

模型压缩的必要性和技术背景
常见的模型压缩方法概述
模型压缩与Quantization的关系
实施模型压缩的步骤和注意事项
模型压缩技术的最新研究进展

第二十三章：模型蒸馏技术探索

模型蒸馏的基本概念和工作原理
模型蒸馏在模型优化中的应用
不同蒸馏技术的比较和选择
实施模型蒸馏的具体方法
模型蒸馏技术面临的挑战及其解决策略

第二十四章：ZeroQuant算法剖析

ZeroQuant算法的基本原理和应用背景
ZeroQuant在模型Quantization中的创新点
实现ZeroQuant的关键步骤和技术要求
ZeroQuant源码解读
ZeroQuant技术的局限性和未来方向

第二十五章：SmoothQuant算法剖析

SmoothQuant算法的设计理念和核心技术
SmoothQuant与传统Quantization方法的区别
实施SmoothQuant算法的具体流程
SmoothQuant源码解读
SmoothQuant面临的技术挑战和改进路径

第四阶段：大模型对齐之-RLHF

第二十六章：RLHF算法概述

RLHF的起源和背景
RLHF在人工智能中的作用和重要性
强化学习与人类反馈：结合的优势
RLHF的主要应用领域和案例研究
从InstructGPT到GPT4

第二十七章：人类反馈的集成

人类反馈在强化学习中的角色
不同形式的人类反馈：标注、偏好、指导
从人类反馈中学习：方法和策略
人类反馈数据的收集和处理
人类反馈强化学习的挑战和解决方案

第二十八章：PPO算法概述

PPO的起源和动机
PPO与其他策略梯度方法的对比
算法核心概念和原理
PPO的优势和局限性
PPO的应用领域和案例

第二十九章：强化学习和数据基础

强化学习基本概念介绍
数据在强化学习中的作用和重要性
状态、动作和奖励的数据结构
数据收集、处理和利用的方法
使用模拟环境进行数据生成和测试

第三十章：策略优化基础

策略梯度方法简介
优势函数和回报
基线的概念和作用
累积回报与折扣回报
探索与利用的权衡

第三十一章：PPO核心技术细节

目标函数和KL散度
裁剪目标函数的原理
多次迭代优化策略
广义优势估计（GAE）
重要性采样和策略更新

第三十二章：基于开源大模型从零实现PPO算法

构建神经网络模型
实现PPO的优化循环
自适应学习率调整
调试和性能分析技巧
评估对齐之后的大模型

第三十三章：高级PPO技术和强化学习进阶

PPO变体和改进策略
处理高维输入和模型泛化
多智能体环境中的PPO应用
强化学习中的迁移学习和多任务学习
强化学习中的安全性和可解释性

第三十四章：【项目实战5】RLHF医疗大模型微调

项目需求分析和技术方案设计
环境设置和任务定义
对齐数据的收集和预处理
实现PPO训练流程
结果分析和性能优化

第五阶段：大模型对齐之-DPO

第三十五章：DPO算法概述

DPO（Direct Preference Optimization）介绍
与PPO算法对比
DPO的应用场景和重要性
基本原理和工作机制
DPO算法的优势和挑战

第三十六章：排序和偏好的基础

偏好与排序问题在AI中的角色
数据表示：成对比较和偏好矩阵
偏好学习的挑战
排序和偏好预测的评估指标
经典偏好学习算法概览

第三十七章：DPO核心技术细节

偏好建模的数学框架
直接与间接偏好优化的对比
DPO中的关键算法组件
成对比较数据的处理方法
DPO的损失函数和优化策略

第三十八章：DPO算法的从零实现

数据整理与预处理
构建偏好学习模型的步骤
使用Python实现基础DPO模型
在benchmark上测试DPO性能
DPO的优势和缺点

第三十九章：【项目实战6】DPO在推荐系统中的应用

推荐系统中的偏好学习
设计DPO驱动的推荐算法
处理实时用户反馈
实施DPO进行推荐模型微调
评估推荐系统的性能

第四十章：高级DPO技术

多任务学习与DPO的结合
DPO在非监督学习中的应用
深度学习方法与DPO
交互式偏好学习
DPO技术的变种

第六阶段：大模型其他微调技术

第四十一章：Prefix Tuning算法剖析

Prefix Tuning的基本原理
实现Prefix Tuning的关键步骤
Prefix Tuning源码解读
Prefix Tuning与其他微调方法的比较
在NLP任务中应用Prefix Tuning的案例
Prefix Tuning的局限性和挑战

第四十二章：Adaptor Tuning算法剖析

Adaptor Tuning的基本原理
如何在大模型中插入Adaptor层
Adaptor Tuning的优点和应用场景
Adaptor Tuning源码解读
实际案例：Adaptor Tuning在分类任务中的应用
Adaptor Tuning的效率和扩展性问题

第四十三章：Flash Attention算法剖析

Flash Attention的设计思想和算法原理
优化Transformer模型中的注意力机制
Flash Attention在提升处理速度和效率上的作用
应用Flash Attention改进大模型的案例分析
Flash Attention的实现挑战和解决方案

第四十四章：Flash Attention 2算法剖析

介绍Flash Attention 2与前版本的区别
深入探讨Flash Attention 2的技术改进点
Flash Attention 2在复杂任务处理中的应用示例
评估Flash Attention 2的性能和适用范围
Flash Attention 2的实现细节和调优建议

第四十五章：Kahneman-Tversky Optimization (KTO) 算法剖析

KTO算法背景和理论基础
Kahneman-Tversky优化在微调中的应用
实施KTO的关键技术步骤
KTO在提高决策质量中的角色
KTO应用案例和性能分析

第四十六章：【项目实战7】QLoRA+Flash Attention微调大模型

结合QLoRA和Flash Attention的微调策略
任务选取和数据准备
微调流程详解：从预处理到模型评估
分析微调后模型的性能改进
面临的挑战及解决方案分享

第七阶段：大模型增量学习

第四十七章：大模型增量学习概述

增量学习（Continual learning）的重要性
与传统从零训练的对比
增量学习的应用场景
任务选取和数据准备
微调流程详解：从预处理到模型评估

第四十八章：增量学习与灾难性遗忘

什么是灾难性遗忘
解决灾难性遗忘的思路
正则化、动态网络架构、元学习
通用数据与垂直数据的混合训练
数据中的信息分析
调整学习率

第四十九章：增量学习中的高级主题

增量学习在大规模数据集上的应用
多模态与跨领域增量学习
自适应学习和在线学习技术
强化学习与增量学习的结合
未来增量学习的发展方向

类别	说明
课程形式	线上直播+课程学习群答疑
课程安排	13次直播授课每周1次，每次3-3.5小时
课程服务	25人以内学习群，助教答疑专属咨询顾问与班主任老师全程伴学全程直播讲解与演示可反复观看课程视频

大模型高级研修班

模块一：基座模型

1、Transformer架构与机制

多头自注意力机制：Query, Key, Value机制
Multi-query attention
位置编码技术
层归一化与残差连接
案例：剖析LLama3模型结构

2、大模型训练与优化

预训练、微调与对齐过程
SFT与LoRA微调
对齐与DPO
处理长距离依赖
处理更长的上下文
梯度下降变体

3、Mamba介绍

Transformer与Seq2Seq各自有缺点
Differential Equation基础
选择性状态空间模型（SSMs）
Discretization, Recurrent计算
The HIPPO矩阵
基于Pytorch实现一个基本的Mamba块

4、Mamba核心组建与优化

局部卷积宽度及其重要性
Selective Scan
整体模型架构
Mamba的优化策略
与Transformer优化的比较分析

5、Mamba2

Mamba与Mamba2的区别
Mamba2中的高级SSMs
结构状态空间对偶性
SSMs和Transformers之间的等价性
块分解技术
面向硬件的实现
高效投影和归一化
实践：在Mamba2中实现高维SSMs

6、Mamba的应用

文本生成与文本摘要生成
机器翻译与情感分析
基于Mamba构造大模型
基于Mamba构造多模态大模型
医疗、金融领域的应用

7、Jamba模型

混合架构设计基础
SSMs与Transformer注意机制的集成
结合Mamba和Transformer方法的优点
Jamba模型剖析
多模态注意力和状态空间集成
跨模态嵌入对齐

8、KANs

KANs vs MLPs
Kolmogorov-Arnold representation theorem
基础架构
Convolutional KANs (CKANs)
训练KANs
实践：从零实现KANs

模块二：指令微调技术

9、LoRA微调技术

必要的数学知识 - 低秩分解
LoRA的核心原理
LoRA中的各类参数设置
优化并获得LoRA参数
LoRA源码解读
基于开源模型实现LoRA微调

10、DoRA微调技术

从LoRA到DoRA
DoRA解决的核心问题
权重分解的低秩适应
DoRA的梯度分析
DoRA的源码分析
基于开源模型实现DoRA微调

11、LoftQ微调技术

量化技术基础
不同的量化技术
传统方法与基于LoRA的量化
LoftQ算法的详细介绍
背后的理论分析

12、GaLore微调技术

Weight Gradient的low rank特性
GaLore模型详解
低秩子空间的组成
内存高效优化
超参数的调整
背后的一些理论分析

13、Mixture of LoRAs

Routing策略设计
MoA架构设计
模型的详解
模型源码分析
基于开源模型实现模型微调

模块三：对齐技术

14、DPO对齐技术

偏好优化基础
Bradley-Terry model
推导DPO的目标
详解DPO的训练
DPO背后的理论分析
基于开源模型实现DPO对齐

15、KTO对齐技术

HALOs介绍
KTO的推导过程
KL的估计
理解超参数
KTO与DPO

16、IPO对齐技术

序列似然校准
算法详解
online IPO
背后的理论分析
基于开源模型实现IPO对齐

17、SimPO对齐技术

DPO与SimPO主要区别
推导SimPO的目标
SimPO的参数设置
SimPO源码分析
对齐技术的未来发展

模块四：模型量化技术

18、GPTQ量化技术

量化技术基础
OBQ介绍
GPTQ算法详解
背后理论分析
基于LLama大模型进行GPTQ量化

19、SmoothQuant量化技术

数据分布对量化的影响
SmoothQuant核心思想
SmoothQuant算法详解
算法源码分析
基于LLama大模型进行SmoothQuant量化

20、AWQ量化技术

AWQ核心思想
分析量化导致的误差
选取最有价值的1%权重
AWQ算法详解
基于LLama大模型进行AWQ量化

21、GGUF量化技术

从GPU到CPU使用
GGUF核心思想
GGUF算法详解
基于LLama大模型+GGUF

模块五：多模态技术

22、MoE-LLaVA

视觉大模型基础
训练多模态大模型的Scaling挑战
Hard Routers和Soft Routers
MoE总体结构
MoE三阶段训练
模型源码解读
微调一个MoE-LLaVA模型

23、Mini-Gemini

模型背后核心思想
Dual Vision Encoders
Patch Info Mining
模型详解
模型源码解读

24、VideoLLaMA2

模型背后核心思想
模型总体结构
模型算法解析
多任务微调
微调一个VideoLLaMA2模型

模块六：图与大模型

25、图与大模型基础

图、知识图谱基础
图和大模型结合三种常见方法
利用图来增强大模型推理
利用大模型来增强图模型
两者的直接结合
大模型对图的推理

26、推荐系统与大模型

推荐系统设计
推荐系统中使用大模型
Prompt的设计
微调推荐大模型思路
微调一个推荐领域大模型

27、GraphGPT: Graph的指令微调

Graph的推理能力分析
图结构的编码
Self- supervised微调
基于任务的微调
CoT蒸馏
GraphGPT的应用场景

28、知识图谱与LLM的结合

知识图谱背景介绍
知识图谱与LLM结合的几种方式
训练能够理解知识图谱的LLM基座模型
知识图谱与LLM对推荐系统的价值

模块七：具身智能

29、具身AI简介

历史背景和关键里程碑
应用和未来趋势
具身智能和大模型的结合
具AI的理论
具身AI的认知架构

30、大型语言模型、感知器

LLM在具身AI中的角色
将LLM与具身系统集成的技术
具身AI中的自然语言理解和生成
机器人学简介和机器人类型
传感器技术和数据采集
执行器和控制系统
案例：使用LLM的机器人系统

31、具身AI系统设计

具身AI的设计原则
人机交互（HRI）
多模态界面
具身AI中的强化学习
实时决策

32、评估与测试

评估具身AI系统的指标
性能测试和基准测试
用户研究和反馈收集
迭代设计和改进

类别	说明
课程形式	线上直播+课程学习群答疑
课程安排	9次直播授课每周1次，每次3-3.5小时
课程服务	30人以内学习群，助教答疑专属咨询顾问与班主任老师全程伴学全程直播讲解与演示可反复观看课程视频

课程PPT举例

项目实战举例

课程学习群答疑举例

课程主讲

张老师

人工智能、大模型领域专家

互联网大厂资深算法工程师，清华大学博士后
拥有丰富的大模型预训练、微调和部署优化经验
曾负责大规模对话系统的开发和落地上线工作
先后在AAAI，NeurIPS，ACL，EMNLP等国际顶会及期刊发表高水平论文十余篇

李文哲

贪心科技创始人兼CEO

人工智能、大模型领域专家

多家上市公司技术战略顾问
曾任金融科技独角兽公司首席科学家
曾任量化投资初创公司首席科学家
曾任美国亚马逊推荐系统工程师
深耕人工智能领域十余年，授课培养AI学员数万人

Max老师

大模型专家

某头部互联网公司AIGC相关技术负责人
UC Cruze博士后，香港大学博士
主要从事大模型训练，AIGC，机器学习，图卷积，图嵌入的研究
先后在ACL, EMNLP, ECCV, Trans on Cybernetics, Trans on NSE等国际顶会及期刊发表高水平论文十余篇

Shine老师

大模型开发与微调领域专家

中科院博士
头部金融科技公司资深算法专家
曾任埃森哲人工智能实验室数据科学家
拥有丰富的大模型微调/情感分析/博文品牌识别/问答系统等各类项目经验

报名咨询

扫描二维码，添加顾问老师咨询~

http://mp.weixin.qq.com/s?__biz=MzA4NTUxNTE4Ng==&mid=2247524173&idx=1&sn=e305cc6e87794753c26881c7faec9d87

机器学习与推荐算法

专注于分享经典的推荐技术，致力于传播基础的机器学习、深度学习、数据挖掘等方面的知识。