手撕LLM+RLHF+VLM+o1推理，我全都要!!!

文摘 2024-10-18 09:01 北京

我是小冬瓜AIGC，原创超长文知识分享
原创课程已帮助多名同学上岸LLM赛道
知乎/小红书 ：小冬瓜AIGC

o1模型展现了惊艳的推理能力

RL+搜索起到了关键的的作用

【手撕LLM】课程更新第14章节手撕o1推理

部分手撕算法notebook

文档

以上仅摘选第14章节内容

完整课程详情如下

一、课程概况

课程内容：直播 + 往期录播 + 手撕级Notebook + 非调包Code + 算法图解 + 课程PPT
课程项目：垂域大模型实操 + DeepSpeed多卡RLHF训练
进阶专题：手撕o1推理、手撕RL、手撕RLHF、手撕多模态VLM、LLM加速、LLM分布式训练、手撕RLHF-PPO Notebook
实操效果：本课程Code仓库，实战多卡训练，已全线支持Llama-3-8B/70B的SFT/DPO/PPO训练；低成本百元 8B DPO训练
LLM社群：学员超过50%来自海外。部分就业于北美大厂META、微软、亚麻、苹果、谷歌、TikTok和eBay等，海外学历背景PhD居多，MIT、宾大、UIUC、NYU、UCL等；国内清华、复旦居多。（教学成果详见下文）
价格：单独咨询

二、课程目录

详细目录：第9/10章节-RL/RLHF

第11章节-LLM加速（以长文档形式授课）

第12章节-LLM分布式训练（以长文档形式授课）

第13章节-手撕多模态VLM（以长文档+手撕代码形式授课）

第14章节-手撕o1推理（以长文档+手撕代码形式授课)

其他新增内容

Notebook：MCTS, BPE, BeamSearch, AutoGrad, CrossEntropy, PPL, Layernorm Backward, Tensor Parallel, BTModel, DPO, IPO, KTO, NTK-RoPE, Llama-3-GQA, MoE
测评：vllm推理部署、CMMLU、MMLU、CEVAL、safety测评

三、课程内容详情

3.1 实操项目

实操项目1 ：垂域LLM微调Notebook

1个月从0搭建LLM，覆盖LLaMA-LoRA-Pretrained-sft-RM-RLHF

实操项目2 ：DeepSpeed + SFT + DPO + RLHF-PPO 代码仓库

DeepSpeed多卡RLHF-PPO训练实操代码仓库

Llama-3-8B 全流程实操训练效果

基于Llama-3-8B 预训练模型，混合中英alpaca和ruozhiba数据; 全参微调SFT，轻松回复ruozhiba问题

QLoRA高效微调DPO、Reward Model和PPO

低成本即可 run 出项目效果

课程Llama-3-8B PPO 训练模型效果

项目新增70B SFT/DPO/PPO 训练方案

70B 模型PPO 训练耗时

实践平台：A100(80G)x8

3.2 课程直播+录播

在线直播授课、随讲随答，即刻解疑瞬间秒懂, 直播课程会进行录制，便于课后随时学习。

3.3 课件PPT

每章均有完整PPT，图解复杂公式、代码实现细节， 1比1复现原论文
完整构建LLM知识体系，拒绝知识碎片化

3.4 源码工程+Notebook

pytorch工程，代码精简，全部调试可运行，CPU都能Run的代码
复杂代码Notebook随手debug，不惧手撕代码
非调包级工程、坚持逐行代码剖析算法原理，从代码视角，解密复杂的公式原理。

手撕RLHF PPO代码-Pytorch实现, 不依赖RL库

LLM中的RLHF-PPO算法复杂, 逐行手撕LLM中的PPO算法, 主要通过Pytorch实现。

包含4个模型：Ref/Actor/Critic/Reward、PPO采样及训练流程、Loss计算Actor Loss+Critic Loss+Entropy、reward+KL散度...

四、LLM社群 & 教学成果

4.1 内部LLM社群

学员超过50%来自海外，北美PhD居多
部分学员就职：META、微软、亚麻、苹果、谷歌、TikTok、高通和eBay等，部分阿里、百度、腾讯和华为等
学历背景：海外MIT、宾大、UIUC、NYU、UCL等；国内清华、复旦居多。
部分学员本身从事 LLM 相关岗位精进，有的本身就在各大厂做 LLM 相关的负责人，手上也有HC，能直接接触到一线的机会

4.2 教学成果(已知部分展示）

1️⃣ 【海外】META E5 Senior
2️⃣【海外】TikTok核心部门，总包翻番至200+，DS转MLE
3️⃣【国内】清华硕0LLM经验，总包70翻番至130+，成功上岸LLM
4️⃣【海外】应届PhD上岸亚麻做 Researcher
5️⃣【海外】制药公司获得晋升拿下GenAI组Leader
6️⃣【国内】科大讯飞高岗
7️⃣【国内】社科女PhD凭借RLHF成功拿到国内多家高校副教授教职及北航师资博后
8️⃣【国内】40岁失业，0 LLM经验，撸课后成功入职深圳某LLM公司(非大厂）
9️⃣【国内】北美本硕收获 3 offer
1️⃣0️⃣【海外】北美同学拿下顶尖实验室合作机会
1️⃣1️⃣【国内】复旦应届生物信息硕士拿下LLM工作(理想/盛大)
1️⃣2️⃣【海外】PhD凭借课程学习成功抓住公司内部大模型业务负责人机会
1️⃣3️⃣【国内】资深NLP工程师成功收获大模型远程工作机会
1️⃣4️⃣【国内】百川入职医疗业务

（注：不提供算力，本课程所提供项目可在多卡环境一键运行，能低成本run出大模型项目）

我是`小冬瓜AIGC`，原创超长文知识分享
原创课程已帮助多名同学上岸`LLM`赛道
`知乎`/`小红书` ：`小冬瓜AIGC`

微信咨询xiaodongguaAIGC

http://mp.weixin.qq.com/s?__biz=MzIwNDY1NTU5Mg==&mid=2247492541&idx=1&sn=8b20770cbaf68e8a9c61501e54d0726b

包包算法笔记

大模型技术和行业认知

最新文章

大模型对齐中的各种loss讲解

微调图像大模型的经验分享

人人都能看懂的RL-PPO理论知识

校招字节开奖，大模型50K*15！准备接了

个人从零预训练1B LLM心路历程

代码大模型OpenCoder技术报告解读

SFT洗数据，有多少细节？

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

大模型中有哪些形式简单却很巧妙的上分方法？

智谱生成视频升级，告别默片Sora

FlashAttention算法之美：极简推导版

ACL 2024中RAG论文整理和简析

AI搜索的16个局限性和提升建议

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

大模型SFT数据选择方法综述

图解大模型训练系列：序列并行

Perplexity CEO揭秘：不训大模型、关键在于检索、排序、编排

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI 12月发布最新模型Orion？Altman又辟谣

LLM洗数据：怎么做Continue Pretrain的数据

LLM洗数据：数据或许比算法更重要？大模型剪枝中的校准数据

LLM洗数据：数据去重之Simhash&Minhash分析与实现

小红书用大模型搞推荐

NeurIPS'24｜大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Claude 3.5，学会了用电脑！遥遥领先openAI

Yann LeCun最新演讲：基本上不做LLM了

如何用一个统一的视角，分析RLHF下的各种算法？

终于被CCF A类会议AAAI录用了！！！

万字长文梳理LLM+RLHF的脉络

字节实锤大模型造实习生攻击？这下反而更...

大模型SFT暗藏陷阱？梯度累计有坑

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

Anthropic分享RAG最佳实践：Contextual Retrieval

如何从头训练大语言模型: A simple technical report

Meta视频生成论文解读

写在Ph.D第0年：AI/CV科研菜鸟的进阶之路

KDD Cup 2024 Meta LLMs RAG挑战赛冠军方案开源

DPO的局限性讨论：理论和实践

字节用大模型做推荐。。

今年顶会这情况。。。大家提前做准备吧！

OpenAI o1技术详解3：让模型自我纠错

OpenAI o1 技术详解2：MCTS增强推理（代码级）

红杉专访OpenAI O1团队全文记录

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

全是细节｜大模型SFT的100个关键点

也来猜猜 o1 实现方法

多模态大模型技术点总结

OpenAI o1 技术系列1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

一文讲明白大模型分布式逻辑（从GPU通信原语到Megatron、Deepspeed）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

三、课程内容详情

3.2 课程直播+录播

3.3 课件PPT

3.4 源码工程+Notebook

4.1 内部LLM社群

4.2 教学成果(已知部分展示）

（注：不提供算力，本课程所提供项目可在多卡环境一键运行，能低成本run出大模型项目）

我是小冬瓜AIGC，原创超长文知识分享原创课程已帮助多名同学上岸LLM赛道知乎/小红书 ：小冬瓜AIGC

我是`小冬瓜AIGC`，原创超长文知识分享
原创课程已帮助多名同学上岸`LLM`赛道
`知乎`/`小红书` ：`小冬瓜AIGC`