大模型的基本功

科技 2024-08-27 12:50 上海

这篇文章给大家推荐几个大模型的练手程序，也就是所谓的“基本功”。

先问个问题，除了 transformer、rope、swiglu、rms_norm，大家觉着大模型的基本功都有哪些呢？flash_attention 的原理？megatron 的各种 parallel 策略？量化和推理加速技术？cuda编程？

怎么说呢，这些“有技术含量的大模型的核心技术”确实很重要，但我个人还是觉着大多数人在实际工作中并不需要完全理解它们。因为它们追求的是模型性能的极限优化，对我们做个简单的 SFT、PPO 并无太大助力。往往我们的需求只是使用它们，而不是去优化它们。

所以，我会给出一些我个人认为工作中很常用，但却“没有技术含量”的一些基本功（刷面经的同学可以不用看了哈，我推荐的基本功面试官不会考的）。

trans_XX_to_llama.py

在开源社区，llama 的网络结构已经一统江湖了，那也就是说 modeling_llama.py 理论上可以 load 起来任何一个开源模型。

OK，请自行完成以下脚本，使得我们可以用 modeling_llama.py 加载任何一个其他开源模型。

trans_qwen_to_llama.py
trans_llama_to_qwen.py
……

完成这些工作，你会理解每个开源模型的独特之处，比如，qwen2 的 q、k、v 的线性变换是有 bias 的，baichuan 的 lm_head 之前有一个 normalize() 的操作，甚至每个开源模型你都能观察到一些 attention 的魔改。再然后，对着他们的论文去找，为什么他们的作者要做这些改动？能不能从这个过程中学到知识就看各自悟性了。

进阶篇：

trans_llama_to_megatron.py (给定参数 tp 和 pp）
trans_megatron_to_llama.py

并不是所有同学都用 megatron 训代码，但用 megatron 训代码的同学，这两个脚本是基本功中的基本功了。这里只提醒一下，megatron_checkpoint 的 pp_size 实现 merge 和 split 非常简单，但在对 tp_size 进行 merge 和 split 的时候，一定要留意 megatron 的 gqa 的实现方式。

modeling_XX.py

即然我们已经可以万物转 llama 了，那为什么我还一定要使用 modeling_llama.py 呢？毕竟：

modeling_llama.py 在加载模型的时候没有 skip_build ；
modeling_llama.py 缺少 stream_generate；
modeling_llama.py 文件不支持 sequence_parallel ；
modeling_llama.py 默认使用 flash_attention；
modeling_llama.py 并没有一个可以作为 reward_model 的 lm_head；
……

因此，实现一个属于自己的 modeling_XX.py 吧，集百家之长，先去收集 modeling_llama.py、 modeling_qwen.py、 modeling_baichuan.py、 modeling_yi.py、 modeling_deepseek.py、modeling_glm.py 等所有的开源文件，再把各家公司实现的比较好用的 def 加入到自己的 modeling_XX.py 中。

这样，当市面上出现任何一个新的开源模型，我们就都可以通过“trans_newModel_to_myModel.py”，快速的对该模型进行微调操作，而不用修改任何训练代码。

进阶篇：

我们还可以给自己的 modeling 文件加入很多有趣的东西来助力日常的 debug，比如：

def show_cos_distance(self, layer)：输出某个 layer 的 input_hidden_states 和 output_hidden_states 的余弦距离；
def show_topk_token(self, layer, K=10)：输出用某个 layer 去预测 next token 时的最大 K 个 token；
def show_attention(self, layer, tokenA, tokenB)：输出第 layer 层的某两个 token 之间的 attention_value。

multi_infer.py

model.generate() 我们都再熟悉不过了。在不考虑推理加速等技术时，一个客观事实是：“8 卡 load 1 个模型、开大 batch_size ”的推理速度，远远小于 “8 卡 load 8 个模型、开小 batch_size ”的推理速度。

那么有需求了，**实现一个 class infer (model_path, data_path, output_path, num_workers)**，根据自己的喜欢，可以用 torch_run，也可以用 multiprocessing，亦或是其他 python 库。达成下面这个目的即可：在推理的时候让 1 机 8 卡 load 8 / 4 / 2 / 1 个模型，来快速的推理完一大批数据。

tips：一些写法可能需要给 modeling_XX.py 加入一个 def set_device(self, device_list) 函数，毕竟如果每次都用 os.environ["CUDA_VISIBLE_DEVICES"]="3,4" 来控制使用哪些卡来 load 模型，有点不太优雅。

进阶篇：

单机的并行推理已经实现了，不妨试试多机的；
学会用 vllm 等更快的推理框架，而不是 model.generate()。

Channel Loss

在介绍领域模型 post-pretrain 的时候，我说过一句话：做 domain post-pretrain 不看 channel loss，你不如别开 tensorboard。

基本大部分情况下，post-pretrain 的 loss 曲线都呈“缓慢下降”或“持平”的变化趋势，sft 的 loss 曲线都呈“快速下降”且“阶梯状”的变化趋势，这个时候除了初始 loss 和最终 loss是否符合预期外，我们能从中得到的信息微乎其微。因此，把数据划分成不同的数据源，对每个数据源的 loss 曲线单独观察，就显得尤为有意义，这也是研究跷跷板问题的必要环节。

题目来了：改进训练代码，给自己的 sft 数据随机赋予一个 channel，然后在训练过程中绘制出每个 channel 的 loss 曲线。

tips：考虑通过 all_gather_object 实现。

进阶篇：

megatron 由于有 tp 和 pp 存在，实现起来难度远大于 deepspeed；
model.trainer() 的训练方式封装的很死，如何加入 channel_loss 呢？

先列出这些吧，这些基本功可能对求职没有任何帮助，但拿来优化开发效率应该蛮好用的！此外，以上提到的所有程序 ChatGPT 都会写（不包括进阶篇，进阶篇有些我也没调通过），不会的话就问问 Chat 老师。

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

大模型微调到底有没有技术含量

大模型二次开发技术选型思路

我为什么不看好LLM——记过去一年实习经历有感

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer。

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉