微调图像大模型的经验分享

文摘 2024-11-18 20:46 中国香港

作者：lym
原文：https://zhuanlan.zhihu.com/p/890327005

如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。

基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。

业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的reward model几乎没有开源的，需要的数据更多，超参也更多，除非是逻辑或代码场景，在文本场景中，DPO效果是足够的。

业务数据质量最重要，数据量也不能少，越难的任务数据量越多

数据内容：要尽量和期望输出一致，这个一致既包括内容，也包括格式。不要期望垃圾数据能训练出好的VLM模型，不要寄希望于dalle3那种recaptioning，依靠泛化能力变换格式的玩法太高级了，我还把我不住。可以用 手工标注数据+GPT改写(甚至可以是Vision版本) 生成质量尽可能高的业务数据。改写用的GPT原本没有解决对应任务的能力也不要怕，在改写的prompt模板让它参考人工标注就行。

数据量：如果模型会该类任务，但仅是输出格式不稳定（比如json少个括号，文本输出少个\n什么的），几十到上百条业务数据就够了，不用考虑通用数据；一般普通业务需要千条业务数据（类似数据在VLM模型预训练的训练集出现过，但模型对于该任务处于会与不会区间），需要少量通用数据（10:1，1份通用）。如果特别难的task，VLM模型根本没见过（比如文生图生成数据，输出的文本也和输入图之间的关系需要重学），那需要1-2w条业务数据，通用数据5:1。

训练轮次：我训练的task就特别难，4B左右的模型甚至训练10个epoch测试集的loss还在下降。但是一般7B模型训5个epoch，70B模型训练2个epoch，就会开始过拟合了。下面是比较正常的收敛曲线。

当然还有些肯定不正确的曲线：

数据难度：可以用PPL衡量，也可以看训练集上测试的效果。

多个类型数据：先各自训练看效果，确保各自没有问题，再去混合。

训练流程

1.收集清洗改写增广业务数据，同一个问题可以除了文本对话，还可以改写成选择判断，有帮助，而且这些形式更容易做评测，方便确认效果。

2.磨刀不误砍柴工：找一个小的VLM模型(2B~7B)，按照默认微调参数对纯业务数据集上进行训练，设置较高的lr（1e-5）和较长的epoch(10轮)。训练好的模型在训练集上先测试（对，用什么训练用什么测！）。在训练集上进行测试是非常重要的，它可以一定程度排除数据集质量的问题，也不用担心过拟合的问题，同时也能确保框架底层没什么问题。别管数据质量多垃圾，别管在测试集泛化性有多差，在训练集上都应该有较好的学习效果。如果你的业务数据有多种形式，也可以在这个阶段进行配比的消融。

3.确保在训练集上没问题，再结合validation集上的曲线，应该可以大致确认：训练轮次（epoch），业务数据配比，学习率，batch_size，文本长度，moe专家数量，并行配置（tp pp dp）等绝大部分超参。

PS：在VLM训练中，无论是预训练、对齐还是精调，用的都是SFT loss，没有Pretrain loss。学界可能比较喜欢用lora，但工业届全量调的更多，这俩区别不是很大，lora dim设置成128/256，scaling设置成64（dim的05倍），也能学很多东西。

如果只是输出格式不满意、不稳定，那么调LLM就够。如果全新的知识，那么vit和LLM以及二者间的中间层都放开比较好。参数量的大头在LLM中，但如果图片业务数据和预训练数据差异较大，vit放开也很重要。（上vit冻住，下vit放开，vit解冻后明显收敛更稳定）。我的任务比较难，肯定就是全放开训练了。

4.往里面加入通用数据，来维护原有通用能力（在业务垂域没搞明白前，一般先别考虑通用数据，否则变量太多，把握不住）。配比从10:1开始，不行可以试试5:1。通用数据包括两种，一种是caption，一种是instruct数据。caption数据的question基本都是”详细描述图中有什么？“，它在VLM预训练中是用来做一阶段的。Instruct数据的question就比较多样了，比如”图中叉子右边的茶杯是什么颜色的？“它一般对应预训练的二阶段微调。VLM这两个阶段虽然一阶段叫训练，二阶段叫对齐，但是loss形式是一样的，超参可能也只有学习率的差异，越往后学习率越小。全用instruct数据问题也不大，但instruct数据可能信息量可能不如caption对图片描述那么丰富，也更难收集一些。

caption的数据我翻译了些sharegpt4o的，整理好了：

ShareGPT-4o：https://huggingface.co/datasets/LYM2024/share_gpt4o_zh?row=0

instruct数据用的ALLAVA-4V的，量太大了翻译的还没整理好。

https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V

这俩我是1:1用的，没做严格消融。英文数据去llamafactory找就行，中文大部分得自己动手翻译。通用数据也可以大量用英文，融合一点自己翻译的中文，效果也不会太差的。

然后我发现个特别有意思的现象，我的业务数据是diffusion生成的图片，上面这些数据是自然图片，业务数据的通用能力几乎没有被维护。解决方案：

- 用现有VLM对业务数据作captioning，因为caption的question与图无关，直接取sharegpt4o的就行。直接生成大量业务图片的通用数据。

- 用LCM的SSD或SDXL模型做Img2Img，把正prompt置空，guidance_scale置0（最好negative输出的embedding取torch.zeros），strength强度设置0.025。用无引导生成生成有diffusion特征的图片。

5.训练可以分多个阶段，前面用质量差一点的大量数据，后面用质量高的小批量数据，提升最终效果。两阶段question的词汇可以作下隔离，即这两批数据的question最好有点小差异，后续推理测试只用高质量数据的question。实测高质量数据的需求量会大大降低。

6.我个人觉得，精调这种任务，如果数据量大，在7B小模型和72B大模型上，在业务（垂域）上效果差异并不大，因为我们一般更关心业务和垂域的性能，而非要成为全面的通才。

7.数据质量高可以训练久一些，数据质量差训练短一些，可以保留更好的泛化性。我们的数据比较短，训练10epoch的话，输出就非常短，往往不带主语。训练6epoch就会带一些，所以不是validation loss下降就是好事，它可能同时对应着通用loss的上升，稍微遇到些长尾问题，性能就会崩溃式下降。但训练太短也不行，容易学不会，至少要保证训练5epoch，看看整体的结果。

都看到这了，点个关注再走吧🧐～

备注：进群，进入大模型技术群

添加好友：baobaogpt，记得备注呦

http://mp.weixin.qq.com/s?__biz=MzIwNDY1NTU5Mg==&mid=2247493407&idx=1&sn=518c01549aa8192933e06e78ed423f22

包包算法笔记

大模型技术和行业认知

最新文章

大模型对齐中的各种loss讲解

微调图像大模型的经验分享

人人都能看懂的RL-PPO理论知识

校招字节开奖，大模型50K*15！准备接了

个人从零预训练1B LLM心路历程

代码大模型OpenCoder技术报告解读

SFT洗数据，有多少细节？

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

大模型中有哪些形式简单却很巧妙的上分方法？

智谱生成视频升级，告别默片Sora

FlashAttention算法之美：极简推导版

ACL 2024中RAG论文整理和简析

AI搜索的16个局限性和提升建议

图解大模型训练系列：序列并行2，DeepSpeed Ulysses

大模型SFT数据选择方法综述

图解大模型训练系列：序列并行

Perplexity CEO揭秘：不训大模型、关键在于检索、排序、编排

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI 12月发布最新模型Orion？Altman又辟谣

LLM洗数据：怎么做Continue Pretrain的数据

LLM洗数据：数据或许比算法更重要？大模型剪枝中的校准数据

LLM洗数据：数据去重之Simhash&Minhash分析与实现

小红书用大模型搞推荐

NeurIPS'24｜大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Claude 3.5，学会了用电脑！遥遥领先openAI

Yann LeCun最新演讲：基本上不做LLM了

如何用一个统一的视角，分析RLHF下的各种算法？

终于被CCF A类会议AAAI录用了！！！

万字长文梳理LLM+RLHF的脉络

字节实锤大模型造实习生攻击？这下反而更...

大模型SFT暗藏陷阱？梯度累计有坑

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

Anthropic分享RAG最佳实践：Contextual Retrieval

如何从头训练大语言模型: A simple technical report

Meta视频生成论文解读

写在Ph.D第0年：AI/CV科研菜鸟的进阶之路

KDD Cup 2024 Meta LLMs RAG挑战赛冠军方案开源

DPO的局限性讨论：理论和实践

字节用大模型做推荐。。

今年顶会这情况。。。大家提前做准备吧！

OpenAI o1技术详解3：让模型自我纠错

OpenAI o1 技术详解2：MCTS增强推理（代码级）

红杉专访OpenAI O1团队全文记录

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

全是细节｜大模型SFT的100个关键点

也来猜猜 o1 实现方法

多模态大模型技术点总结

OpenAI o1 技术系列1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

一文讲明白大模型分布式逻辑（从GPU通信原语到Megatron、Deepspeed）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉