图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

科技 2024-12-16 17:11 北京

新智元报道

编辑：LRST

【新智元导读】MAPLE实验室提出通过强化学习优化图像生成模型的去噪过程，使其能以更少的步骤生成高质量图像，在多个图像生成模型上实现了减少推理步骤，还能提高图像质量。

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。

无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。

与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

论文地址：https://arxiv.org/abs/2412.01243

研究背景

扩散和流匹配模型是当前主流的图像生成模型，从标准高斯分布中采样的噪声逐步变换为一张高质量图像。在训练时，这些模型会单独监督每一个去噪步骤，使其具备能恢复原始图像的能力；而在实际推理时，模型则会事先指定若干个不同的扩散时间，然后在这些时间上依次执行多步去噪过程。

这一过程存在两个问题：

1. 经典的扩散模型训练方法只能保证每一步去噪能尽可能恢复出原始图像，不能保证整个去噪过程得到的图像符合人类的偏好；

2. 经典的扩散模型所有的图片都采用了同样的去噪策略和步数；而显然不同复杂度的图像对于人类来说生成难度是不一样的。

如下图所示，当输入不同长度的prompt的时候，对应的生成任务难度自然有所区别。那些仅包含简单的单个主体前景的图像较为简单，只需要少量几步就能生成不错的效果，而带有精细细节的图像则需要更多步数，即经过强化微调训练后的图像生成模型就能自适应地推理模型去噪过程，用尽可能少的步数生成更高质量的图像。

值得注意的是，类似于LLM对思维链进行的动态优化，对扩散模型时间进行优化的时候也需要动态地进行，而非仅仅依据输入的prompt；换言之，优化过程需要根据推理过程生成的「图像链」来动态一步步预测图像链下一步的最优去噪时间，从而保证图像的生成质量满足reward指标。

方法

MAPLE实验室认为，要想让模型在推理时用更少的步数生成更高质量的图像结果，需要用强化微调技术对多步去噪过程进行整体监督训练。既然图像生成过程同样也类似于LLM中的CoT：模型通过中间的去噪步骤「思考」生成图像的内容，并在最后一个去噪步骤给出高质量的结果，也可以通过利用奖励模型评价整个过程生成的图像质量，通过强化微调使模型的输出更符合人类偏好。

OpenAI的O1通过在输出最终结果之前生成额外的token让LLM能进行额外的思考和推理，模型所需要做的最基本的决策是生成下一个token；而扩散和流匹配模型的「思考」过程则是在生成最终图像前，在不同噪声强度对应的扩散时间（diffusion time）执行多个额外的去噪步骤。为此，模型需要知道额外的「思考」步骤应该在反向扩散过程推进到哪一个diffusion time的时候进行。

为了实现这一目的，在网络中引入了一个即插即用的时间预测模块（Time Prediction Module, TPM）。这一模块会预测在当前这一个去噪步骤执行完毕之后，模型应当在哪一个diffusion time下进行下一步去噪。

具体而言，该模块会同时取出去噪网络第一层和最后一层的图像特征，预测下一个去噪步骤时的噪声强度会下降多少。模型的输出策略是一个参数化的beta分布。

由于单峰的Beta分布要求α>1且β>1，研究人员对输出进行了重参数化，使其预测两个实数a和b，并通过如下公式确定对应的Beta分布，并采样下一步的扩散时间。

在强化微调的训练过程中，模型会在每一步按输出的Beta分布随机采样下一个扩散时间，并在对应时间执行下一个去噪步骤。直到扩散时间非常接近0时，可以认为此时模型已经可以近乎得到了干净图像，便终止去噪过程并输出最终图像结果。

通过上述过程，即可采样到用于强化微调训练的一个决策轨迹样本。而在推理过程中，模型会在每一个去噪步骤输出的Beta分布中直接采样众数作为下一步对应的扩散时间，以确保一个确定性的推理策略。

设计奖励函数时，为了鼓励模型用更少的步数生成高质量图像，在奖励中综合考虑了生成图像质量和去噪步数这两个因素，研究人员选用了与人类偏好对齐的图像评分模型ImageReward（IR）用以评价图像质量，并将这一奖励随步数衰减至之前的去噪结果，并取平均作为整个去噪过程的奖励。这样，生成所用的步数越多，最终奖励就越低。模型会在保持图像质量的前提下，尽可能地减少生成步数。

将整个多步去噪过程当作一个动作进行整体优化，并采用了无需值模型的强化学习优化算法RLOO [1]更新TPM模块参数，训练损失如下所示：

在这一公式中，s代表强化学习中的状态，在扩散模型的强化微调中是输入的文本提词和初始噪声；y代表决策动作，也即模型采样的扩散时间；

代表决策器，即网络中A是由奖励归一化之后的优势函数，采用LEAVE-One-Out策略，基于一个Batch内的样本间奖励的差值计算优势函数。

通过强化微调训练，模型能根据输入图像自适应地调节扩散时间的衰减速度，在面对不同的生成任务时推理不同数量的去噪步数。对于简单的生成任务（较短的文本提词、生成图像物体少），推理过程能够很快生成高质量的图像，噪声强度衰减较快，模型只需要思考较少的额外步数，就能得到满意的结果；对于复杂的生成任务（长文本提词，图像结构复杂）则需要在扩散时间上密集地进行多步思考，用一个较长的图像链COT来生成符合用户要求的图片。

通过调节不同的γ值，模型能在图像生成质量和去噪推理的步数之间取得更好的平衡，仅需要更少的平均步数就能达到与原模型相同的性能。

同时，强化微调的训练效率也十分惊人。正如OpenAI最少仅仅用几十个例子就能让LLM学会在自定义领域中推理一样，强化微调图像生成模型对数据的需求也很少。不需要真实图像，只需要文本提词就可以训练，利用不到10,000条文本提词就能取得不错的明显的模型提升。

经强化微调后，模型的图像生成质量也比原模型提高了很多。可以看出，在仅仅用了原模型一半生成步数的情况下，无论是图C中的笔记本键盘，图D中的球棒还是图F中的遥控器，该模型生成的结果都比原模型更加自然。

针对Stable Diffusion 3、Flux-dev等一系列最先进的开源图像生成模型进行了强化微调训练，发现训练后的模型普遍能减少平均约50%的模型推理步数，而图像质量评价指标总体保持不变，这说明对于图像生成模型而言，强化微调训练是一种通用的后训练（Post Training）方法。

结论

这篇报告介绍了由MAPLE实验室提出的，一种扩散和流匹配模型的强化微调方法。该方法将多步去噪的图像生成过程看作图像生成领域的COT过程，通过将整个去噪过程的最终输出与人类偏好对齐，实现了用更少的推理步数生成更高质量图像。

在多个开源图像生成模型上的实验结果表明，这种强化微调方法能在保持图像质量的同时显著减少约50%推理步数，微调后模型生成的图像在视觉效果上也更加自然。可以看出，强化微调技术在图像生成模型中仍有进一步应用和提升的潜力，值得进一步挖掘。

参考资料：

https://arxiv.org/abs/2412.01243

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题！物理代码难题闪电秒解

刚刚，GPT开山一作被曝离职OpenAI！被Ilya感谢，ChatGPT无名英雄选择单飞

2025英伟达奖学金名单公布，7位华人入选！中科大浙大校友在列，人均6万美元

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B

招人！新智元邀你勇闯ASI之巅

OpenAI开通ChatGPT热线了！美国电话就能打，老人机也能玩，15分钟免费

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

28年数据枯竭？AI炼出数据飞轮2.0，智能体+多模态数据湖硬核掘金

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

全面超越CoT！Meta田渊栋团队新作：连续思维链

2025年，AI Agent还会是风口吗？11个问题揭秘智能体技术发展全貌

招人！新智元邀你勇闯ASI之巅

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

用上AI，升职提前4年？清华等分析6790万篇论文：科学界收缩，不用AI的领域无人问津

稳定学习预后标志物，多种癌症生存曲线证实！清华最新成果登Nature顶级子刊

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

招人！新智元邀你勇闯ASI之巅

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响

谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

ChatGPT搜索，全球免费！Her动嘴实时搜，暴打谷歌边聊边搜

北大开源全新图像压缩感知网络：参数量、推理时间大幅节省，性能显著提升 | 顶刊TPAMI

语言游戏让AI自我进化，谷歌DeepMind推出苏格拉底式学习

招人！新智元邀你勇闯ASI之巅

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

Nature再发招聘调查：学术界和工业界大不同，帮你避坑从简历到面试的N个细节

招人！新智元邀你勇闯ASI之巅

MIT教授NeurIPS歧视言论炸雷，中国女学生霸气反击！AI大佬集体痛斥，道歉信来了

OpenAI官方爆料，长文开怼马斯克：靠打官司实现不了AGI！

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

招人！新智元邀你勇闯ASI之巅

「中美科技合作协定」终于续签！但AI半导体等关键技术却遭排除

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

欧洲万亿美元科技巨头为0，被美国「泰坦」无情碾压！LeCun转评

招人！新智元邀你勇闯ASI之巅

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

再也不怕显存爆炸了！高效重建「几何精准」的大规模复杂三维场景，中科院提出CityGaussianV2

Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命

招人！新智元邀你勇闯ASI之巅

ChatGPT崩溃4小时！DDL打工人、期末大学生全慌了

2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

谷歌Gemini再添猛将！GPA 5.0毕业即DeepMind高级科学家，开挂博士给科研新人7点建议

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉