LiFT:利用人工反馈实现文本到视频模型对齐
今天给大家介绍的文章来自公众号粉丝投稿,这项研究提出了一种新颖的微调方法 LiFT,利用人类反馈通过三个关键阶段进行 T2V 模型对齐:(1) 人类反馈收集,(2) 奖励函数学习,以及 (3) T2V 模型对齐。
相关链接
• Project page: https://codegoat24.github.io/LiFT • Huggingface: https://huggingface.co/papers/2412.04814 • Code: https://github.com/CodeGoat24/LiFT • Paper: https://arxiv.org/pdf/2412.04814
论文阅读
摘要
近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。这是因为人类偏好具有主观性,难以形式化为客观函数,所以无法在训练中对模型直接进行引导。为此,该工作提出了一种基于人类反馈的T2V模型微调对齐方法, LiFT。我们构建了包含约10,000条合成视频评分及理由的人类标注数据集LiFT-HRA,并在这个数据集上训练奖励模型LiFT-Critic以学习基于人类偏好的奖励函数,让它作为人类判断的代理,衡量合成视频与人类期望的匹配程度。最终,我们利用LiFT-Critic对T2V模型进行最大化奖励加权似然的微调对齐,使其生成的视频与人类偏好对齐。我们的实验研究表明,LiFT在CogVideoX-2B上的应用显著提升了模型性能,在16项指标上全面超越CogVideoX-5B,展示了人类反馈在优化生成视频质量中的潜力。
方法简介
1. 收集人类反馈:从提前设计好的丰富的类别词中随机选择来生成短语,并使用LLM扩展为详细提示,再将文本提示输入到T2V模型中来生成视频-文本对,最后通过人工标注来构建出视频领域全新的人类反馈数据集,LiFT-HRA; 2. 学习奖励函数:基于该数据集训练出视觉-语言大模型LiFT-Critic,学习反映人类偏好的奖励函数,从三个维度对合成视频进行评分, 3. T2V模型对齐:使用LiFT-Critic对T2V模型生成的视频进行评估,通过将评分映射为奖励权重,引导T2V模型的奖励加权学习。
数据集介绍
数据标注页面展示
统计数据可视化
实验结果
实验结果展示
结论
本文提出了一种全新的视频生成人类偏好对齐方法——LiFT。该方法首先构建了包含约10,000条合成视频评分及其理由的人类标注数据集LiFT-HRA,并在此基础上训练奖励模型LiFT-Critic,从人类反馈中学习奖励函数,作为人类判断的代理,评估合成视频与人类期望的匹配度。最后,通过最大化奖励加权似然的微调方法,利用LiFT-Critic对T2V模型进行优化,使生成的视频更符合人类偏好。实验结果表明,在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~