LiFT:利用人工反馈实现文本到视频模型对齐

文摘   2024-12-11 00:00   江苏  



 

LiFT:利用人工反馈实现文本到视频模型对齐

今天给大家介绍的文章来自公众号粉丝投稿,这项研究提出了一种新颖的微调方法 LiFT,利用人类反馈通过三个关键阶段进行 T2V 模型对齐:(1) 人类反馈收集,(2) 奖励函数学习,以及 (3) T2V 模型对齐。

提示词: 一位长发飘逸的女子站在沙滩上,拉着一条色彩鲜艳的风筝线。风筝又大又亮,在湛蓝的天空中高高飞扬。她的休闲装束,包括一件白色背心和牛仔短裤,与轻松阳光的氛围相得益彰。她抬头仰望,脸上洋溢着快乐和自由的感觉,风筝在微风中翩翩起舞,营造出动感而活泼的场景。

相关链接

  • • Project page: https://codegoat24.github.io/LiFT
  • • Huggingface: https://huggingface.co/papers/2412.04814
  • • Code: https://github.com/CodeGoat24/LiFT
  • • Paper: https://arxiv.org/pdf/2412.04814

论文阅读

LiFT:利用人工反馈实现文本到视频模型对齐

摘要

近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。这是因为人类偏好具有主观性,难以形式化为客观函数,所以无法在训练中对模型直接进行引导。为此,该工作提出了一种基于人类反馈的T2V模型微调对齐方法, LiFT。我们构建了包含约10,000条合成视频评分及理由的人类标注数据集LiFT-HRA,并在这个数据集上训练奖励模型LiFT-Critic以学习基于人类偏好的奖励函数,让它作为人类判断的代理,衡量合成视频与人类期望的匹配程度。最终,我们利用LiFT-Critic对T2V模型进行最大化奖励加权似然的微调对齐,使其生成的视频与人类偏好对齐。我们的实验研究表明,LiFT在CogVideoX-2B上的应用显著提升了模型性能,在16项指标上全面超越CogVideoX-5B,展示了人类反馈在优化生成视频质量中的潜力。

方法简介

该工作提出的的LiFT微调方法包含以下三个关键步骤:
  1. 1. 收集人类反馈:从提前设计好的丰富的类别词中随机选择来生成短语,并使用LLM扩展为详细提示,再将文本提示输入到T2V模型中来生成视频-文本对,最后通过人工标注来构建出视频领域全新的人类反馈数据集,LiFT-HRA;
  2. 2. 学习奖励函数:基于该数据集训练出视觉-语言大模型LiFT-Critic,学习反映人类偏好的奖励函数,从三个维度对合成视频进行评分,
  3. 3. T2V模型对齐:使用LiFT-Critic对T2V模型生成的视频进行评估,通过将评分映射为奖励权重,引导T2V模型的奖励加权学习。

数据集介绍

数据标注页面展示

统计数据可视化

实验结果

在Vbench上多个维度的对比结果展示。标签区域中间的两种方法表示我们对CogVideoX-2B根据不同奖励学习策略进行微调后的模型。

实验结果展示

A student sits in a quiet library, surrounded by towering shelves of books. The camera captures their focused expression as they take notes, then pans to reveal sunlight streaming through a large arched window.
A farmer harvests ripe apples in an orchard during golden hour. The camera captures the lush trees laden with fruit, the farmer's gentle movements, and the sunlight filtering through the branches.
A woman with long, flowing hair stands on a sandy beach, pulling a colorful kite string. The kite, vibrant and large, soars high above her against a clear blue sky. Her casual attire, consisting of a white tank top and denim shorts, complements the relaxed, sunny atmosphere. She looks upwards, her face lit with a sense of joy and freedom, as the kite dances in the breeze, creating a dynamic and lively scene.

结论

本文提出了一种全新的视频生成人类偏好对齐方法——LiFT。该方法首先构建了包含约10,000条合成视频评分及其理由的人类标注数据集LiFT-HRA,并在此基础上训练奖励模型LiFT-Critic,从人类反馈中学习奖励函数,作为人类判断的代理,评估合成视频与人类期望的匹配度。最后,通过最大化奖励加权似然的微调方法,利用LiFT-Critic对T2V模型进行优化,使生成的视频更符合人类偏好。实验结果表明,在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章