1. LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
点击下方卡片,关注“自动驾驶之星”
近年来,文本到视频(Text-to-Video, T2V)生成模型展现了令人印象深刻的能力。然而,这些模型在使合成视频与人类偏好对齐方面仍然不足。这尤其难以解决,因为人类的偏好本质上是主观的,很难形式化为客观函数。因此,本文提出了LiFT,一种利用人类反馈进行T2V模型对齐的新颖微调方法。
具体来说,我们首先构建了一个包含大约1万个带有评分及其对应理由的人类标注的数据集——LiFT-HRA(Human Rating Annotation)。基于此数据集,我们训练了一个奖励模型LiFT-Critic来有效学习奖励函数,该模型作为人类判断的Agent,用于衡量给定视频与人类期望之间的对齐程度。最后,我们利用学到的奖励函数通过最大化奖励加权来对齐T2V模型。
作为案例研究,我们将这一流程应用于CogVideoX-2B,并展示了微调后的模型在所有16个指标上均优于未微调的CogVideoX-5B模型,突显了人类反馈在提升合成视频对齐度和质量方面的潜力。
这项研究表明,通过引入人类反馈机制,可以显著改善T2V模型生成内容的质量和与人类偏好的一致性,为未来的研究和发展提供了新的方向。
论文:https://arxiv.org/pdf/2412.04814
2. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
我们推出了InternVL 2.5,这是一个先进的多模态大规模语言模型(MLLM)系列,它在保持InternVL 2.0核心模型架构的基础上,在训练和测试策略以及数据质量方面引入了显著的改进。在本文中,我们深入探讨了模型扩展与性能之间的关系,系统地研究了视觉编码器、语言模型、数据集大小的性能趋势。
通过在包括跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理在内的广泛基准上的详尽评估,InternVL 2.5展现了与领先商业模型如GPT-4o和Claude-3.5-Sonnet相匹敌的竞争性性能。尤为值得一提的是,我们的模型是首个开源MLLM,在MMMU基准上超过了70%,通过链式思维(Chain-of-Thought, CoT)推理实现了3.7个百分点的提升,展示了强大的测试时扩展潜力。
我们希望通过这个模型为开源社区做出贡献,设定开发和应用多模态AI系统的新标准。您可以在HuggingFace上查看演示:https://huggingface.co/spaces/OpenGVLab/InternVL。
论文:https://arxiv.org/pdf/2412.05271
3. CompCap: Improving Multimodal Large Language Models with Composite Captions
复合图像是通过合并多个视觉元素(如图表、海报或截图)而创建的合成视觉内容,而不是直接由相机捕捉的自然图像(NIs)。尽管复合图像在现实应用中非常普遍,但最近的MLLM发展主要集中在解释自然图像上。
我们的研究表明,当前的MLLM在准确理解复合图像方面面临重大挑战,常常难以从这些图像中提取信息或进行复杂的推理。我们发现,现有的复合图像训练数据大多是为了问答任务的(例如,在ChartQA和ScienceQA等数据集中),而高质量的图像-字幕数据集——对于实现稳健的视觉-语言对齐至关重要——却只存在于自然图像领域。
为了解决这一差距,我们引入了“复合字幕”(Composite Captions, CompCap),这是一个灵活的框架,利用大语言模型(LLMs)和自动化工具来生成带有准确且详细字幕的复合图像。通过CompCap,我们整理了一个名为CompCap-118K的数据集,其中包含六种类型的复合图像共118,000个图像-字幕对。我们通过监督微调三种不同规模的MLLM模型:xGen-MM-inst.-4B 和 LLaVA-NeXT-Vicuna-7B/13B,验证了CompCap-118K的有效性。实证结果显示,CompCap-118K显著提升了MLLM对复合图像的理解能力,在十一个基准测试中分别获得了平均1.7%、2.0%和2.9%的提升。
论文:https://arxiv.org/pdf/2412.05243