【论文日报】LLM合集：上海AI Lab推出LiFT，利用人类反馈强化学习，显著提升文生视频效果

文摘 2024-12-11 10:04 上海

1. LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

近年来，文本到视频（Text-to-Video, T2V）生成模型展现了令人印象深刻的能力。然而，这些模型在使合成视频与人类偏好对齐方面仍然不足。这尤其难以解决，因为人类的偏好本质上是主观的，很难形式化为客观函数。因此，本文提出了LiFT，一种利用人类反馈进行T2V模型对齐的新颖微调方法。

具体来说，我们首先构建了一个包含大约1万个带有评分及其对应理由的人类标注的数据集——LiFT-HRA（Human Rating Annotation）。基于此数据集，我们训练了一个奖励模型LiFT-Critic来有效学习奖励函数，该模型作为人类判断的Agent，用于衡量给定视频与人类期望之间的对齐程度。最后，我们利用学到的奖励函数通过最大化奖励加权来对齐T2V模型。

作为案例研究，我们将这一流程应用于CogVideoX-2B，并展示了微调后的模型在所有16个指标上均优于未微调的CogVideoX-5B模型，突显了人类反馈在提升合成视频对齐度和质量方面的潜力。

这项研究表明，通过引入人类反馈机制，可以显著改善T2V模型生成内容的质量和与人类偏好的一致性，为未来的研究和发展提供了新的方向。

论文:https://arxiv.org/pdf/2412.04814

2. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

我们推出了InternVL 2.5，这是一个先进的多模态大规模语言模型（MLLM）系列，它在保持InternVL 2.0核心模型架构的基础上，在训练和测试策略以及数据质量方面引入了显著的改进。在本文中，我们深入探讨了模型扩展与性能之间的关系，系统地研究了视觉编码器、语言模型、数据集大小的性能趋势。

通过在包括跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理在内的广泛基准上的详尽评估，InternVL 2.5展现了与领先商业模型如GPT-4o和Claude-3.5-Sonnet相匹敌的竞争性性能。尤为值得一提的是，我们的模型是首个开源MLLM，在MMMU基准上超过了70%，通过链式思维（Chain-of-Thought, CoT）推理实现了3.7个百分点的提升，展示了强大的测试时扩展潜力。

我们希望通过这个模型为开源社区做出贡献，设定开发和应用多模态AI系统的新标准。您可以在HuggingFace上查看演示：https://huggingface.co/spaces/OpenGVLab/InternVL。

论文:https://arxiv.org/pdf/2412.05271

3. CompCap: Improving Multimodal Large Language Models with Composite Captions

复合图像是通过合并多个视觉元素（如图表、海报或截图）而创建的合成视觉内容，而不是直接由相机捕捉的自然图像（NIs）。尽管复合图像在现实应用中非常普遍，但最近的MLLM发展主要集中在解释自然图像上。

我们的研究表明，当前的MLLM在准确理解复合图像方面面临重大挑战，常常难以从这些图像中提取信息或进行复杂的推理。我们发现，现有的复合图像训练数据大多是为了问答任务的（例如，在ChartQA和ScienceQA等数据集中），而高质量的图像-字幕数据集——对于实现稳健的视觉-语言对齐至关重要——却只存在于自然图像领域。

为了解决这一差距，我们引入了“复合字幕”（Composite Captions, CompCap），这是一个灵活的框架，利用大语言模型（LLMs）和自动化工具来生成带有准确且详细字幕的复合图像。通过CompCap，我们整理了一个名为CompCap-118K的数据集，其中包含六种类型的复合图像共118,000个图像-字幕对。我们通过监督微调三种不同规模的MLLM模型：xGen-MM-inst.-4B 和 LLaVA-NeXT-Vicuna-7B/13B，验证了CompCap-118K的有效性。实证结果显示，CompCap-118K显著提升了MLLM对复合图像的理解能力，在十一个基准测试中分别获得了平均1.7%、2.0%和2.9%的提升。

论文:https://arxiv.org/pdf/2412.05243

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

大模型月度回顾 · 2024年12月

Robo周报：比亚迪、理想、广汽等推进机器人研发/ 传禾赛裁员数百人/英伟达将推全新机器人芯片...

3D视觉理解GPT4Scene：通过视觉-语言模型从视频中理解3D场景

北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

腾讯微信团队 & 上交通 & 南大揭秘模型汤，构建与优化，视觉-语言模型的强基准与有效改进策略研究！

端到端智驾半壁江山都来了！2025首场自动驾驶峰会全部嘉宾揭晓，还将拆解世界模型与VLM

博世XC中国高管离职，增加自研力量

CVPR & AAAI | AI创新的交汇点：扩散模型与卷积网络的碰撞效应

VisionPAD:一种以视觉为中心的自动驾驶预训练范式！

告别2024，迎来2025，你准备好了吗！

北大/加州大学提出 OpenAD: 3D物体检测的开放世界自主驾驶基准！

如何高效的将智驾AI大模型软件模块部署到SOC芯片上？

锚定智能汽车赛道，企业如何“破卷”？来ICV CHINA 2025上海智能汽车科技展，抢占市场先机

HSl-Drive v2.0: 更多数据用于自动驾驶场景理解的新挑战 !

AAAI'25 | EGSRAL：3DGS渲染器如何生成带有自动标注的全新视角图像？

具身智能干货最多的社区推荐---入门必看！

「少数派」小马智行：不神化端到端，也不吹商业化

面试题: 大模型中的tokenize方法有哪些？

Robo Weekly：小米汽车接入VLM、Waymo将入日本测试，小鹏公布机器人专利...

武大/中科院/悉尼科技大学/牛津大学/西交大共同提出 DriveMLLM : 自主驾驶中多模态大语言模型的空间理解基准！

自动驾驶与具身智能依然在不断崛起！

面试题：计算softmax为什么要除以根号d?

自动驾驶与具身智能依然在不断崛起！

和量产相关的自动驾驶论文不得不看！

transformer手绘图解（注意力机制的本质）

DriveGPT实现Waymo最佳预测: 扩展自回归行为模型在自动驾驶中规划与预测

NeurIPS & CVPR | 从像素到路径：扩散模型引领自动驾驶新风向

弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

有关对汽车行业想法的记录

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

NeurIPS与AAAI焦点：扩散模型与文本生成的强强联手

12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X：7B具身多模态动作模型

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

腾讯混元3D-1.0:文本到3D和图像到3D的统一框架！

端到端自动驾驶终极态---VLAM范式路测效果来袭！

新加坡国立大学/清华大学提出 LaVida Drive:用于自动驾驶的视觉-文本交互VLM，具有令牌选择、恢复和增强功能！

面试题: Transformer中为什么要用多个头？

李沐：大模型发展趋势与个人职业选择

无人驾驶公司AutoX新战略

专家对话摘要：「一段式端到端」还不现实

一个智驾行业从业者的思考

某主机厂智驾自研的波澜

论文速览 | Diffusion Forcing：给视频扩散模型的每一帧添加不同强度的噪声

LLM，一艘方向不对但积重难返的华丽游轮...

长城汽车如何应对端到端的下限问题？

用于自动驾驶最优间距选择和速度规划的多配置二次规划（MPQP）

自动驾驶之心举办了一个自动驾驶论坛，邀请各位大佬现场聊聊

Bosch 研究院提出 MTA: 用于BEV感知和描述的多模式任务对齐！

一文读懂：从RAG到多模态RAG

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉