今日值得关注的大模型前沿论文
首个端到端车载 VLM 框架
FlipSketch:将静态图纸变为草图动画
清华团队:从 AI 驱动的自动证伪中生成科学
谷歌提出「无启发式多教师学习」
CodeXEmbed:用于多语言和多任务代码检索的通用嵌入模型
BALROG:LLM 和 VLM 的智能体能力评估基准
AdaptAgent:通过对人类演示的少样本学习调整多模态网页智能体
Video-RAG:视觉对齐检索-增强长视频理解
WebDreamer:基于模型的网络智能体规划
想要第一时间获取每日最新大模型热门论文?
扫码下方二维码,加入「大模型技术分享群」。
或点击阅读原文,查看「2024必读大模型论文」,查看更多日报、月报。
首个端到端车载 VLM 框架
个性化驾驶是指自动驾驶汽车在保持安全和舒适标准的前提下,调整其驾驶行为或控制策略以匹配个人用户偏好和驾驶风格的能力。然而,随着用户群的扩大,现有技术要么无法精确捕捉每个人的偏好,要么计算效率低下。视觉语言模型(VLM)通过其自然语言理解和场景推理能力,为这一领域提供了前景广阔的解决方案。
在这项工作中,来自普渡大学的研究团队及其合作者提出了一个轻量级但有效的车载 VLM 框架,其在保持强大推理能力的同时,提供低延迟的个性化驾驶性能。该解决方案包含一个基于检索-增强生成(RAG)的记忆模块,可通过人的反馈持续学习个人驾驶偏好。通过全面的实际车辆部署和实验,这一系统已证明能够在各种场景下提供安全、舒适和个性化的驾驶体验,并显著降低了高达 76.9% 的接管率。据介绍,这项工作代表了真实世界自动驾驶汽车中首个端到端基于 VLM 的运动控制系统。
论文链接:
https://arxiv.org/abs/2411.11913
FlipSketch:将静态图纸变为草图动画
草图动画为视觉叙事提供了一个强大的媒介,从简单的翻书涂鸦到专业的工作室制作,无所不包。传统的动画制作需要熟练的艺术家团队来绘制关键帧和中间帧,而现有的自动化尝试仍然需要通过精确的运动路径或关键帧规范来完成大量的艺术工作。
在这项工作中,萨里大学 SketchX 团队推出的 FlipSketch 系统能让你重拾翻书动画的魅力——只需画出你的想法,并描述你希望它如何运动即可!这一方法利用从文本到视频扩散模型的运动先验,通过三个关键创新将其调整为生成草图动画:(1)微调草图风格的帧生成,(2)参考帧机制,通过噪声细化保持输入草图的视觉完整性,(3)双注意力合成,在不失去视觉一致性的情况下实现流畅运动。与受限的矢量动画不同,他们的光栅框架支持动态草图变换,捕捉到了传统动画的自由表现力。
论文链接:
https://arxiv.org/abs/2411.10818
项目地址:
https://hmrishavbandy.github.io/flipsketch-web/
清华团队:从 AI 驱动的自动证伪中生成科学
人工智能(AI)大大加速了科学发现的发展。通过大规模观测数据的训练,深度神经网络以端到端的方式提取潜在模式,并协助人类研究人员在未知场景中进行高精度预测。大语言模型(LLMs)和自主智能体(agent)使科学家能够在研究的不同阶段通过互动获得帮助,包括但不限于文献综述、研究构思、想法实现和学术写作。然而,由基础模型驱动的具有全流程自主权的智能体研究仍处于起步阶段。
在这项工作中,清华大学团队研究了人工智能生成科学(AI-Generated Science,AIGS),即智能体独立自主地完成整个研究过程并发现科学规律。通过重新审视科学研究的定义,他们认为证伪是人类研究过程和 AIGS 系统设计的关键。从证伪的角度来看,之前试图实现 AIGS 系统要么在设计中缺少这一部分,要么严重依赖现有的验证引擎,从而缩小了在专业领域的应用范围。
他们提出了 Baby-AIGS 作为全流程 AIGS 系统的雏形,它是一个多智能体系统,其中的智能体角色代表了关键的研究流程。通过引入 FalsificationAgent(识别并验证可能的科学发现),他们赋予了系统明确的证伪功能。三项任务的实验初步表明,Baby-AIGS 可以产生有意义的科学发现,尽管无法达到经验丰富的人类研究人员的水平。最后,他们详细讨论了当前 Baby-AIGS 的局限性、可操作的见解以及相关的伦理问题。
论文链接:
https://arxiv.org/abs/2411.11910
项目地址:
https://agent-force.github.io/AIGS/
谷歌提出「无启发式多教师学习」方法
谷歌团队提出了 Teacher2Task,这是一种多教师学习框架,无需人工汇总启发式方法。现有的多教师方法通常依赖于这种启发式方法组合来自多个教师的预测,这往往会导致次优的聚合标签和聚合误差的传播。Teacher2Task 通过引入特定教师的输入 token 和重新制定训练流程,解决了这些局限性。
该框架将由 N 名教师的基本真实标签和注释组成的训练数据转化为 N+1 个不同的任务,而不是依赖于综合标签:N 个辅助任务用于预测 N 个教师的标签风格,一个主要任务侧重于基本真实标签。这种方法借鉴了多种学习范式的原理,在一系列架构、模态和任务中都取得了显著的实证结果。
论文链接:
https://arxiv.org/abs/2411.12724
CodeXEmbed:用于多语言和多任务代码检索的通用嵌入模型
尽管文本检索在许多 NLP 任务中取得了成功,但代码检索在很大程度上仍是一个未被充分开发的领域。大多数文本检索系统都是为自然语言查询量身定制的,往往忽略了检索代码所面临的特殊挑战。这一缺陷使得现有模型无法有效捕捉不同领域中编程语言和任务的多样性,从而凸显了对代码检索进行更有针对性的研究的必要性。
为了解决这个问题,Salesforce 团队推出了一个大规模代码嵌入模型系列 CodeXEmbed,其参数范围从 400M 到 7B 不等。他们的训练管道统一了多种编程语言,并将各种代码相关任务转化为通用检索框架,从而提高了模型的通用性和检索性能。他们的 7B 模型在代码检索领域实现了 SOTA,在 CoIR 基准上比之前的领先模型 Voyage-Code 高出 20% 以上。除了在代码检索方面表现出色外,他们的模型在广泛采用的 BeIR 文本检索基准上也表现出了极具竞争力的性能,提供了跨领域的通用性。实验结果表明,提高检索性能可显著增强代码相关任务的端到端检索增强生成(RAG)性能。
论文链接:
https://arxiv.org/abs/2411.12644
BALROG:评估 LLM 和 VLM 的智能体能力
大语言模型(LLM)和视觉语言模型(VLM)拥有丰富的知识,并表现出良好的推理能力,但在复杂的动态环境中仍难以表现出色。现实世界的任务需要处理错综复杂的交互、高级空间推理、长期规划和不断探索新策略——在这些领域,业内缺乏全面评估这些能力的有效方法。
为了弥补这一不足,来自伦敦大学学院和 IDEAS NCBR 的研究团队及其合作者,推出了一个新基准 BALROG,旨在通过一系列具有挑战性的游戏来评估 LLM 和 VLM 的智能体能力。该基准结合了一系列难度各异的现有强化学习环境,包括非专业人类可在数秒内解决的任务,以及可能需要数年才能掌握的极具挑战性的任务(如 NetHack 学习环境)。
他们设计了衡量性能的细粒度指标,并对几种流行的开源和闭源 LLM 和 VLM 进行了广泛评估。研究结果表明,虽然目前的模型在较简单的游戏中取得了部分成功,但在更具挑战性的任务中却表现得十分吃力。值得注意的是,基于视觉的决策存在严重缺陷,因为当提供环境的视觉表征时,模型的表现会更差。
论文链接:
https://arxiv.org/abs/2411.13543
AdaptAgent:通过对人类演示的少样本学习调整多模态网页智能体
多模态网页智能体(agent)由多模态大语言模型(MLLM)驱动,可以通过处理用户指令和与图形用户界面(GUI)交互,自主执行许多网页任务。当前构建网页智能体的策略依赖于:(1)底层多模态大语言模型的通用性及其通过提示的可操控性;(2)针对网络相关任务对多模态大语言模型进行大规模微调。然而,网页智能体仍难以在未见过的网站和域中自动执行任务,这限制了它们在企业专用和专有平台上的适用性。
除了通过大规模预训练和微调实现泛化外,该研究还建议利用人类演示来构建可实现少样本适应性的智能体。在这项工作中,来自乔治亚理工学院和摩根大通的研究团队提出了 AdaptAgent 框架,该框架可让专有和开放权重的多模态网页智能体通过少量人类演示(最多 2 次)来适应新网站和新领域。他们在 Mind2Web 和 VisualWebArena 这两个流行基准上进行的实验表明,使用上下文演示(针对专有模型)或元适应演示(针对元学习的开放权重模型)可将任务成功率提高 3.36% 至 7.21%,与未适应的 SOTA 模型相比,相对成功率提高了 21.03% 至 65.75%。此外,他们还进行了其他分析:(1)显示了多模态演示比纯文本演示更有效;(2)揭示了元学习过程中不同数据选择策略对智能体泛化的影响;(3)证明了少量实例的数量对网页智能体成功率的影响。
论文链接:
https://arxiv.org/abs/2411.13451
Video-RAG:视觉对齐检索-增强长视频理解
由于上下文有限,现有的大型视频语言模型(LVLM)难以正确理解长视频。为解决这一问题,微调长上下文 LVLM 和采用基于 GPT 的智能体已成为有前途的解决方案。然而,微调 LVLM 需要大量高质量数据和大量 GPU 资源,而基于 GPT 的智能体则依赖于专有模型(如 GPT-4o)。
在这项工作中,来自厦门大学和罗切斯特大学的研究团队提出了视频检索-增强生成(Video-RAG)技术,这是一种无需额外训练、成本效益高的管道,它采用视觉对齐的辅助文本来帮助促进跨模态对齐,同时提供视觉内容之外的额外信息。具体来说,他们利用开源外部工具从纯视频数据(如音频、光学字符和对象检测)中提取视觉对齐信息,并以即插即用的方式将提取的信息作为辅助文本与视频帧和查询一起纳入现有的 LVLM。
Video-RAG 具有以下几个关键优势:(1)单次检索带来的轻量级低计算开销;(2)易于实施并与任何 LVLM 兼容;(3)在包括 Video-MME、MLVU 和 LongVideoBench 在内的长视频理解基准测试中取得显著、一致的性能提升。值得注意的是,当与 72B 模型一起使用时,模型比 Gemini-1.5-Pro 和 GPT-4o 等专有模型表现出更优越的性能。
论文链接:
https://arxiv.org/abs/2411.13093
WebDreamer:基于模型的网络智能体规划
语言智能体(agent)在基于网页的任务自动化方面表现出了不错的潜力,尽管与人类相比,它们目前的反应式方法在很大程度上仍然表现不佳。虽然结合先进的规划算法,特别是树搜索方法,可以提高这些智能体的性能,但由于诸如确认购买等不可逆转的操作,直接在实时网站上实施树搜索会带来巨大的安全风险和实际限制。
在这项工作中,来自俄亥俄州立大学和 Orby AI 的研究团队提出了一种新颖的范例,它通过基于模型的规划来增强语言智能体,开创性地将大语言模型(LLM)作为复杂网络环境中的世界模型。这一方法为 WebDreamer,建立在 LLM 本身编码有关网站结构和功能的全面知识这一关键见解之上。具体来说,WebDreamer 利用 LLM,使用自然语言描述模拟每个候选操作的结果(例如,“如果我点击这个按钮会发生什么?),然后对这些想象的结果进行评估,以确定每一步的最佳行动。
在两个具有代表性的在线交互网页智能体基准(VisualWebArena 和 Mind2Web-live)上取得的经验结果表明,WebDreamer 比反应式基线有了很大改进。通过确立 LLM 在网页环境中作为世界模型的可行性,这项工作为自动网页交互范式的转变奠定了基础。更广泛地说,该研究为未来的研究开辟了令人兴奋的新途径:1)优化 LLM,使其专门用于复杂、动态环境中的世界建模;2)语言智能体基于模型的推测规划。
论文链接:
https://arxiv.org/abs/2411.06559
整理:李雯靖
如需转载或投稿,请直接在公众号内留言