【最新大模型论文】清华刘知远团队提出大模型“密度定律”!MatchVision:足球领域的第一个视觉语言基础模型!...

文摘   2024-12-11 09:00   广东  
01
清华刘知远团队提出大模型“密度定律”

  • 论文链接:https://arxiv.org/abs/2412.04315

清华NLP实验室刘知远教授团队,最新提出大模型的密度定律(densing law):模型能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍


大模型尺度定律 VS 密度定律

大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指导性的规律发现。它们分别在不同的维度,对大模型进行科学化的推演。
大模型尺度定律:是一种描述大模型随着规模的变化而发生的规律性变化的数学表达,表现为大模型的Loss与模型参数规模、训练数据规模之间的幂律关系。
清华研究团队提出的“能力密度”(Capability Density),定义为给定LLM的有效参数大小与实际参数大小的比率
有效参数大小指的是达到与目标模型同等性能所需的参考模型的参数数量。
通过研究分析近年来 29 个被广泛使用的开源大模型,清华研究团队发现,
LLM 的最大能力密度随时间呈指数增长趋势,可以以下公式来描述,其中 ρ_max 是时间 t 时 LLM 的最大能力密度。

根据密度定律,研究团队还得出以下重要推论,并且发现 AI 时代的三大核心引擎——电力、算力智力,都同样遵循密度快速增长趋势。

  • 电池能量密度在过去 20 年中增长了 4 倍,其倍增周期约为 10 年

  • 摩尔定律则揭示,芯片的晶体管密度每 18 个月翻倍;

  • 而 AI 模型能力密度每 100 天翻倍的速度更是惊人。

  1. 推论 1:模型推理开销随时间指数级下降。

  1. 推论 2:大模型能力密度正在加速增强。

  2. 推论 3:模型小型化揭示端侧智能巨大潜力。

  1. 推论 4:无法依靠模型压缩算法增强模型能力密度。

现有的模型压缩技术(如剪枝和蒸馏)未必能提高模型密度。实验表明,大多数压缩模型的密度低于原始模型,模型压缩算法虽可以节省小参数模型构建开销,但是如果后训练不充分,小参数模型能力密度将会有显著下降。

  1. 推论 5:模型高性价比有效期不断缩短。

根据:
  • 尺度定律,更多数据 + 更多参数实现能力增强,训练成本会急剧上升;

  • 能力密度定律,随着能力密度加速增强,每隔数月会出现更加高效的模型。

这意味着模型高性价比的有效使用期缩短,盈利窗口短暂

02
MatchVision:足球领域的第一个视觉语言基础模型

  • 论文链接:https://arxiv.org/abs/2412.01820

  • 项目地址:https://jyrao.github.io/UniSoccer/

来自上海交通大学的研究团队及其合作者为足球视频理解开发了一个全面的多模态框架。

具体来说,他们做出了以下贡献:

  • (1) 提出 SoccerReplay-1988:这是迄今为止最大的多模态足球数据集,包含来自 1988 场完整比赛的视频和详细注释,并配有自动注释管道;

  • (2) 提出了足球领域的第一个视觉语言基础模型 MatchVision:该模型利用足球视频中的时空信息,在各种下游任务中表现出色;

  • (3) 在事件分类、解说生成和多视角犯规识别方面进行了广泛的实验和消融研究。实验证明,MatchVision 在所有这些方面都表现出了 SOTA,大大超过了现有模型,这凸显了他们提出的数据和模型的优越性。

这项工作将为体育理解研究提供一个标准范例。

03
SOLAMI:首个端到端社交视觉-语言-动作建模框架

  • 项目主页:https://solami-ai.github.io/

  • 技术报告:https://arxiv.org/abs/2412.00174

近日,来自商汤科技、南洋理工大学和S-Lab的研究团队提出了首个端到端社交视觉-语言-动作(VLA)建模框架 SOLAMI,用于与 3D 自主角色进行沉浸式交互。

具体来说,SOLAMI 从三个方面构建 3D 自主角色:

  • (1)社交 VLA 架构:可根据用户的多模态输入生成多模态响应(语音和动作),从而驱动角色进行社交互动。

  • (2)交互式多模态数据:他们推出了一个合成的多模态社交互动数据集 SynMSI,其由一个自动 pipeline 生成,仅使用现有的运动数据集,以解决数据稀缺的问题。

  • (3)沉浸式 VR 界面:他们开发了一种 VR 界面,使用户能够身临其境地与这些由各种架构驱动的角色进行互动。

SOLAMI 的主要功能

SOLAMI 的主要功能:

  • 沉浸式互动:用户在VR环境中用语音和肢体语言与3D虚拟角色进行自然互动。

  • 多模态响应:系统够根据用户的语音和动作输入生成相应的角色语音和动作响应。

  • 角色多样性:支持多种角色,包括超级英雄、机器人、二次元角色等,提供丰富的互动体验。

  • 互动游戏:支持与角色进行简单的互动游戏,如剪刀石头布

图:SOLAMI推理图

如上图所示,SOLAMI 中所有角色的驱动都是由一个统一的端到端VLA多模态模型驱动。

与 GPT-4o 相比,这个模型多了个用户动作的模态,用于理解用户的肢体语言,生成角色的动作。

图:SOLAMI训练过程

如上图所示,SOLAMI 的训练主要分为两个阶段:多任务预训练指令微调训练。这让模型学习动作、语音和文本之间的关联,处理多轮多模态对话。

图:SOLAMI VR工程框架

广泛的定量实验和用户研究表明,SOLAMI 能带来更精确、更自然的角色响应(包括语音和动作),符合用户的期望,而且延迟更低。

图:实验定性分析与VR使用流程

参考:
https://ai-bot.cn/solami/
https://www.163.com/dy/article/JIVH1AN20511ABV6.html
https://www.thepaper.cn/newsDetail_forward_29597222

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章