最新开源:Meta和HuggingFace双双开源「小模型」!超快速、超高性能...

文摘   2024-11-02 16:28   广东  

01
Meta 重磅发布!MobileLLM 模型全面开放,零样本常识推理任务表现优异

MobileLLM 是 Meta 推出的一个针对在设备上使用场景优化的十亿参数级语言模型。该项目通过整合 SwiGLU 激活函数、深薄架构、嵌入共享和分组查询注意力机制等多种设计因素,实现了在少于十亿参数的情况下获得高质量的语言模型。

MobileLLM-125M/350M 在零样本常识推理任务上相比先前的同规模最佳模型取得了显著的准确率提升,在聊天和API 调用任务中,效能大幅超越同参数量的小型LLM。

论文地址:https://arxiv.org/pdf/2402.14905


02
HuggingFace 的 SmolLM2: 一个超快速、超高性能的小模型

Hugging Face 发布了 SmolLM2 —— 一系列专门针对设备上的应用进行优化的全新小型模型。SmolLM2 在其前身 SmolLM1 的成功基础上,提供了增强的功能,同时保持了轻量级,具有 1.7B、360M、135M 三个参数级。

SmolLM2 旨在通过紧凑和多功能性来克服大型 LLM 的局限性。

该模型在指令跟随、知识推理和数学能力上表现出显著进步。通过监督微调和超反馈优化,该模型支持文本重写、摘要生成和函数调用等任务。

基准测试结果凸显了 SmolLM2 的改进。SmolLM2 在 IFEval 上的得分为 56.7,在 MT Bench 上的得分为 6.13,在 MMLU-Pro 上的得分为 19.3,在 GMS8k 上的得分为 48.2,表现出了极具竞争力的性能,通常可以匹敌甚至超越 Meta Llama 3.2 1B 模型


03
字节开源 MimicTalk 代码,15分钟生成3D说话人脸视频

  • 论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

  • 论文链接:https://arxiv.org/pdf/2410.06734

  • 项目主页:https://mimictalk.github.io/

  • 代码链接:https://github.com/yerfor/MimicTalk

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白,浙江大学与字节跳动提出了 MimicTalk 算法。

MimicTalk 是一项创新的技术,它可以在短短15分钟内,训练出一个高质量、个性化的数字人模型。该项目基于 NeRF 技术,能够快速训练并生成高质量的说话头像MimicTalk 的代码基于之前的 Real3D-Portrait 项目,支持通过音频驱动生成特定人物的说话头像。

图1:MimicTalk 包含一个高质量人脸渲染器(紫色)和一个能够模仿说话风格的动作生成器(蓝色)

通过(1)将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和(2)具有上下文学习能力的人脸动作生成模型,MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外,单个数字人模型的训练时间可以被压缩到 15 分钟以内,相比现有最高效的同类方法快了 47 倍


04
Meta 开源长视频LLM项目 LongVU:过滤重复帧,增强现实世界长视频理解

最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度的限制,而 LongVU 正是为了解决这一难题而诞生。

LongVU 结合了先进的视觉编码器和语言模型,能够有效处理和理解长视频中的复杂信息。项目提供了多种资源版本,支持本地部署和在线演示,适用于需要处理视频和语言数据的多种应用场景

在各种视频理解基准测试中,LongVU 的表现均超越了现有的其他方法,尤其是在需要理解长达一小时的视频任务中,如 VideoMME 和 MLVU 等。即便是在资源较轻的 LLM 下,LongVU 也能够展现出卓越的表现,且模型规模较小。

项目入口:https://vision-cair.github.io/LongVU/


参考:
https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
https://arxiv.org/pdf/2402.14905

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章