MobileLLM 是 Meta 推出的一个针对在设备上使用场景优化的十亿参数级语言模型。该项目通过整合 SwiGLU 激活函数、深薄架构、嵌入共享和分组查询注意力机制等多种设计因素,实现了在少于十亿参数的情况下获得高质量的语言模型。
MobileLLM-125M/350M 在零样本常识推理任务上相比先前的同规模最佳模型取得了显著的准确率提升,在聊天和API 调用任务中,效能大幅超越同参数量的小型LLM。
论文地址:https://arxiv.org/pdf/2402.14905
Hugging Face 发布了 SmolLM2 —— 一系列专门针对设备上的应用进行优化的全新小型模型。SmolLM2 在其前身 SmolLM1 的成功基础上,提供了增强的功能,同时保持了轻量级,具有 1.7B、360M、135M 三个参数级。
SmolLM2 旨在通过紧凑和多功能性来克服大型 LLM 的局限性。
该模型在指令跟随、知识推理和数学能力上表现出显著进步。通过监督微调和超反馈优化,该模型支持文本重写、摘要生成和函数调用等任务。
论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
论文链接:https://arxiv.org/pdf/2410.06734
项目主页:https://mimictalk.github.io/
代码链接:https://github.com/yerfor/MimicTalk
为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白,浙江大学与字节跳动提出了 MimicTalk 算法。
图1:MimicTalk 包含一个高质量人脸渲染器(紫色)和一个能够模仿说话风格的动作生成器(蓝色)
通过(1)将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和(2)具有上下文学习能力的人脸动作生成模型,MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外,单个数字人模型的训练时间可以被压缩到 15 分钟以内,相比现有最高效的同类方法快了 47 倍。
最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度的限制,而 LongVU 正是为了解决这一难题而诞生。
LongVU 结合了先进的视觉编码器和语言模型,能够有效处理和理解长视频中的复杂信息。项目提供了多种资源版本,支持本地部署和在线演示,适用于需要处理视频和语言数据的多种应用场景。
项目入口:https://vision-cair.github.io/LongVU/
参考:
https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
https://arxiv.org/pdf/2402.14905