最新开源：Meta和HuggingFace双双开源「小模型」！超快速、超高性能...

文摘 2024-11-02 16:28 广东

Meta 重磅发布！MobileLLM 模型全面开放，零样本常识推理任务表现优异

MobileLLM 是 Meta 推出的一个针对在设备上使用场景优化的十亿参数级语言模型。该项目通过整合 SwiGLU 激活函数、深薄架构、嵌入共享和分组查询注意力机制等多种设计因素，实现了在少于十亿参数的情况下获得高质量的语言模型。

MobileLLM-125M/350M 在零样本常识推理任务上相比先前的同规模最佳模型取得了显著的准确率提升，在聊天和API 调用任务中，效能大幅超越同参数量的小型LLM。

论文地址：https://arxiv.org/pdf/2402.14905

HuggingFace 的 SmolLM2: 一个超快速、超高性能的小模型

Hugging Face 发布了 SmolLM2 —— 一系列专门针对设备上的应用进行优化的全新小型模型。SmolLM2 在其前身 SmolLM1 的成功基础上，提供了增强的功能，同时保持了轻量级，具有 1.7B、360M、135M 三个参数级。

SmolLM2 旨在通过紧凑和多功能性来克服大型 LLM 的局限性。

该模型在指令跟随、知识推理和数学能力上表现出显著进步。通过监督微调和超反馈优化，该模型支持文本重写、摘要生成和函数调用等任务。

基准测试结果凸显了 SmolLM2 的改进。SmolLM2 在 IFEval 上的得分为 56.7，在 MT Bench 上的得分为 6.13，在 MMLU-Pro 上的得分为 19.3，在 GMS8k 上的得分为 48.2，表现出了极具竞争力的性能，通常可以匹敌甚至超越 Meta Llama 3.2 1B 模型。

字节开源 MimicTalk 代码，15分钟生成3D说话人脸视频

论文标题：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
论文链接：https://arxiv.org/pdf/2410.06734
项目主页：https://mimictalk.github.io/
代码链接：https://github.com/yerfor/MimicTalk

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白，浙江大学与字节跳动提出了 MimicTalk 算法。

MimicTalk 是一项创新的技术，它可以在短短15分钟内，训练出一个高质量、个性化的数字人模型。该项目基于 NeRF 技术，能够快速训练并生成高质量的说话头像。MimicTalk 的代码基于之前的 Real3D-Portrait 项目，支持通过音频驱动生成特定人物的说话头像。

图1：MimicTalk 包含一个高质量人脸渲染器（紫色）和一个能够模仿说话风格的动作生成器（蓝色）

通过（1）将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和（2）具有上下文学习能力的人脸动作生成模型，MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外，单个数字人模型的训练时间可以被压缩到 15 分钟以内，相比现有最高效的同类方法快了 47 倍。

Meta 开源长视频LLM项目 LongVU：过滤重复帧，增强现实世界长视频理解

最近，Meta AI 团队带来了 LongVU，这是一种新颖的时空自适应压缩机制，旨在提升长视频的语言理解能力。传统的多模态大型语言模型（MLLMs）在处理长视频时面临着上下文长度的限制，而 LongVU 正是为了解决这一难题而诞生。

LongVU 结合了先进的视觉编码器和语言模型，能够有效处理和理解长视频中的复杂信息。项目提供了多种资源版本，支持本地部署和在线演示，适用于需要处理视频和语言数据的多种应用场景。

在各种视频理解基准测试中，LongVU 的表现均超越了现有的其他方法，尤其是在需要理解长达一小时的视频任务中，如 VideoMME 和 MLVU 等。即便是在资源较轻的 LLM 下，LongVU 也能够展现出卓越的表现，且模型规模较小。

项目入口：https://vision-cair.github.io/LongVU/

参考：
https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
https://arxiv.org/pdf/2402.14905

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉