全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

科技 2024-12-16 12:32 北京

允中发自凹非寺
量子位 | 公众号 QbitAI

全球首个端侧全模态理解开源模型来了！

在菜单里帮忙选奶茶，不在话下：

还能帮忙轻松提炼长语音，再也不用对着一串几十秒语音头皮发麻（doge）。

就在刚刚，无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni，不仅体积轻巧，速度飞快，更是一个多才多艺的全能选手，能够轻松处理图片、音频、文本三种模态数据。

在众多测评基准中，Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能。作为一个3B模型，综合性能表现甚至能超过34B模型。

具体来说，Megrez-3B-Omni采用了专为手机、平板等端侧设备量身定制的30亿参数黄金尺寸，主干网络参数规模更是仅有2.3B，精度超越了上一代14B模型，最大推理速度更是比同精度模型快达300%。

一起来看更多技术细节~

图像理解

在图像理解方面，Megrez-3B-Omni作为一个体积仅为3B的模型，其综合性能表现可以全面超过34B的庞然大物，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

与此同时，Megrez-3B-Omni 在场景理解、OCR等任务上也具有良好表现，能够准确洞察和分析任意比例尺寸图像中的场景内容，并高效地从中提取文本信息，且无论是模糊的印刷体还是复杂的手写字，都能够轻松识别。

不仅能理解手机屏幕上的信息，给定条件辅助商品挑选。

读取手写字体，一样轻松搞定：

文本理解

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni在没有牺牲模型的文本处理能力的前提下，将上一代14B大模型的优秀能力压缩至3B规模，显著降低了计算成本、提升了计算效率。

在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度，在文本理解方面确立了全球领先地位。同时，以更少的资源消耗，实现了更高的性能输出，为端侧设备的智能化提供了进一步突破精度与速度边界的全新可能。

de个Bug，成功：

紧急处理备忘录中的资料，也没问题：

音频理解

在语音理解方面，Megrez-3B-Omni的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问。

用户就任意模态内容，发出语音指令，Megrez-3B-Omni就能根据语音指令直接响应文本，实现多轮对话中语音与文本输入的自由切换，让用户可以通过更少动作与模型展开更直观、自然的交互。

遇到客户的超长语音连击也不怕了：

支持语音问图，还能听口令写小作文：

推理效率高，应用场景灵活

模型的规模并不是决定其速度的唯一因素，因此模型小并不一定就意味着速度快。凭借对硬件特性的深入理解与利用，Megrez-3B-Omni 通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。

与上一代及其他端侧大语言模型相比，单模态LLM版本的Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型300%。

Megrez-3B-Instruct这次还特别提供了WebSearch功能，这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。用户得以构建属于自己AI搜索，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。

有时，模型通过搜索网页可以更全面地完成回答，而其他时候，模型自身已具备足够的知识来独立解决问题，过多的搜索调用可能会降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换，避免了过度依赖搜索或完全不调用搜索的问题。除了可以自动决策工具调用时机之外，Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

目前，这些能力已集成于Megrez-3B-Instruct 模型中，用户可以通过System Prompt 自由切换，同时享受到高精度模型推理能力与智能WebSearch 调用收益。

One More Thing

相较于云端大模型，端侧模型需要在资源有限的设备上快速部署、高效运行，对降低模型计算和存储需求提出更高要求。

无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，正是模型轻量化、软硬件协同优化领域的顶尖团队。

无问芯穹表示，Megrez-3B-Omni是一个能力预览，接下来还将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。目前，无问芯穹就该一体化方案已与多家知名智能设备和终端芯片厂商展开合作。

在这个方案中，除端侧全模态理解模型外，还有端上推理软件和IP设计方案，不仅支持CPU、GPU和NPU 的同时推理，更能通过跨越软硬件层次的系统优化，额外带来最高可达70%的性能提升，最大化端侧硬件性能的利用。

对那些久困于功耗、速度、续航以及智能效果的端侧设备来说，这意味着，效果更佳的智能升级成为可能。

Github： https://github.com/infinigence/Infini-Megrez
HuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni
登录Infini-AI异构云体验纯语言版本Megrez-3B-Instruct：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

素数分布规律又有新发现！赵宇飞学生与牛津教授合作成果

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

图森未来转型6个月：推出AI大模型，布局游戏生态，思考和底气是什么？

这届AI创业：不敲一行代码，营收突破百万级

AI已经在直播间狂刷KPI了

AI风暴席卷达摩院青橙奖，六成获奖者用AI搞科研，平均年龄34岁

1万人研究证实：玩游戏提升智力，与遗传/经济水平都无关

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

突发！GPT论文一作Alec Radford离职，前两代GPT作者全部离开OpenAI

不会代码的独立开发者，除了学Cursor，还该会些什么？｜十问爆款「小猫补光灯」

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

云计算一哥的生成式AI之道：Choice Matters

大模型是新的数据库！蚂蚁开源负责人王旭：应用开发新范式，新一代LAMP正在形成 | MEET 2025

英伟达新品“掌心AI超算”，¥1800跑8B多模态模型，算力暴增70%价格腰斩

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

见证历史！AI想的科研idea，真被人类写成论文发表了

从骁龙8至尊版，我看到了AI手机的未来 | 智在终端

新奥程路：AI×能源已到“奇点变革”前夜，仿真大模型是关键｜MEET 2025

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘 | AAAI

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵海螺

ChatGPT搜索与Her打通了！搜索免费开放，居然还剧透明日直播主题

Kimi版o1实装上线，这里是我们的一手测试↑

把1个脑洞发展成1场顶会workshop，阿里妈妈只用了1年｜直击NeurIPS'24

企业级Agent已进入生产力阶段｜BetterYeah AI张毅@MEET

Gemini 2.0成P图神器，各种P图只需一句话的事儿，可把网友馋哭了

21天不用手机，抑郁减少，入睡更快丨正经研究

基于昇腾算力突破AI求解，最高加速100倍！| 华为GTS&深圳市大数据研究院

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

月薪1万4的ChatGPT要来了！OpenAI自曝其达博士级别，网友：我宁可聘请一个博士

直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”

OpenAI附议Ilya预训练终结！“但Scaling Law还没死”

Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

ChatGPT终于也推出Projects功能，却故意露出一个“AGI”的项目

4000万+用户！测测CEO任永亮：一个行业既不能离AI太近也不能离AI太远 | MEET 2025

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，剪枝合并也无所遁形

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

允中 发自 凹非寺量子位 | 公众号 QbitAI

图像理解

文本理解

音频理解

推理效率高，应用场景灵活

One More Thing

允中发自凹非寺
量子位 | 公众号 QbitAI