清华系出手！全球第一款端侧全模态理解模型开源

科技 2024-12-16 13:55 北京

内存占用＜3B，特别支持网页搜索。

编辑 | Panken

智东西12月16日报道，今日，清华系AI Infra创企无问芯穹正式开源端侧解决方案中的全模态理解小模型Megrez-3B-Omni，并同步开源其纯语言模型版本Megrez-3B-Instruct。

Megrez-3B-Omni为端侧而生，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，单模态版本的推理速度最大领先同精度模型300%。

该模型同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了同尺寸下最优性能。

其多模态能力可灵活切换，响应非常迅速。比如先随手拍张单据照片发给它，问“6个人AA人均多少钱”，再语音输入让它写个诙谐文案催大家交钱，它能立即按要求出稿。

▲Megrez-3B-Omni可实现在语音、图像、文本多个模态之间自由切换

和同样三模态的VITA（based on Mixtral 8×7B）、Baichuan-Omni-7B ，双模态的MiniCPM-V 2.6（based on Qwen2-7B）、Qwen2-VL-7B、Qwen2-Audio-7B，以及单一模态的Qwen、Baichuan等模型相比，Megrez-3B-Omni在主流基准测试集上的表现都不逊色。

Megrez-3B-Instruct还提供了WebSearch功能，支持调用外部工具进行网页搜索。

无问芯穹成立于2023年5月，由清华大学电子工程系教授、系主任汪玉教授发起，汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。其技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，擅长模型轻量化、软硬件协同优化。

该公司以“释放无穹算力，让AGI触手可及”为使命，致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

今年9月，无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲在与智东西等媒体交流时透露，该公司今年已有一些规模化收入，主要来自销售算力，明年会进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式，与合作伙伴做联合的芯片发布，计划明年有一些落地尝试。经其内部测算，无问芯穹预计将在3到5年内实现盈利。

作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成，无问芯穹认为要实现端侧AGI，像Megrez-3B-Omni这样的全模态理解模型是必不可少的一环。

无问芯穹称Megrez-3B-Omni是一个能力预览，接下来将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。

无问芯穹Github、HuggingFace主页以及Modelers魔乐、ModelScope魔搭等社区均可获取Megrez-3B-Omni及其大语言模型版本。无问芯穹Infini-AI异构云平台上可获取大语言模型版本的API或直接在线体验。

Github地址：

https://github.com/infinigence/Infini-Megrez

HuggingFace地址：

https://huggingface.co/Infinigence/Megrez-3B-Omni

Infini-AI异构云地址：

https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

01.

图片理解：3B体量对标34B模型表现，

轻松识别模糊印刷体、复杂手写字

在图像理解方面，Megrez-3B-Omni参数规模仅为3B，其综合性能表现却可以全面超过34B模型，包括LLaVA-NeXT-Yi-34B等模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

▲图源：https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

同时，Megrez-3B-Omni在场景理解、OCR等任务上也表现出色，能够准确洞察和分析图像中的场景内容，高效地从中提取文本信息。

比如发一张模糊截图，哪怕图片里的像素低清，该模型也能秒速识别。

▲Megrez-3B-Omni 屏幕识别

随手拍一张复杂的手写字照片，它也能快速提取里面的关键信息。

▲Megrez-3B-Omni手写字体识别

02.

文本理解：超越上一代14B最佳模型，

读完课堂笔记秒出考题

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni没有牺牲模型的文本处理能力，将上一代14B大模型的优秀能力压缩至3B规模，以更少的资源消耗，实现了更高的性能输出，显著降低了计算成本、提升了计算效率。

该模型在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度，在文本理解方面取得全球领先地位。这为端侧设备的智能化提供了全新可能。

在理解长文本时，该模型能做到准确意图识别和极速推理。

它可以适用于教育等很多文字工作应用场景。比如让它参考课堂笔记，出一套包含3个问题的课后习题。

▲Megrez-3B-Omni文本理解

或者让它帮忙给代码捉虫。

▲Megrez-3B-Omni代码理解

03.

音频理解：输入语音轻松提问，

能听音、问图、解文

在语音理解方面，Megrez-3B-Omni的效果比肩行业主流方案，不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

用户可以就任意模态内容发出语音指令，Megrez-3B-Omni能根据语音指令直接响应文本，从一长段语音中快速提炼重点。

▲Megrez-3B-Omni语音理解

04.

多场景灵活应用：支持网页搜索

Megrez-3B-Instruct还特别提供了WebSearch功能，使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。

▲WebSearch支持

这样用户就能构建属于自己AI搜索，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。

模型有时候自身储备已经足够独立解决问题，这时过多的搜索调用反而可能降低推理速度和效果。Megrez-3B-Instruct通过在搜索和对话之间智能切换，避免了过度依赖搜索或完全不调用搜索的问题。

除了可以自动决策工具调用时机之外，Megrez-3B-Instruct还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

这些能力都已集成于Megrez-3B-Instruct模型中，用户可通过System Prompt自由切换。

05.

结语：一体化设计，推动端侧智能

相较于云端大模型，端侧模型需要在资源有限的设备上快速部署、高效运行，对降低模型计算和存储需求提出更高要求。

模型小，不一定就意味着速度快。

在将推理速度大幅提升背后，凭借对硬件特性的深入理解与利用，Megrez-3B-Omni通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。

此前在提供端上智能一体化解决方案方面，无问芯穹秉持软硬协同理念已与多家知名智能设备和终端芯片厂商展开合作。

除端侧全模态理解模型外，该公司有端上推理软件和IP设计方案，不仅支持CPU、GPU、NPU的同时推理，还能通过跨越软硬件层次的系统优化，额外带来最高可达70%的性能提升，最大化端侧硬件性能的利用，适应电脑、平板、手机乃至眼镜等轻量的端侧移动设备。

通过软硬件联合优化，在端上智能一体化解决方案内，无问芯穹还将推出与之相适配的端侧推理软件与LPU IP等，通过“端模型+端软件+端IP”一体化设计，为端侧设备提供更完整、对硬件利用更高效的智能方案，促进大模型在端侧设备上实现更高推理速度与更低能耗。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

智东西

智能产业新媒体！智东西专注报道人工智能主导的前沿技术发展，和技术应用带来的千行百业产业升级。聚焦智能变革，服务产业升级。

最新文章

OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行

专用、类人形、人形全面布局：普渡机器人解答了具身智能商业化的终极命题

比小米便宜，比Meta高清，国内首款量产AI眼镜999元开售

AI创企暴雷！90后女创始人欺诈被捕：涉案7000万，或面临40年刑期

苹果AI落地中国生变：正接触腾讯和字节，谁还有机会

深圳重磅AI利好！5亿元训力券，1亿元模型券，重奖爆款智能硬件产品

一口气融728亿！AI融资新纪录，比OpenAI还吸金，华人联合创办

黄仁勋深度专访：谈英特尔CEO下课，回应美国半导体管制，用AI写演讲稿

24万“AI民工”血汗，哺出一个95后亿万富豪

深圳教授联手三星高管押注具身智能！被联想创投等看中了

清华系大模型独角兽又融资，30亿元！今年商业化收入翻倍

学校新来的AI体育老师，量身定制每天一小时最合理运动计划

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

清华系出手！全球第一款端侧全模态理解模型开源

国产AI算力黑马崛起，解密英博云全新产品矩阵

XR一夜变天，谷歌“重做安卓”！三星MR头显亮牌，硬刚苹果

2024 ACL Fellow出炉！全球九位科学家入选，华人有四位

后Scaling Law时代，需要一份向量数据库的琅琊榜

趣丸科技贾朔：探索音乐创作的技术平权——AI音乐的创新实践

谷歌最强大模型登场！掀Agent风暴，放AI芯片大招，深夜突袭OpenAI

让手机、PC、汽车、AIoT等“终端”都用好AI，搞定统一生态这事太重要了

靠欺骗AI，他们提走40万元

清华系大模型，又拿数亿元融资！

投影技术的第三次革命！从3LCoS到全产业链蜕变

Sora上线挤爆服务器！1个视频3块钱，网友已玩疯，实测对比可灵海螺

最新国内AI手机排行榜，让人有点破防

人大北航新算法登Nature子刊：破解复杂时空物理场重建难题

杨植麟终于回应，承认张予彤身份！朱啸虎还击：回避了所有关键问题

2024中国生成式AI大会上海站圆满收官，第二日AI Infra峰会演讲精华一文看尽

探访棋坛巅峰赛事：大模型体验区火爆，AI拉满存在感

最强OpenAI o1深夜发布！至尊版套餐每月1450元，支持无限次访问

2024中国生成式AI大会上海站开幕！首日大模型峰会燃爆魔都，17位大咖密集输干货

瞄准万物智联时代安全痛点，安谋科技用硬核技术创新强化PSA安全生态

谷歌发布世界模型Genie 2！一键生成3D游戏，人和AI都能玩，时长多达1分钟

“消失”的小米副总裁

亚马逊年末甩王炸！6款大模型、3nm AI芯片、全球最大AI计算集群，苹果罕见站台

智能手机的未来：端侧大模型重塑用户体验｜vivo AI全球研究院AI算法技术总监李方圆演讲预告

股价飙涨790%！今年最火AI妖股诞生，比英伟达还猛，创始人跻身百亿富豪榜

李飞飞空间智能上新！一张图就可以生成3D世界，能像玩游戏一样互动

生成式AI驱动实时互动的技术变革与体验革新｜声网生成式AI产品负责人毛玉杰演讲预告

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

突发！英特尔CEO基辛格下课，立即生效

谁困住了具身智能？16位人形机器人高管激辩，戳破行业真相

GenAICon 2024上海站分会场议程公布！3场研讨会17位学者专家拆解端侧AI、视频生成与具身智能

联想AIPC端侧智能体｜联想集团首席研究员、联想研究院人工智能实验室研发总监师忠超演讲预告

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

中国大模型生存战：巨头围剿，创业难熬

傅盛捅破AI行业窗户纸！百模大战靠数据背后是什么逻辑？

前小米全球副总裁AI创业！获谷歌、OpenAI联创投资，2个月估值36亿

MiniMax副总裁刘华：多模态大模型开放平台探索与实践｜演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉