阿里开源首个视觉推理模型，击败GPT-4o，网页一度404

科技 2024-12-25 20:44 北京

白小交发自凹非寺
量子位 | 公众号 QbitAI

过年关啦！阿里送上了今年最后一份礼物——

“眼睛”模型QVQ，其中V代表视觉。它只需读取图像和指令，就可以开始思考。

I’m watching you！

据介绍，这可能是全球第一个视觉推理模型，也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。

可以解决数物化生等各领域问题。

读梗图、数鸭子也不在话下。

目前该模型处于实验阶段，开放测试。

结果可能因为访问过多，网页一度还404了。

从性能表现上看，QVQ在MMMU 上的得分为 70.3，这一结果超过GPT-4o、Claude 3.5 Sonnet，但比o1模型还差了那么一点。

阿里开源首个视觉推理模型

官方给了几个演示Demo，让咱们好好感知一下它的推理能力。

首先来看这道数学题。

解题思路如下：

再来个几何题，算算这个沙发的面积。

它的推理过程如下：

高中化学题：图片中的滤液E是什么化学物质？

它的答案是：硫酸亚铁溶液。

他们在四个数据集对眼睛模型QVQ-72B-Preview进行了评估，包括MMMU、MathVista、MathVision、OlympiadBench，主要考察数学多模态推理以及综合理解推理方面的能力。

QVQ-72B-Preview在 MMMU 基准测试中取得了70.3分，大大超过了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个以数学和科学问题为重点的基准测试中，该模型也表现出了卓越的性能，缩小了与o1模型之间的差距。

不过目前该模型属于是团队的实验研究模型，不是特别稳定，有几个限制需要注意。

语言混合和代码切换：该模型可能会意外地混合语言或在语言之间切换，从而影响回答的清晰度。
递归推理：模型可能会陷入循环逻辑模式，产生冗长的回复而无法得出结论。
安全和道德方面的考虑：该模型需要加强安全措施，以确保性能可靠和安全，用户在部署时应谨慎。
性能和基准限制：尽管该模型在视觉推理方面有所改进，但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，从而导致幻觉。

好好预防针打了，那咱们浅浅实测一波。

比如这道考验谷歌版o1的题目：

如何利用这些数字加起来等于30？

结果它识别出来了这几个球对应的数字，没有意识到9号球可以翻转成6号球，然后就陷入无尽的思考之中。。。

在blog最后，他们也透露了接下来的目标——增强视觉语言基础模型，使其具备基于视觉信息进行深度思考和推理的高级能力。

把时间拉长，他们计划是将更多的模态整合到统一的模型中，能够应对复杂的挑战并参与科学探索。

（模型尽头是AI For Science？）

参考链接：
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

超越ControlNet++！腾讯优图提出动态条件选择新架构

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

3D版抖音有望诞生，零门槛3D创作时代来临｜VAST宋亚宸@MEET 2025

协议曝光！原来微软OpenAI这样定义AGI

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

宿舍/房间网不好？一加新机能穿3墙、离200米接收wifi信号，玩《原神》平均帧率超120

2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025

智平方郭彦东：具身智能到达GPT-2时刻，产业化成败在于“物理世界大模型”工程化能力

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

钛动科技陈德品：Scaling Law在营销应用中也适用，AIGC内容正在催生爆款 | MEET2025

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

阿里开源首个视觉推理模型，击败GPT-4o，网页一度404

白小交 发自 凹非寺量子位 | 公众号 QbitAI

阿里开源首个视觉推理模型

白小交发自凹非寺
量子位 | 公众号 QbitAI