DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

科技 2024-12-31 12:28 北京

一水发自凹非寺
量子位 | 公众号 QbitAI

国产之光DeepSeek V3竞技场排名新鲜出炉——

优于o1-mini（总榜第7），获最强开源模型认证（也是唯一闯入前10的开源模型）。

单项上，在困难提示、编程、数学，写作等方面全面超越Claude 3.5 Sonnet。

不过，如果设置了风格控制，Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

（风格控制：剔除模型通过长篇且格式良好的回复来迎合人类偏好）

由此也引发两边支持者激烈的争论：

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗？

带着同款好奇，量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜，一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正确。它先明确了题目要求，然后逻辑满分找出了正确答案（甚至还有自我验证）。

相比之下，Claude 3.5 Sonnet既正确又简洁。

当然，考虑到脑筋急转弯这种东西也受东西文化差异影响，我们再来一道。

why are people tired on April Fool’s Day? （为什么人们在愚人节很累？）
答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军)，March除了三月还有行军的意思，这里考察对双关的理解。

好嘛，DeepSeek V3果然歇菜了。从部分回答来看，它完全误解了题目意图，一本正经地回答是因为人们感到焦虑、熬夜之类。

而Claude 3.5 Sonnet稳稳守住了主场，也是轻轻松松get了双关。

显而易见，Claude 3.5 Sonnet在第一关小试牛刀中全胜，而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级，利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟，台下十年功，为何不在台上练功？

很好，DeepSeek V3又掉线了，精准踩进人类陷阱。（正能量满满可还行）

不过别担心，你的难兄难弟Claude 3.5 Sonnet来陪你了(doge）。

看来面对充满心机的弱智吧问题，二位选手都不在状态。

Okk，不继续在这上面为难二位了，下面来一道正儿八经的“反转诅咒”（即知道A是B却不知道B是A）问题。

而两位选手都一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

考研数学真题

下面进入数学能力测试。比如这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

直接上传截图，DeepSeek V3还是详细按步骤解答，而且也做对了。

而Claude 3.5 Sonnet虽然看起来方法更简单，但最终答案错误，功亏一篑。

编码能力

重头戏来了，最后来考查一下模型编码能力。

刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试，在Scroll Hub中分别用它俩创建网站。

博主在测试之后，认为DeepSeek V3完全胜出。

小结一下，从有限测试来看，DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

满血版o1空降第一

BTW，随着DeepSeek V3竞技场排名一起变动的，还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1，此次超越o1-preview 24分，空降总榜第一。

而且除了创意写作，各个单项都是第一。

所以，对于这几家，大家在使用过程中感受如何呢？？

竞技场试玩：
https://lmarena.ai/

参考链接：
https://x.com/lmarena_ai/status/1873695386323566638

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

超越ControlNet++！腾讯优图提出动态条件选择新架构

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

3D版抖音有望诞生，零门槛3D创作时代来临｜VAST宋亚宸@MEET 2025

协议曝光！原来微软OpenAI这样定义AGI

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

宿舍/房间网不好？一加新机能穿3墙、离200米接收wifi信号，玩《原神》平均帧率超120

2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025

智平方郭彦东：具身智能到达GPT-2时刻，产业化成败在于“物理世界大模型”工程化能力

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

钛动科技陈德品：Scaling Law在营销应用中也适用，AIGC内容正在催生爆款 | MEET2025

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

一水 发自 凹非寺量子位 | 公众号 QbitAI

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

弱智吧逻辑陷阱+反转诅咒

考研数学真题

编码能力

满血版o1空降第一

一水发自凹非寺
量子位 | 公众号 QbitAI