首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
DeepSeek版o1与OpenAI的o1大PK,到底谁真的炸场了?
科技
2024-11-24 21:56
山西
大数据文摘受权转载自夕小瑶科技说
作者 | 付奶茶
家人们,DeepSeek 刚推出了他们最新的类o1推理模型——DeepSeek R1-Lite。
这代表着国产大模型开始进入o1时代了。
根据官方的介绍,r1的
思维链的长度可以达到数万字
,采用强化学习技术,推理过程涵盖大量的反思和验证环节。
先简单看一眼指标表现,再拉出来练练。
整体结论是:数学和编程方面,这款模型与o1-preview相当,甚至一些榜单结果上超越了o1。
比如美国数学竞赛(AMC)中最高难度级别的AIME,DeepSeek R1-Lite领先o1一大截!
推理时间更长了!但是效果更牛逼了!
DeepSeek提到,他们做了更强势的推理时间越长,性能越好。
如下图所示,DeepSeek-R1-Lite-Preview和o1-preview对比,随着思考长度的增加,AIME 上的得分稳步提高。
预览版可以试用了,正式版在路上
DeepSeek团队透露,R1模型目前还在持续打磨中。
后续会推出正式版,并且开源,开放API,还会公布完整的技术细节。我已经等不及了,勇士们快点肝!
目前线上的还是预览版,每天可以50次免费测试~
想试试的小伙伴,链接我贴在这儿了:
https://chat.deepseek.com/
拉出来比武!
既然开测试了(让我白嫖)!那咱们就拿几道题测测它!
首先是大名鼎鼎的草莓问题。
问题:“strawberry”几个r?
先是不用o1,答错了。
再打开o1,答对了。
但是再试一遍,第一次思考了2秒,这次思考了14秒。
错了。。(请仔细看它的思考过程,中间说了好几遍“有两个r”,一遍遍否定自己,有继续得出错误结论)
试试openai的o1,也不对。
再来一个反转字母!
问题:请帮我将这串字符全部的字母反着写:QingguanzhuXixiaoyao!
家人们!我把它弄崩溃了!我看它委屈成这样我都心软软!
它反复怀疑自己,反复怀疑题目,氮素,最后它错的很离谱啊!
不仅字母没有顺利反转,而且还加了字符串外的字母~
而o1 就快速的做错了,错的简简单单,轻轻松松,不费力气hh:
虽然DeepSeek-R1-Lite号称更长的推理时间带来了更好的效果,但是好像结果上差别不大啊,o1甚至没有引入字符串的字母,错的都没有DeepSeek-R1-Lite离谱!这局的胜负难定!
再来一道!
问题:9.9和9.11哪个大?
看到前面推理过程磨磨叽叽犹犹豫豫,奶茶还以为这把又要搞砸了,结果DeepSeek-R1-Lite窝窝囊囊中的做对了!!
而o1还是干净利落的做错了hh~
还有编程问题,必须测一测。
问题:选了一道经典的leetcode问题,求长度最小的子数组。
它思考了整整一分钟,中间打印了好多步骤,最终,水灵灵滴得推理出来错误答案。。。
中间推理错了答案,
最后,验证了错误答案。。
openAI o1则简短的给出了正确答案。
数学和编程问题就到此为止吧。
再来一道开放性题目!
问题:我很好奇大语言模型的未来,能不能帮我想个办法未来让大语言模型为我挣钱?
DeepSeek-R1-Lite:
o1:
这样看下来,DeepSeek-R1-Lite在开放性答案上,想很多!
但是它输出的方案并不是很具体,没有什么可以借鉴的明确路线,而o1还能说出来点有用的答案!
结语
前不久讨论特别热烈的一个话题是“Scaling Law有没有撞南墙”,众多大佬下场发表看法。目前业界已经开始动摇了沿着Scaling Law继续走下去的信念,而o1是OpenAI提出来的LLM后时代的一条新路径,获取内部早就调转了车头也未可知。
仅从我们试用的一些case看,不足以代表DeepSeek-R1-Lite它的真实水平,但从中窥见,r1还有非常大的提升空间的。
但是,o1标注大模型从快思考进入慢思考,这条路还有许多可能和想象。DeepSeek这次是率先推出了国内版o1,追赶速度非常快,中国速度是牛的!要知道做事情从0-1的过程是最难的。
对于国产大模型的o1,我依然非常期待。
租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800
特别适合企业级应用
扫码了解详情☝
点「在看」的人都变好看了哦!
大数据文摘
普及数据思维,传播数据文化
最新文章
RTX5090震撼发布,一文带你看懂英伟达CES2025发布会。
谢赛宁、李飞飞「空间智能」新作:多模态大模型仍难突破空间推理
GitHub 造假浪潮爆发!已有450万虚假星标,实锤造假将导致仓库限流
惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
现在的搜索引擎,快被AI垃圾淹成赛博粪坑了。
Sam Altman 剧透2025年OpenAI的大计划
强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性
OpenAI 突发公司剧变,将分裂为两家组织:一块营利,一块非营利
某机构:JSON 输出会让 AI 变笨!大佬:是你们太菜了
中国首次!高文院士获得 IEEE 社会基础设施创新奖
AI美女图成了过去式,“巨物宝可梦”才是新的流量密码。
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
尤瓦尔·赫拉利对话李开复:AI终将比我们更聪明,但它们不会有人性……
黄仁勋:扫过最多厕所的CEO
锤爆Sora,尺度最大,谷歌发布最强视频模型Veo2,叫板海螺可灵
中国科学家李春来、徐沪济上榜!2024《自然》十大科学人物揭晓
愤怒!AI 顶级会议 NeurIPS 现场,MIT演讲者现场歧视中国人
OpenAI长文爆料反击马斯克诉讼:“你不能通过诉讼获得AGI”
谷歌发布Gemini2.0,开启Agent新时代
体操运动,是所有AI视频最残酷的图灵测试。
刚刚,OpenAI Sora来啦!AI视频新纪元已开启
满血版 o1 上线两天,被网友玩出来了 10 个疯狂用法
清华赵明国专访:坚守人形机器人二十载,从孤军奋战到百家争鸣
o1满血版上线,还有卖200美刀的Pro会员|OpenAI直播第1天。
一张图,生成一个世界!李飞飞首个空间智能项目发布
新瓜不断!2024NeurIPS最佳论文,花落字节起诉的实习生
ICLR'25 惊现[10,10,10,10]满分论文,ControlNet 一作张吕敏新作,Github 5.8k 颗星
破例两篇!NeurIPS时间检验奖颁给了Ian的GAN、Ilya的Seq2Seq,实至名归
从Neuralink开始 美国脑机接口研究迎来春天
AI又一突破!“眼神打字”更快更省力,研究登上Nature子刊
Sora被泄漏! 艺术家联盟上书,奥特曼怒拔网线!
一手体验Kimi版“o1”模型,这就是最通人性的数学AI。
DeepSeek版o1与OpenAI的o1大PK,到底谁真的炸场了?
Science重磅:AI完成定向蛋白质进化,特性提升100倍
具身大模型,国内最大融资诞生
3名高中生中了AI顶会NeurIPS!来自人大附中、北师大实验中学、上海星河湾双语学校
微信公众号悄悄上线AI音色克隆,微信的一小步,却是AI的一大步。
吴恩达最新观点:LLM的下一个新兴方向是Agentic AI
Nature重磅:AI化学家再升级!大幅提升实验效率,推动化学合成进入“智能化”新阶段
Ilya承认Scaling Law到头了,Meta和谷歌寻找替代o1的方法
17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1。
著名AI学者、天工智能首席科学家颜水成离开昆仑万维
马斯克和特朗普这对CP组合赢了后,科技界会变天吗?
人工智能专家获诺奖,是希望之光,还是灾难前奏?
贝索斯领投、OpenAI连续跟投,这家机器人公司再融4亿美金
你愿意和AI恋人共度一生吗?
比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行
专访"Prompt之神"李继刚 - 我想用20年时间,给世界留一句话。
深夜重磅!ChatGPT可以“AI搜索”了,但并不完美
谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉