首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
国产大模型黑马的首个推理模型来了,和 o1 PK后,我发现了AI深度思考的大问题
科技
2024-11-22 12:42
广东
时至今日,再有哪个厂商出来说自己对标 OpenAI,大家都当宣传口径看一看——也就那么回事吧。
但露相不真人,真人不露相,现在还能打出这个旗号的,不乏有些真本事在身上。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
昨天,DeepSeek 新推出 R1-Lite 推理模型的预览版本,使用强化学习训练,号称不仅媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。
通过 DeepSeek的 chat 平台,我们体验了一下这款最新的模型。除了它的实力之外,另一个问题浮出水面:思维链真的有那么香吗?
目前 DeepSeek 大方开出每日 50 次免费深度思考额度,链接指路:
https://chat.deepseek.com
两眼一睁就是做题
来吧,既然是主打推理的模型,肯定是逃不开做题的,两眼一睁就是做题。
首先是经典提问:strawberry 数字母。Strawberry 已经成了固定操作,ChatGPT 甚至把它放到了启动页面上。
还有,比较 9.9 跟 9.11 哪个更大,以及变体问题。在比数字上,DeepSeek 答案是没错的。但深度思考模式下处理这样一个简单问题的时候,思考记录长达 500 多字。
不开启深度思考模式,反而简洁明了得多。
在 strawberry 的问题上普通模式错了,深度思考模式也错了。拉开它的思维记录,最后一句话是这样的:
很好,我知道你很有自信,但先别太自信,这也没做对啊。
DeepSeek 似乎一直没办法正确面对 strawberry 这个单词,X 用户也反映了这个问题。
当我拉开深度思考的记录时,好家伙,这一大篇小作文,超过三百字。而且内容太过于搞笑,背下来就能登上脱口秀舞台。
实际上模型出错不足为奇,或者说,这两个经典开局,做错还是做对并没有那么生死攸关。但是以什么样的方式做错 or 做对,就很重要了。
后来有一个反推问题,让它给我几个包括两个或以上「r」字母的单词,过长的思维链让它直接卡 bug 了……
不过,在做过的题上,它表现没什么问题。在输入一道 AIME 真题之后,即便不启动深度思考模式,解题过程也很清晰。
AIME 号称是全美最高难度的数学竞赛,所以这个解题过程到底正不正确,咱也不知道了。下面是官方的参考答案,懂行的朋友们可以对比检验一下。
这几个理科题其实就可以看出来,思维链,真是一把双刃剑,而且落地形态有点迷惑。
在此之外,还有几个日常题目。比如天气预报和穿衣建议。
注意 chat.deepseek 不能联网,调用不了任何实时资料。也不能画图、表格等等。比如下面,尝试让它制作一个灌篮高手的人物关系图。
目前来看它主要是作为一个让大家可以一窥模型能力的简易产品,没有做太多的功能。可以用来尝试,但显然无法胜任生产力助手。
综合考验
从 o1 的推出开始,后面陆续涉及到推理能力的模型更新,我们都做过体验和测试。在这个过程中也意识到一个问题:
单纯的数学题,并不能很好的展现一个模型的综合能力。
数学题的确有一个不容置喙的唯一答案,但让模型去找到那个唯一答案,并不能全面展示它的能力。
上个月,苹果发布过一篇论文认为 LLMs 缺乏真正的数学推理,主要依赖于模式匹配。
苹果的研究人员不认为大语言模型能进行「真正的」逻辑推理,而是依赖模式匹配。只要稍微改变一些细节(名字、地点、货币单位等),就会影响模型的发挥——改动数字就更不用说了。
换句话说,模型就好比一个吞下了无数本题库的做题家,只要题目和数据集里的「真题」有几分相似,就能正常反应。而离题库越远,改动越大,就越难有好的表现。
苹果研究人员对比后发现,即便是无关的细节改动,也会显著影响模型表现
就像学生对某一次考试的题弄明白了,下一次同样类型的题换个数,又不会了。这时候数学老师都会语重心长地说:这叫做没有吃透,不具备核心层面的解决问题的能力。
对于一个想要进入实际应用场景的模型来说,能否根据当前的信息反应,才更有说服力。为了更好的测试这方面的表现,我们的一位综艺爱好者同事,在网上找来了一套有趣的测试题:水果商店。
这是一套由桌游改编而来的游戏,在原版游戏里是多玩家参与,每个人将会抽取两种水果,并为自己的水果出价。价最低者,揽下整个品类的售卖权,或者跟同价位玩家平分收入。价最高者,直接出局,收入为 0。
这就导致在实际游戏中,不仅要有快速计算的能力,还要有能吃透规则、结盟搭伙的能力。由于一个出价就能牵一发而动全身,还需要有整体思考的能力。
为了简化流程给模型做测试,具体的数据我们就用 python 脚本跑了一下,让模型做整理就好。但还是为模型捏了一把汗:光是规则介绍就老长了,模型还得先看懂。
这是对模型的独特挑战:如果只是真人玩家,只需要关心自己的出价和收入就好,需要处理的信息反而没有那么多。但是模型需要在理解规则的情况下,综合所有出价,做交叉计算。
我们拿 o1 作为对比,DeepSeek 第一轮就出现了错误,把玩家 2 的收入算错了。
不过,DeepSeek 的反思和修正能力非常惊人。在指出错误之后,能及时的修正数据,且不影响后续的计算,不是每个模型都能做到这一点——智谱究竟是在嘴硬什么……
这是 DeepSeek 最惊艳的地方,即便开头出现了错误,后续的所有计算全都是正确的。随之而来的是思考时间和过程的拉长。到了第三轮出价,思考记录简直逆天,来到了惊人的 1600 字。
1600 字的记录是什么概念——相当于两篇高考作文。
在对其它模型的测试中,第三轮出价或多或少都会出错。DeepSeek 的推理和计算能力有目共睹,只是,这个思维链的应用,显得有些迷惑。
作为一项优化模型的技术,思维链的价值无需质疑。o1 是最典型的例子,注入 CoT 之后,ChatGPT 的表现焕然一新。
而自此之后,模型的默认打开方式就是,全透明地展示思考过程。甚至像 Claude 这样不打明牌的产品,也有尖子生用户,通过 prompt engineering 的方式,自己动手改造成思考透明的「类 o1」设计:Thinking-Claude。
随后各家都紧随其后,快步跟上。于是,大模型产品们,纷纷向用户打开了自己的脑回路,展示自己每一步的推理表现。这一次 DeepSeek 更加是「掏心掏肺」。
但当我看到一千六百字的思考记录时,着实有点恍惚:所以这是要拿来干嘛?
在合适的量级里,思考记录可以成为 debug 的参照。比如说第一轮出错时,我能看到它是在哪里出现的问题,继而更明确地指出错处。
但是当思考记录超过一千字的时候,逐字逐句研读就失去了意义——AI 本来是为了给我解决问题的,而不是来制造新问题的。
在产品经理们先下手为强的环境里,这个问题好像还没有被讨论过:
思维链有必要完全展示在用户眼前吗?
更确切地说,模型的「思考过程」应该以什么方式出现在用户面前。
就这样赤裸裸的展现出来吗?冗长的思考记录,究竟是能提高用户的使用体验,还是更困惑了?
这些都是非常值得深究的问题。或许在短时间里,一部分功能和特性,是「为了存在而存在」,但那不会长久。每一项功能,都会需要找到真正的自身价值。
http://mp.weixin.qq.com/s?__biz=MjM5MjAyNDUyMA==&mid=2651030203&idx=1&sn=b749efb6f3dc44dbbbfbc9bc849df6ad
APPSO
AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI
最新文章
首发体验| AI学会发红包了!国产Agent一句话控制手机电脑,我看到了「摸鱼自由」的未来
字节跳动起诉前实习生并索赔 800 万/华为百万级轿车 48 小时预订量达 2108 台/支付宝上线 「AI 帮找工作」功能
Sora 泄露事件背后,艺术家为什么要集体反抗 OpenAI?
AI 视频巨头重磅更新!提示词都不用费劲写了,从未有过这样的视频创作方式
OpenAI 再获软银 15 亿美元投资 / 比亚迪回应要求供应商降价:非强制要求/《王者荣耀》卫冕 10 月全球手游收入冠军
Sora 遭遇严重泄露!艺术家愤怒「复仇」OpenAI,测试渠道全网疯传
史上最薄 iPhone 或全面取消实体SIM卡/预售价百万起,华为发布尊界S800/英伟达展示AI语音模型
Mate 70 发布!华为最强 AI 手机来了,余承东高呼对得起「那四个字」
网易云音乐怒斥 QQ 音乐「剽窃式创新」/华为Mate70系列支持 AI 手势隔空传送/库克来华:没中国就没苹果今天的成就
国行 iPhone 16 实现 AI 自由,三步就够了
微信内测原图原视频 14 天自动清理功能/iPhone17系列仅Pro机型搭载5倍光学变焦/AI助力,陶哲轩宣布等式理论计划成功
AI 聊天机器人让用户去死,大学生吓到崩溃,官方紧急道歉
AI或成华为Mate70最大卖点/苹果Siri大升级,2026年拟超ChatGPT/可口可乐AI广告翻车|Hunt Good周报
刚刚,黄仁勋获港科大荣誉博士,演讲大秀中文,称 AI 可能是人类历史上最重要的技术
你画 AI 猜,这个开源 AI 图像神器,在玩一种很新的 P 图
小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器
国产大模型黑马的首个推理模型来了,和 o1 PK后,我发现了AI深度思考的大问题
《黑神话:悟空》 获金摇杆奖年度游戏/胖东来回应「员工结婚不许要彩礼」/OpenAI 薪酬曝光,奥特曼年薪仅 55 万
农夫山泉钟睒睒炮轰张一鸣,要求道歉/马斯克:AGI最晚2026年实现,人形机器人超100亿/曝华为鸿蒙智行销售车型明年翻倍
初代星舰最后一飞!首次在太空点燃猛禽发动机,马斯克、特朗普现场观看
iPhone 17 Air 厚度曝光,将是苹果最薄手机/余承东展示华为Mate70 细节/阿里通义千问发布新开源 AI 模型
马斯克与 OpenAI 决裂内幕全曝光!这封邮件让他破防,怒斥「我受够了」
从 GPT-2 开始玩 AI 的博士生,把论文做成了上线 Steam 的独立游戏 |AI 新职人
华为Mate70系列开启预售,预约人数超200万/《黑神话:悟空》获TGA年度游戏提名/英伟达AI芯片被曝存在过热问题,交付推迟
马斯克新 AI 破解千年难题却被紧急喊停?这个「玩笑」怎么让 AI 圈一夜未眠
首发 | Kimi 首个多模态功能体验,AI 一键为音乐生成 MV,月之暗面不再只卷长文本
华为 Mate 70 定档海报提前曝光/AI 疑似证明黎曼猜想,已被叫停/vivo X200 系列更新改善炫光
看着这个 AI 奶奶把骗子耍得团团转,可把我高兴坏了
马斯克再谈约架扎克伯格:随时奉陪/传满血版 o1 下月推出/苹果或将推出 AI 智能家居中控屏 | Hunt Good 周报
Kimi 发布新模型对标 OpenAI o1!月之暗面创始人回应近期争议
给马斯克上了瑞士卷大考后,我终于拿捏这个国产 AI 视频模型的最强新功能
17 岁高中生写了个神级 Prompt,直接把 Claude 强化成了满血 o1
余承东曝Mate70将在本月26日发布/美团哈啰单车在郑州停运,哈啰已恢复/OpenAI 拟打造AI 经济区与中国竞争
AI 最可怕的不是取代人类,是已经让我们不相信看到的是真照片
iPhone 15成Q3全球销量最高智能手机/OpenAICEO辟谣AI发展「撞墙」论/B站上市后首次单季度盈利
OpenAI 最新产品全曝光!奥特曼驳斥 AI 发展撞墙,Ilya 认错,秘密寻找下一个重大突破
苹果广告又翻车,给 AI 产品做创意怎么就不能 Think different
OpenAI 下一代模型遭遇重大瓶颈,前首席科学家透露新技术路线
曝小米AI眼镜将于明年发布,雷军预期出货30万台/马斯克新职务官宣,狗狗币大涨/苹果或将推出 AI 智能家居中控屏
黄仁勋最新演讲:每家公司都将成为 AI 制造商 | 万字实录
OpenAI 总裁宣布回归!结束「最长假期」,将专注重大技术挑战
2025 放假安排公布,增加两天假期 / 李子柒恢复更新,播放量破亿 / 百度发布首款 AI 眼镜
百度发布首款 AI 眼镜!比 Meta 爆款更卷,苹果也在押注的智能眼镜正在爆发
支付宝崩了上热搜,官方致歉/字节豆包发布新模型,AI 一句话 P 图/罗永浩发文怒喷餐厅卖预制菜
人类智力锁死在了 2021,OpenAI CEO 预言 AGI 可在 5 年内实现 | 万字专访实录
独家首测:全新 Mac mini 的 Type-C 接口能供电了?实测后,我们发现了苹果的秘密
OpenAICEO :AGI将于2025年到来 / iPhone 部分旧款机型降至半价 / 开封夜骑爆火,官方喊话夜骑大学生
黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手
传 Sora 两周内推出/OpenAI 元老、北大校友翁荔宣布离职/Google 版「贾维斯」泄露 | Hunt Good 周报
打败 Midjourney,匿名屠榜的 AI 生图黑马,让人人都能设计海报
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉