苹果说大模型没有真正的推理能力，但那又如何

财富 2024-10-29 08:56 上海

记者：吴洋洋

编辑：王杰夫

我使用ChatGPT的频次越来越低，一方面是因为一些国产替代产品登录更方便，而且在要翻译长篇论文的时候，号称支持“长文本”的Kimi让我相信它能一次性接受足够多的文字，不用再把一篇论文拆成数段来回复制粘贴——如果使用ChatGPT，仍然需要这么做。

不过翻译品质就是另一回事了。在一篇讨论“内在动机”的行为心理学和机器学习相关论文中，Kimi和ChatGPT都将“reward function”翻译成了“奖励功能”而不是“奖励函数”，直到你指出这种错误它们才纠正。

然而诡异的是，如果你认为这些AI可能不懂心理学和机器学习，它们又会在你接着追问“奖励函数是怎么一回事，在行为心理学和机器学习中有什么应用”时，跟你说得头头是道，引经据典，比如Kimi就标榜它“已阅读60个网页”。

大语言模型到底理不理解它们所说的话？这个问题一度让人很困惑。苹果也在这个月发表了一篇名为《GSM-Symbolic：理解大语言模型在数学推理上的局限性》的文章，其中GSM-Symbolic是苹果研究人员为了测试大语言模型是否真正具备推理能力全新设计的一种方案，但试验结果并不令人满意——包括OpenAI不久前发布的号称用新方法更好地解决了推理问题的o1模型。

这篇论文的理论假设是“大语言模型会的只是模式匹配，而不是实际推理”。为了验证这个假设，研究团队在一系列数学问题中添加了不必要的多余句子，以此观察模型的反应。比如其中一题问：“Oliver星期五挑了44个猕猴桃，然后星期六挑了58个猕猴桃。周日，他挑的猕猴桃数量是周五的两倍，但其中5个猕猴桃的个头比平均水平小一点。那么Oliver有多少个猕猴桃？”

这一题中，“其中5个猕猴桃的个头比平均水平小一点”就是与解题无关的多余信息，但加了这一信息后，所有大语言模型的答题准确率都下降了。其中微软的小模型Phi 3的表现灾难性地下降了65%，OpenAI的o1表现最好，但准确率也下降了17.5%。

研究人员认为，这种错误是“模型倾向于盲目地减去那5个较小猕猴桃的数量”造成的，而它们之所以犯这种错误，根本原因还是它们没有真正理解句子的含义，仅仅将“折扣性的”表述理解为需要对结果乘上一个系数、打个折，然后对每项信息都做这种操作，不管信息是否多余、与最终问题是否相关。

这篇论文的结论可能与很多人使用大语言模型的体验是一致的，那就是“它不会真正的逻辑推理”。这个结论应该让很多担心AI的智能水平就要超越人类、控制人类的人感到一些安心。不过AI是否值得担心不完全取决于它的思维方式像不像人类、能不能推理、有没有意识，而是更取决于其能力是否够强。

也是在10月，杰弗里·辛顿（Geoffrey Hinton）接到了诺贝尔奖官方的电话，官方工作人员在恭喜他获奖之后问了他一个问题：“得奖会让你所在的领域产生一些改变吗？”辛顿回答：“会的，得奖可以让我说的话被更多人信任。”回答这个问题之前，他再次谈到了他对AI安全的担忧，“AI安全问题不像气候变化问题，对于气候变化我们知道怎么应对，就是减碳。但对AI安全，我们还不知道怎么做，我们需要投入资源去研究该做什么。”他说，但包括OpenAI在内的大公司们已经把精力和资源从对AI控制技术的研究中撤走了。

当大语言模型是个足够厉害的工具，它能改变的事情就有很多。目前来说，ChatGPT和Kimi们都没什么“真正的”理解能力、推理能力，但它们已经提供了比所有既有搜索引擎都更优秀的搜索体验。传统搜索引擎比如Google，你只要在那个搜索框中输入几个字，它就会像机器猫的魔法口袋一样蹦出成千上万个可能符合你预期的页面。这已经令人惊叹，不过它本质上仍然只是图书馆书目查询系统——只不过藏书更丰富而已，它收藏的每个网页都像图书一样事先被打好了标签、存储在分配好的位置上，当用户输入关键词，信息管理员就按照关键词到相应书架寻找具有相关标签的书目，抽取出来，展示给用户。

搜索引擎带给用户的是信息交互方式和提取效率上的变化，大语言模型带来的则是信息编码、识别和再提取质量的变化。它们改变的远不止交互方式。

也许，对于“模式匹配”更恰当的认知方式是将其视为“另一种形式的智能”，它与人类高级思维中通过推理加工信息的方式不同，但同样强大。这种例子在技术史上已有很多，老掉牙的例子是飞机，人造飞机能够飞起来的方法和鸟飞起来的方法并不相同；近一点的例子是图像识别，机器学会识别图片依赖于将识别的误差在神经网络中做反向传播，就像每条神经对整个神经网络整体犯的错负有多少责任可以一清二楚地计算出来一样，人脑并不做这种反向传播，但人脑和人工神经网络都能识别图像；功能相同但实现方法不同的例子在自然界的进化中就更多了，蜜蜂那么小的脑袋也能导航，它实现这种功能的方法与人类肯定不同，人类大脑中用以导航的部件——海马体——可能比整只蜜蜂都大。

不同，但有用，或者更强大，一旦这样思考，就会发现AI真正令人担心的不是它像不像人或者有没有意识，而是它的能力有多强。

当一个工具足够强的时候，工具就会驾驭人。最近的例子是推荐算法，只要点开手机的应用使用时长，你就会发现你被囚禁在抖音或小红书上的时间和精力有多恐怖了。有足够多工作要忙的人可能还好一点，最近我听到的一个更值得担忧的状况是农村的留守儿童，当他们的父母忙于为家计奔波，老人又没有能力教育孙辈，很多父母不约而同地选择塞给小孩一部手机。

不少技术公司眼下还在为如何找到大语言模型的产品市场匹配度（PMF）而头疼，但模式匹配的强大能力可能带来的风险已经近在眼前：就像文章开头的例子一样，如果你不具备某个领域的基本认知，过度依赖这些看起来知识渊博的AI，你根本不会知道自己什么时候被骗了——它们连欺骗你的时候都带着自信。

-END-

大模型的秋天来了吗？

属于中国用户的AI手机在哪里？苹果和华为都没有给出答案｜新皮层

诺贝尔物理学奖颁给了两位研究神经网络的人｜突发

识别下图二维码，

即可购买《第一财经》杂志2024年10月刊

http://mp.weixin.qq.com/s?__biz=MjM5NDAzMjk2MA==&mid=2653610196&idx=1&sn=6231f94d286efb63c3916082afa82c0a

第一财经YiMagazine

这里是《第一财经》杂志（前身《第一财经周刊》）读者俱乐部，我们为你发掘精彩的商业价值，也邀请你一起探寻明亮的商业世界。

最新文章

AI玩具是套壳的智能音箱吗

周末今晨发生了什么？ |YiMagazine

智能周报｜向o1模型学习

AI究竟有什么用？——这是一个年度调查，你的经验至关重要

《第一财经》杂志×三联：出发！探索商业世界的人文主义

颁奖倒计时|第十三届食品健康七星奖即将荣耀诞生！

昨夜今晨发生了什么？ |YiMagazine

“变味”的管培生项目

行稳智远，惠享未来丨第一财经年终聚惠如期而至

昨夜今晨发生了什么？ |YiMagazine

牛市投资者求生手册 | 专栏

知城上新 | 产业图谱小程序功能全景介绍

昨夜今晨发生了什么？ |YiMagazine

TikTok电商：和时间赛跑

这个双11，为何年轻人都在为“中国成分”买单？

昨夜今晨发生了什么？ |YiMagazine

双11开战！2024年三大关键消费趋势：低价、白牌、平替，你同意吗？

恒天然精彩亮相2024进博会，以创新、营养与可持续的乳品方案满足本地需求，彰显中国承诺

周末今晨发生了什么？ |YiMagazine

智能周报｜智能眼镜扎堆了

优衣库：如何引领可持续生活之美？

我们的城市“老”了，怎么办？| 新刊发售

“新使命·新格局”——2024第一财经金融峰会开幕在即

昨夜今晨发生了什么？ |YiMagazine

准确预测特朗普胜选的Polymarket到底是个什么公司

昨夜今晨发生了什么？ |YiMagazine

图形用户界面（GUI）将死

昨夜今晨发生了什么？ |YiMagazine

韩束：“榜一大哥”可以快乐多久？

URBAN REVIVO：不断突破，用时尚的方式重塑快时尚

昨夜今晨发生了什么？ |YiMagazine

天图、贝恩、里斯、蜂巧专家共议：新周期下，新国货何以再出发

周末今晨发生了什么？ |YiMagazine

智能周报｜大模型的高增长结束

我们参加双11的理由：带你去看，比生活更远的地方

昨夜今晨发生了什么？ |YiMagazine

一场蓄谋已久的省钱计划 | 专栏

昨夜今晨发生了什么？ |YiMagazine

见证商业逆行者们的大冒险，顺便充值一点年轻力 | 2024未来商业秀活动回顾

“国之光耀巴黎”毛戈平美妆荣获“金字招牌”最佳实践典范——品牌创新典范

昨夜今晨发生了什么？ |YiMagazine

苹果说大模型没有真正的推理能力，但那又如何

昨夜今晨发生了什么？ |YiMagazine

《黑神话》身后，中国游戏的产业探索

【新闻稿】逆流·向新 | 《第一财经》YiMagazine举办第七届“未来商业秀”

智能周报｜荣耀、Anthropic、智谱都想让AI替你操作计算机；滴滴智驾、小马智行、文远知行、地平线都在融资…

ALDI奥乐齐——自牌开拓者的本地化创新之路

两天完整议程公布！ | 逆流·向新，又酷又city的2024未来商业秀已发车

昨夜今晨发生了什么？ |YiMagazine

10月26日完整议程公布！ | 年轻力大派对，去除班味！未来商业秀倒计时2天！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉