导读
苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何形式推理的证据,而更像是复杂的模式匹配器。无独有偶,一项多位数乘法的研究也被抛出来,越来越多的证据证实:LLM不会推理!
正文
换个马甲,大模型的数学能力就滑坡了!
这次,苹果的研究者们仔细研究了GPT-4o和o1系列闭源模型,以及Llama、Phi、Gemma、Mistral等开源模型的数学能力。
此前,业界用来评价大模型数学能力的数据集是2021年发布的GSM8K,该数据集包含8000可小学水平的数学应用题,例如下面的例子:
当索菲照顾她侄子时,她会为他拿出各种各样的玩具。积木袋里有31块积木。毛绒动物桶里有8个毛绒动物。堆叠环塔上有9个五彩缤纷的环。索菲最近买了一管弹性球,这使她为侄子准备的玩具总数达到了62个。管子里有多少个弹性球?
不管开源闭源,都会因题目换皮表现更差
大模型实际不是解数学题,还是在进行模式匹配
线性子图匹配
1. 任何任务的解决问题都可以表示为一个有向图,该图将任务描述为一系列步骤,这些步骤会被分别解决,然后将结果组合在一起。 2. 如果整个任务的解决方案过程可以用一个图来描述,那么其中的子任务就是该图中的子图。图的结构描述了哪些步骤依赖于其他步骤,而这种依赖顺序限制了子图如何被展平成线性序列。 3. GPT类的模型,通常就是通过近似匹配来“解决”上述子图的。给定一个可以用子图描述的问题,大模型就会通过大致将其与训练数据中相似的子图相匹配,来进行预测。
问题:35 乘以 90 等于多少?答案:3150。
错误告诉我们,LLM中真正发生的事
1. LLM无法解决大型问题,因为它们只能解决大型问题中的部分子问题。 2. 如果它们在解决训练数据中频率更高或更精确的子问题上成功了,这表明它们只是记住了答案,通过回忆解决。
一些问题
马库斯:我早说过了
对于苹果的研究,马库斯也专门写了一篇博客进行论述。
符号操作,即某些知识通过变量及其上的操作以真正抽象的方式表示,就像我们在代数和传统计算机编程中看到的一样,必须成为AI发展的组成部分。 神经符号AI——将这种机制与神经网络结合起来——很可能是未来前进的必要条件。