出品 | 搜狐科技
作者 | 梁昌均
运营编辑 | 王一晴
ChatGPT诞生之初,很多人认为谷歌、百度等传统搜索引擎会被颠覆。
如今来看,似乎有些高估。如果把它当做搜索工具,很多时候并不靠谱。
不过,随着时间的推移,AI正在持续推动搜索新的变革。
最近OpenAI推出慢思考、强推理的o1模型,国内厂商开始尝试让搜索学会这种方法。
就在上周,大模型独角兽月之暗面开始内测主打深度推理的Kimi探索版,一经推出就“崩”上热搜。
从这周开始,该版本开始向全量用户开放。
有观点认为,Kimi正在重新定义AI搜索,但这种玩法并不是独一份。
智谱清言最近也推出类似的AI搜索智能体,360 AI搜索此前则上线了慢思考模式。它们均号称,能分步骤深度推理,实现像人一样去思考。
传统的搜索引擎真的要被AI替代了吗?我们就此评测了Kimi探索版、智谱AI搜索和360AI搜索慢思考功能,来看看谁的效果最好。
信息总结能力
问题1:特斯拉最近的发布会,主要讲了哪些内容?
这道题需要首先知道特斯拉最近的发布会,然后进行总结。
Kimi探索版呈现出思考过程,列出特斯拉、发布会等中英文关键词。
通过阅读15个网页,Kimi知道特斯拉最近的发布会是在今年10月11日举办,并总结了核心内容。
这些内容基本正确,且都有可追溯的信息源可供查询印证。这些链接中有10个都是外文链接,包括特斯拉官网信息。
Kimi探索版还会进行自我反思,通过继续阅读3个网页,又补充了一些新信息,包括发布会主题、感应充电、自动驾驶系统等更多细节。
360AI搜索的慢思考模式则详尽展示了模型的思考过程,涉及进入慢思考—意图识别—生成慢思考思维链—搜索相关资料,以及多次反思、更新等15个步骤,完成慢思考过程,阅读全网近9.16万篇资料,并精选其中的 30篇,总结生成答案。
问题2:马斯克提到明年会实现无人监督的完全自动驾驶,我想了解下他过去在这个目标上有多少次跳票,用表格列出具体时间。
上个问题是较新的新闻事件,信息相对容易搜索。
对这个跨度时间更长的问题,信息搜索和总结难度有所提升,且需要用表格呈现。
Kimi探索版只阅读了7个网页,通过分步骤搜索跳票历史以及整理后,用表格列出了从2015年到今年的跳票情况,内容最为全面,但部分内容跟完全自动驾驶并不相关。
360AI搜索慢思考模式再次通过15个步骤展示了思考过程, 并调用三个大模型,耗时46秒,消耗3.2万个大模型Token。
通过阅读全网超4.63万篇相关资料,精选其中的 27篇总结成答案,最后用表格列出了4次跳票。
从内容完整度来看,Kimi依然更胜一筹。
问题3:诺贝尔物理学奖得主杰弗里·辛顿(Geoffrey Hinton)和Deepmind CEO、诺贝尔化学奖得主戴米斯·哈萨比斯(Demis Hassabis),谁的年龄更大?他们之间有什么关系?
前两个问题都是对单个事实的搜索总结,这个问题则涉及多个事实或人物之间的关联信息。Kimi探索版首先对问题进行了识别,知道要回答谁的年龄大,需要搜索两人出生日期。
通过阅读87个网页,Kimi给出两人的出生时间,最后得出辛顿大28岁的正确结论。对于两人的关系,Kimi提到三个方面,整体比较全面,内容也无硬伤。
智谱AI搜索在对问题分解后,基于30个来源列出两人出生日期,得出正确结论。但对两人关系,仅停留在双方对AI领域的研究和贡献方面,未有更多内容,或受搜索来源较少影响。
360AI搜索经过9个步骤,阅读全网5.47万篇相关资料,精选 14篇得出答案。两人出生日期正确,得出辛顿年龄更大的结论,并对两人生平和成就进行了介绍,提到他们的公司都曾被谷歌收购,对AI发展都做出了重要贡献,内容偏概述,缺乏细节。
总结:从前述测评来看,Kimi探索版表现整体较好,而360AI搜索慢思考模式则在呈现步骤方面更加详尽,可以让人清晰看到模型思考的过程,并能调用多个大模型进行验证或反思。
它们通过意图识别+关键词搜素+分步骤解析总结的能力,运用思维链,通过对问题的拆解,一定程度减少幻觉,提高了内容准确率,相比搜索引擎直接呈现出网页可能更加好用了。
逻辑推理能力
问题1:如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天是周几?
Kimi意识到这是一个涉及时间逻辑推理的问题,阅读了27个网页,通过7个过程,利用反推、设定变量、假设等方式,最终得出正确答案。
360AI搜索慢思考模式则直接进行了意图识别,表示可以直接回答,得出正确答案,但分析的过程似乎并不是特别清晰。
智谱AI搜索则直接进行回答,经过简单分析后并未得出正确结果。
问题2:甲、乙、丙、丁约定上午10时在公园门口集合。见面后,甲说:“我提前了6分钟,乙是正点到的。”乙说:“我提前了4分钟,丙比我晚到2分钟。”丙说:“我提前了3分钟,丁提前了2分钟。”丁说:“我还以为我迟到了1分钟呢,其实我到后1分钟才听到收音机报北京时间10时整。”根据以上谈话分析,这4个人中,谁的表最快,快多少分钟?
我们继续上难度!对这个逻辑关系更为复杂的问题,需要更高的阅读理解和推理能力。该题比较合理的解法是,从丁开始逐次倒推出每个人实际到达时间和到达时他们手表显示的时间,从而计算时间差,最终得出答案(正确答案是甲的表最快,快了4分钟)。
这道题全军覆没。Kimi探索版阅读了170个网页,提出要分析每个人到达的时间和表显示的时间,然后计算时间差,解题思路是对的。但在分析过程中出现了逻辑混乱,推导顺序不对,虽然答出甲的表最快,但时间错误。
360AI搜索慢思考模式和智谱AI搜索均直接进行了回答,但没有找到正确的解题思路,最终无法得出正确的结论。
问题3:有若干只鸡和兔在同个笼子里,从上面数,有三十五个头;从下面数,有九十四只脚。求笼中各有几只鸡和兔?
这道题全部答对,均通过列方程的方式解答。Kimi探索版搜索了27个网页,并对二元一次方程代入法的解答过程进行了详细分解,像极了小学生在答题。
智谱AI搜索和360AI搜索同样是直接回答,但在方程求解过程中,均采用生成代码的方法解答,最后也得到正确结果。这对不会编程的人来说形成了一定门槛,还是Kimi更接地气。
问题4:甲乙两人各有四张卡片,每张卡片上标有一个数字,甲的卡片上分别标有数字1,3,5,7,乙的卡片上分别标有数字2,4,6,8,两人进行四轮比赛,在每轮比赛中,两人各自从自己持有的卡片中随机选一张,并比较所选卡片上数字的大小,数字大的人得1分,数字小的人得0分,然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用)。则四轮比赛后,甲的总得分不小于2的概率是多少?
再上难度,这道今年高考数学题(新课标I卷)涉及统计和概率,先看结论:Kimi结果答对,智谱和360均回答错误。
但细看Kimi探索版的分析过程,其仅说了主要的解题思路和方法,感觉像是“蒙”出正确答案,可能是搜到相同题目而直接“借鉴”了结果,其结论所在来源正是相同的一道题目。
360AI搜索在经过一番分析和运行代码后,得出错误答案。智谱AI搜索则更加简单粗暴,直接生成代码来解答,也未得出正确答案。
总结:这三款产品在逻辑推理方面呈现出明显的能力差异。对相对简单的逻辑推理问题,Kimi探索版基本都能应对,更接近人的思考模式(如解答鸡兔同笼)。但对相对复杂的逻辑推理任务,表现均不佳,可能并未像o1模型在数学等复杂任务上有所强化。
结语
从这次评测来看,这三款主打多步骤深度推理的AI搜索产品,依然难以应对复杂的逻辑推理,但能基本满足信息搜索总结的需求,传统的搜索引擎可能真的危险了。
这其中关键是把o1模型的思维链用到了搜索场景,让模型有了更多思考,从而减少了幻觉。虽然响应速度有所降低,但提高了内容准确性,而这正是搜索最核心的需求。
这也与丰富的信源有关。Kimi探索版一次性能读超过500个页面,是普通版的10倍,智谱AI搜索也能读上百个网页。
Kimi探索版还会根据对问题的意图识别,自主判断是否生成英文的关键词搜索,因此不少问题会有外文链接,甚至是第一信源。月之暗面强调,不会帮助用户获取国内无法访问的信息。
同时,与AI自我反思的能力离不开。比如,Kimi探索版自我反思补充会在两种情况下出现,一种是在分析答案后发现了更多信息,补充进来使答案更完善;另一种情况是分析答案后发现了冲突信息,补充进来提供更多维度的信息参考。
360AI搜索慢思考过程也会用大模型进行反思,甚至会多次反思,这有助于提高信息准确率。
目前,Kimi探索版逐渐向所有用户开放,每日限用5次,360AI搜索慢思考和智谱AI搜索可无限量使用。随着更多用户使用,反馈过程会变成强化学习的数据,这会让模型越来越强。
业内不少观点认为,采用思维链+强化学习的o1模型为大模型的发展指明了一个探索的方向。现在,思维链已在搜索领域落地,AI搜索持续演化。