搜索引擎真要被替代了？实测Kimi、智谱、360最新AI搜索功能，它的表现最强

科技 2024-10-17 19:17 北京

出品 | 搜狐科技

作者 | 梁昌均

运营编辑 | 王一晴

ChatGPT诞生之初，很多人认为谷歌、百度等传统搜索引擎会被颠覆。

如今来看，似乎有些高估。如果把它当做搜索工具，很多时候并不靠谱。

不过，随着时间的推移，AI正在持续推动搜索新的变革。

最近OpenAI推出慢思考、强推理的o1模型，国内厂商开始尝试让搜索学会这种方法。

就在上周，大模型独角兽月之暗面开始内测主打深度推理的Kimi探索版，一经推出就“崩”上热搜。

从这周开始，该版本开始向全量用户开放。

有观点认为，Kimi正在重新定义AI搜索，但这种玩法并不是独一份。

智谱清言最近也推出类似的AI搜索智能体，360 AI搜索此前则上线了慢思考模式。它们均号称，能分步骤深度推理，实现像人一样去思考。

传统的搜索引擎真的要被AI替代了吗？我们就此评测了Kimi探索版、智谱AI搜索和360AI搜索慢思考功能，来看看谁的效果最好。

信息总结能力

问题1：特斯拉最近的发布会，主要讲了哪些内容？

这道题需要首先知道特斯拉最近的发布会，然后进行总结。

Kimi探索版呈现出思考过程，列出特斯拉、发布会等中英文关键词。

通过阅读15个网页，Kimi知道特斯拉最近的发布会是在今年10月11日举办，并总结了核心内容。

这些内容基本正确，且都有可追溯的信息源可供查询印证。这些链接中有10个都是外文链接，包括特斯拉官网信息。

Kimi探索版还会进行自我反思，通过继续阅读3个网页，又补充了一些新信息，包括发布会主题、感应充电、自动驾驶系统等更多细节。

智谱AI搜索能按照分析问题、查找资料、推理答案的步骤进行拆解。它基于15个网页来源总结了答案，内容比较全面，且没有明显错误。

360AI搜索的慢思考模式则详尽展示了模型的思考过程，涉及进入慢思考—意图识别—生成慢思考思维链—搜索相关资料，以及多次反思、更新等15个步骤，完成慢思考过程，阅读全网近9.16万篇资料，并精选其中的 30篇，总结生成答案。

基于360此前和国内十多个主流大模型产品达成合作，这个过程中还先后调用了360智脑、豆包、通义千问三款大模型，耗时55秒，消耗4.29万个大模型Token。

最终，360AI搜索生成了一份长达1000多字的内容。相较Kimi和智谱，内容最为全面，且有更多的细节和增量信息，比如还提到了行业影响和面临的挑战。

问题2：马斯克提到明年会实现无人监督的完全自动驾驶，我想了解下他过去在这个目标上有多少次跳票，用表格列出具体时间。

上个问题是较新的新闻事件，信息相对容易搜索。

对这个跨度时间更长的问题，信息搜索和总结难度有所提升，且需要用表格呈现。

Kimi探索版只阅读了7个网页，通过分步骤搜索跳票历史以及整理后，用表格列出了从2015年到今年的跳票情况，内容最为全面，但部分内容跟完全自动驾驶并不相关。

智谱AI搜索则基于15个搜索来源，阅读了5个网页，生成表格时出现了乱码，统计了5次跳票情况，但缺乏信息来源，无法进行相应查证。

360AI搜索慢思考模式再次通过15个步骤展示了思考过程，并调用三个大模型，耗时46秒，消耗3.2万个大模型Token。

通过阅读全网超4.63万篇相关资料，精选其中的 27篇总结成答案，最后用表格列出了4次跳票。

从内容完整度来看，Kimi依然更胜一筹。

问题3：诺贝尔物理学奖得主杰弗里·辛顿（Geoffrey Hinton）和Deepmind CEO、诺贝尔化学奖得主戴米斯·哈萨比斯（Demis Hassabis），谁的年龄更大？他们之间有什么关系？

前两个问题都是对单个事实的搜索总结，这个问题则涉及多个事实或人物之间的关联信息。Kimi探索版首先对问题进行了识别，知道要回答谁的年龄大，需要搜索两人出生日期。

通过阅读87个网页，Kimi给出两人的出生时间，最后得出辛顿大28岁的正确结论。对于两人的关系，Kimi提到三个方面，整体比较全面，内容也无硬伤。

智谱AI搜索在对问题分解后，基于30个来源列出两人出生日期，得出正确结论。但对两人关系，仅停留在双方对AI领域的研究和贡献方面，未有更多内容，或受搜索来源较少影响。

360AI搜索经过9个步骤，阅读全网5.47万篇相关资料，精选 14篇得出答案。两人出生日期正确，得出辛顿年龄更大的结论，并对两人生平和成就进行了介绍，提到他们的公司都曾被谷歌收购，对AI发展都做出了重要贡献，内容偏概述，缺乏细节。

总结：从前述测评来看，Kimi探索版表现整体较好，而360AI搜索慢思考模式则在呈现步骤方面更加详尽，可以让人清晰看到模型思考的过程，并能调用多个大模型进行验证或反思。

它们通过意图识别+关键词搜素+分步骤解析总结的能力，运用思维链，通过对问题的拆解，一定程度减少幻觉，提高了内容准确率，相比搜索引擎直接呈现出网页可能更加好用了。

逻辑推理能力

问题1：如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天是周几？

Kimi意识到这是一个涉及时间逻辑推理的问题，阅读了27个网页，通过7个过程，利用反推、设定变量、假设等方式，最终得出正确答案。

360AI搜索慢思考模式则直接进行了意图识别，表示可以直接回答，得出正确答案，但分析的过程似乎并不是特别清晰。

智谱AI搜索则直接进行回答，经过简单分析后并未得出正确结果。

问题2：甲、乙、丙、丁约定上午10时在公园门口集合。见面后，甲说：“我提前了6分钟，乙是正点到的。”乙说：“我提前了4分钟，丙比我晚到2分钟。”丙说：“我提前了3分钟，丁提前了2分钟。”丁说：“我还以为我迟到了1分钟呢，其实我到后1分钟才听到收音机报北京时间10时整。”根据以上谈话分析，这4个人中，谁的表最快，快多少分钟？

我们继续上难度！对这个逻辑关系更为复杂的问题，需要更高的阅读理解和推理能力。该题比较合理的解法是，从丁开始逐次倒推出每个人实际到达时间和到达时他们手表显示的时间，从而计算时间差，最终得出答案（正确答案是甲的表最快，快了4分钟）。

这道题全军覆没。Kimi探索版阅读了170个网页，提出要分析每个人到达的时间和表显示的时间，然后计算时间差，解题思路是对的。但在分析过程中出现了逻辑混乱，推导顺序不对，虽然答出甲的表最快，但时间错误。

360AI搜索慢思考模式和智谱AI搜索均直接进行了回答，但没有找到正确的解题思路，最终无法得出正确的结论。

问题3：有若干只鸡和兔在同个笼子里，从上面数，有三十五个头；从下面数，有九十四只脚。求笼中各有几只鸡和兔？

这道题全部答对，均通过列方程的方式解答。Kimi探索版搜索了27个网页，并对二元一次方程代入法的解答过程进行了详细分解，像极了小学生在答题。

智谱AI搜索和360AI搜索同样是直接回答，但在方程求解过程中，均采用生成代码的方法解答，最后也得到正确结果。这对不会编程的人来说形成了一定门槛，还是Kimi更接地气。

问题4：甲乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片上分别标有数字1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两人各自从自己持有的卡片中随机选一张，并比较所选卡片上数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能使用）。则四轮比赛后，甲的总得分不小于2的概率是多少？

再上难度，这道今年高考数学题（新课标I卷）涉及统计和概率，先看结论：Kimi结果答对，智谱和360均回答错误。

但细看Kimi探索版的分析过程，其仅说了主要的解题思路和方法，感觉像是“蒙”出正确答案，可能是搜到相同题目而直接“借鉴”了结果，其结论所在来源正是相同的一道题目。

360AI搜索在经过一番分析和运行代码后，得出错误答案。智谱AI搜索则更加简单粗暴，直接生成代码来解答，也未得出正确答案。

总结：这三款产品在逻辑推理方面呈现出明显的能力差异。对相对简单的逻辑推理问题，Kimi探索版基本都能应对，更接近人的思考模式（如解答鸡兔同笼）。但对相对复杂的逻辑推理任务，表现均不佳，可能并未像o1模型在数学等复杂任务上有所强化。

结语

从这次评测来看，这三款主打多步骤深度推理的AI搜索产品，依然难以应对复杂的逻辑推理，但能基本满足信息搜索总结的需求，传统的搜索引擎可能真的危险了。

这其中关键是把o1模型的思维链用到了搜索场景，让模型有了更多思考，从而减少了幻觉。虽然响应速度有所降低，但提高了内容准确性，而这正是搜索最核心的需求。

这也与丰富的信源有关。Kimi探索版一次性能读超过500个页面，是普通版的10倍，智谱AI搜索也能读上百个网页。

Kimi探索版还会根据对问题的意图识别，自主判断是否生成英文的关键词搜索，因此不少问题会有外文链接，甚至是第一信源。月之暗面强调，不会帮助用户获取国内无法访问的信息。

同时，与AI自我反思的能力离不开。比如，Kimi探索版自我反思补充会在两种情况下出现，一种是在分析答案后发现了更多信息，补充进来使答案更完善；另一种情况是分析答案后发现了冲突信息，补充进来提供更多维度的信息参考。

360AI搜索慢思考过程也会用大模型进行反思，甚至会多次反思，这有助于提高信息准确率。

目前，Kimi探索版逐渐向所有用户开放，每日限用5次，360AI搜索慢思考和智谱AI搜索可无限量使用。随着更多用户使用，反馈过程会变成强化学习的数据，这会让模型越来越强。

业内不少观点认为，采用思维链+强化学习的o1模型为大模型的发展指明了一个探索的方向。现在，思维链已在搜索领域落地，AI搜索持续演化。

http://mp.weixin.qq.com/s?__biz=MzU2OTgzMDg3Mg==&mid=2247511469&idx=2&sn=3a86db2775fa7882e95384f178126ce6

搜狐科技

搜狐科技聚焦前沿科学与科技产业报道，深度跟踪基础科学、人工智能、互联网、通信等领域重大事件，洞察科技趋势与商业逻辑。

最新文章

谁扶听泉凌云志？

对话PandaX实验刘江来：暗物质有“隐身术”，会穿墙，甚至能穿越整个宇宙来到地球

营收首超特斯拉，比亚迪用1600亿构筑技术护城河

每日优鲜们烧了几百亿都没成的市场，被“00后”救活了？

被裁设计师转行AI创作，为赚钱200元代写作业的活儿也接

频繁使用GPS丧失方向感？清华大学陈霓虹：影响或可逆，可通过学习训练提升

疯狂小杨哥，换“马甲”复播？

百万年薪大厂人35岁被裁：AI创业3个项目赚3万，为还房贷重返职场

商汤十周年陷裁员风暴：员工不知裁员标准，押注AI六年半亏528亿元

舆论场和直播间，两个不同的董宇辉

苹果第四财季净利润下滑36％，大中华区收入仍在下滑

任正非最新讲话：美国科技非常发达，源于它的开放包容；华为要向美国学习

把上海孩子逼得可能停课的“康妮”，到底是什么来头？

联想为什么在国外起诉中兴？

双十一破财买清净？阿里巴巴主动赔给股东30亿，但并非所有股东都能拿到

ARM计划“断供”高通，昔日伙伴为何“反目成仇”？

对话梅宏院士：现在的大语言模型技术路径不可能通往AGI，天花板是能预测到的

VIP会员只支持1台设备！爱奇艺，心太急

为何会海水倒灌？海大江文胜：风暴潮叠加天文大潮等多种因素造成，小概率事件

“大龄”转行AI设计师：早先会AI是加分，现在是必备；想让自己留在“牌桌”上

“纯血鸿蒙”的AI，摁着苹果Apple Intelligence打？

OpenAI劲敌甩大招！Claude 3.5升级，能力反超GPT-4o，训练AI自己操控电脑

华为原生鸿蒙操作系统发布！余承东宣布：我们用一年走过了外国人十几年的路

对话智源研究院院长王仲远：纯语言模型无法实现AGI，多模态将是必经之路

小马智行冲刺美股IPO：Robotaxi何时赚钱，两年半亏损23亿，IPO前估值600亿

当AI遇上美国大选：你猜大模型们觉得谁能赢？

盒马换帅200天，阿里新零售没有新故事

揭秘团播生意经：有中腰部主播月薪五万，爱豆“下海”团播；“卷”是行业共识

纯血鸿蒙公测版体验如何？有用户4天反馈40个BUG，想用微信要靠“抢”

搜索引擎真要被替代了？实测Kimi、智谱、360最新AI搜索功能，它的表现最强

撒哈拉沙漠发洪水？兰州大学王澄海：危害比内陆大，会威胁动植物，传播疾病

“AI教父”否定AI？！无论再堆多少GPU，现在的AI也实现不了AGI！

黄仁勋谈AI改变工作方式，生产力提升不意味需要裁员

警惕短剧收割老年人！大妈天天熬夜刷短剧，半年花了1.3万

见证历史！SpaceX星舰第五次发射：“筷子”成功夹住超大型火箭，完成回收任务

AI手机进化一年，厂商们不再一心求“大”

特斯拉的Robotaxi，和百度萝卜快跑有什么不同？

特斯拉Robotaxi亮相！除了没有踏板和方向盘，还有哪些意外惊喜?

对话清华刘嘉：诺奖颁给AI是物理学的自我革命，AI必须纳入物理体系

县城贵妇，买爆山姆

获66亿美元融资、估值1570亿美元，OpenAI“抛弃”技术理想，加速商业化

2024诺贝尔物理学奖颁给了“AI 教父”，物理学真的不存在了？

钢铁侠大战奥特曼！旧金山不容二虎的AI商战，你站谁？

霸道总裁为什么偏偏爱上绝经的我

滞留太空114天，马斯克拯救宇航员布奇和苏尼

余承东最新发言：三折叠手机春节前至少生产100多万台，大家都说我疯了

氢能是21世纪“终极能源”还是“大骗局”？

山姆·奥特曼，寡王当立

不怕OpenAI抢风头！谷歌发布Gemini 1.5升级模型，综合能力提升，价格减半

华为终端业务再发力：智界R7亮相，余承东自曝卖一台亏3万；纯血鸿蒙下月商用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉