文末福利｜搜索引擎被淘汰？实测Kimi、智谱、360的最新AI搜索功能，谁的表现最强

楼市 2024-10-16 18:50 北京

作者 | 梁昌均

运营编辑 | 李阳

ChatGPT诞生之初，很多人认为谷歌、百度等传统搜索引擎会被颠覆。

如今来看，似乎有些高估。如果把它当做搜索工具，很多时候并不靠谱。

不过，随着时间的推移，AI正在持续推动搜索新的变革。

最近OpenAI推出慢思考、强推理的o1模型，国内厂商开始尝试让搜索学会这种方法。

就在上周，大模型独角兽月之暗面开始内测主打深度推理的Kimi探索版，一经推出就“崩”上热搜。

从这周开始，该版本开始向全量用户开放。

有观点认为，Kimi正在重新定义AI搜索，但这种玩法并不是独一份。

智谱清言最近也推出类似的AI搜索智能体，360 AI搜索此前则上线了慢思考模式。它们均号称，能分步骤深度推理，实现像人一样去思考。

传统的搜索引擎真的要被AI替代了吗？我们就此评测了Kimi探索版、智谱AI搜索和360AI搜索慢思考功能，来看看谁的效果最好。

信息总结能力

问题1：特斯拉最近的发布会，主要讲了哪些内容？

这道题需要首先知道特斯拉最近的发布会，然后进行总结。

Kimi探索版呈现出思考过程，列出特斯拉、发布会等中英文关键词。

通过阅读15个网页，Kimi知道特斯拉最近的发布会是在今年10月11日举办，并总结了核心内容。

这些内容基本正确，且都有可追溯的信息源可供查询印证。这些链接中有10个都是外文链接，包括特斯拉官网信息。

Kimi探索版还会进行自我反思，通过继续阅读3个网页，又补充了一些新信息，包括发布会主题、感应充电、自动驾驶系统等更多细节。

智谱AI搜索能按照分析问题、查找资料、推理答案的步骤进行拆解。它基于15个网页来源总结了答案，内容比较全面，且没有明显错误。

360AI搜索的慢思考模式则详尽展示了模型的思考过程，涉及进入慢思考—意图识别—生成慢思考思维链—搜索相关资料，以及多次反思、更新等15个步骤，完成慢思考过程，阅读全网近9.16万篇资料，并精选其中的 30篇，总结生成答案。

基于360此前和国内十多个主流大模型产品达成合作，这个过程中还先后调用了360智脑、豆包、通义千问三款大模型，耗时55秒，消耗4.29万个大模型Token。

最终，360AI搜索生成了一份长达1000多字的内容。相较Kimi和智谱，内容最为全面，且有更多的细节和增量信息，比如还提到了行业影响和面临的挑战。

问题2：马斯克提到明年会实现无人监督的完全自动驾驶，我想了解下他过去在这个目标上有多少次跳票，用表格列出具体时间。

上个问题是较新的新闻事件，信息相对容易搜索。

对这个跨度时间更长的问题，信息搜索和总结难度有所提升，且需要用表格呈现。

Kimi探索版只阅读了7个网页，通过分步骤搜索跳票历史以及整理后，用表格列出了从2015年到今年的跳票情况，内容最为全面，但部分内容跟完全自动驾驶并不相关。

智谱AI搜索则基于15个搜索来源，阅读了5个网页，生成表格时出现了乱码，统计了5次跳票情况，但缺乏信息来源，无法进行相应查证。

360AI搜索慢思考模式再次通过15个步骤展示了思考过程，并调用三个大模型，耗时46秒，消耗3.2万个大模型Token。

通过阅读全网超4.63万篇相关资料，精选其中的 27篇总结成答案，最后用表格列出了4次跳票。

从内容完整度来看，Kimi依然更胜一筹。

问题3：诺贝尔物理学奖得主杰弗里·辛顿（Geoffrey Hinton）和Deepmind CEO、诺贝尔化学奖得主戴米斯·哈萨比斯（Demis Hassabis），谁的年龄更大？他们之间有什么关系？

前两个问题都是对单个事实的搜索总结，这个问题则涉及多个事实或人物之间的关联信息。Kimi探索版首先对问题进行了识别，知道要回答谁的年龄大，需要搜索两人出生日期。

通过阅读87个网页，Kimi给出两人的出生时间，最后得出辛顿大28岁的正确结论。对于两人的关系，Kimi提到三个方面，整体比较全面，内容也无硬伤。

智谱AI搜索在对问题分解后，基于30个来源列出两人出生日期，得出正确结论。但对两人关系，仅停留在双方对AI领域的研究和贡献方面，未有更多内容，或受搜索来源较少影响。

360AI搜索经过9个步骤，阅读全网5.47万篇相关资料，精选 14篇得出答案。两人出生日期正确，得出辛顿年龄更大的结论，并对两人生平和成就进行了介绍，提到他们的公司都曾被谷歌收购，对AI发展都做出了重要贡献，内容偏概述，缺乏细节。

总结：从前述测评来看，Kimi探索版表现整体较好，而360AI搜索慢思考模式则在呈现步骤方面更加详尽，可以让人清晰看到模型思考的过程，并能调用多个大模型进行验证或反思。

它们通过意图识别+关键词搜素+分步骤解析总结的能力，运用思维链，通过对问题的拆解，一定程度减少幻觉，提高了内容准确率，相比搜索引擎直接呈现出网页可能更加好用了。

逻辑推理能力

问题1：如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天是周几？

Kimi意识到这是一个涉及时间逻辑推理的问题，阅读了27个网页，通过7个过程，利用反推、设定变量、假设等方式，最终得出正确答案。

360AI搜索慢思考模式则直接进行了意图识别，表示可以直接回答，得出正确答案，但分析的过程似乎并不是特别清晰。

智谱AI搜索则直接进行回答，经过简单分析后并未得出正确结果。

问题2：甲、乙、丙、丁约定上午10时在公园门口集合。见面后，甲说：“我提前了6分钟，乙是正点到的。”乙说：“我提前了4分钟，丙比我晚到2分钟。”丙说：“我提前了3分钟，丁提前了2分钟。”丁说：“我还以为我迟到了1分钟呢，其实我到后1分钟才听到收音机报北京时间10时整。”根据以上谈话分析，这4个人中，谁的表最快，快多少分钟？

我们继续上难度！对这个逻辑关系更为复杂的问题，需要更高的阅读理解和推理能力。该题比较合理的解法是，从丁开始逐次倒推出每个人实际到达时间和到达时他们手表显示的时间，从而计算时间差，最终得出答案（正确答案是甲的表最快，快了4分钟）。

这道题全军覆没。Kimi探索版阅读了170个网页，提出要分析每个人到达的时间和表显示的时间，然后计算时间差，解题思路是对的。但在分析过程中出现了逻辑混乱，推导顺序不对，虽然答出甲的表最快，但时间错误。

360AI搜索慢思考模式和智谱AI搜索均直接进行了回答，但没有找到正确的解题思路，最终无法得出正确的结论。

问题3：有若干只鸡和兔在同个笼子里，从上面数，有三十五个头；从下面数，有九十四只脚。求笼中各有几只鸡和兔？

这道题全部答对，均通过列方程的方式解答。Kimi探索版搜索了27个网页，并对二元一次方程代入法的解答过程进行了详细分解，像极了小学生在答题。

智谱AI搜索和360AI搜索同样是直接回答，但在方程求解过程中，均采用生成代码的方法解答，最后也得到正确结果。这对不会编程的人来说形成了一定门槛，还是Kimi更接地气。

问题4：甲乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片上分别标有数字1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两人各自从自己持有的卡片中随机选一张，并比较所选卡片上数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能使用）。则四轮比赛后，甲的总得分不小于2的概率是多少？

再上难度，这道今年高考数学题（新课标I卷）涉及统计和概率，先看结论：Kimi结果答对，智谱和360均回答错误。

但细看Kimi探索版的分析过程，其仅说了主要的解题思路和方法，感觉像是“蒙”出正确答案，可能是搜到相同题目而直接“借鉴”了结果，其结论所在来源正是相同的一道题目。

360AI搜索在经过一番分析和运行代码后，得出错误答案。智谱AI搜索则更加简单粗暴，直接生成代码来解答，也未得出正确答案。

总结：这三款产品在逻辑推理方面呈现出明显的能力差异。对相对简单的逻辑推理问题，Kimi探索版基本都能应对，更接近人的思考模式（如解答鸡兔同笼）。但对相对复杂的逻辑推理任务，表现均不佳，可能并未像o1模型在数学等复杂任务上有所强化。

结语

从这次评测来看，这三款主打多步骤深度推理的AI搜索产品，依然难以应对复杂的逻辑推理，但能基本满足信息搜索总结的需求，传统的搜索引擎可能真的危险了。

这其中关键是把o1模型的思维链用到了搜索场景，让模型有了更多思考，从而减少了幻觉。虽然响应速度有所降低，但提高了内容准确性，而这正是搜索最核心的需求。

这也与丰富的信源有关。Kimi探索版一次性能读超过500个页面，是普通版的10倍，智谱AI搜索也能读上百个网页。

Kimi探索版还会根据对问题的意图识别，自主判断是否生成英文的关键词搜索，因此不少问题会有外文链接，甚至是第一信源。月之暗面强调，不会帮助用户获取国内无法访问的信息。

同时，与AI自我反思的能力离不开。比如，Kimi探索版自我反思补充会在两种情况下出现，一种是在分析答案后发现了更多信息，补充进来使答案更完善；另一种情况是分析答案后发现了冲突信息，补充进来提供更多维度的信息参考。

360AI搜索慢思考过程也会用大模型进行反思，甚至会多次反思，这有助于提高信息准确率。

目前，Kimi探索版逐渐向所有用户开放，每日限用5次，360AI搜索慢思考和智谱AI搜索可无限量使用。随着更多用户使用，反馈过程会变成强化学习的数据，这会让模型越来越强。

业内不少观点认为，采用思维链+强化学习的o1模型为大模型的发展指明了一个探索的方向。现在，思维链已在搜索领域落地，AI搜索持续演化。

文末互动：平时你有用AI搜索的习惯吗？你认为传统的搜索引擎会被淘汰吗？

评论区留言你“最喜爱的AI搜索应用”，点赞最多的读者可以获得「硅谷AI见闻」的精美礼品一份！

http://mp.weixin.qq.com/s?__biz=MzAwOTcwMTEzMw==&mid=2650271793&idx=1&sn=108141ddd3005dfa65ed996bf6262dc1

硅谷AI见闻

搜狐科技旗下AI账号——AI见闻，独家、深度、专业感受AI地心的前沿脉动

最新文章

设计AI的人，也要被AI替代了？

被裁设计师转行AI创作，为赚钱200元代写作业的活儿也接

百万年薪大厂人35岁被裁：AI创业3个项目赚3万，为还房贷重返职场

AI见闻｜“六巨头”财报公布，Meta与亚马逊最烧钱，黑神话入围2024金摇杆，xAI面向开发者推出API

商汤科技大裁员，押注 AI 已亏528亿

AI见闻｜华为前三季度利润下滑，OpenAI硬刚谷歌，ChatGPT增加搜索功能

AI见闻｜谷歌被俄罗斯罚款25位数，超全球GDP，谷歌25%新代码由AI生成，掌握提示词工程成关键钥匙

贾扬清今年第二次回国，我们和他聊了聊中美AI都在忙着找的答案

AI见闻｜马斯克称2040年人型机器人数量超过人类，英伟达构建全球最大AI超级计算机

硅谷来信：诺奖“盖戳”认证，AI成科研“最强大脑”？

马斯克：脑机接口植入物可拆卸，手术10分钟完成，价格相当于一部手机

对话金蝶赵燕锡：AI将重塑企业管理体验、流程和决策，但大模型不能解决一切

对话梅宏院士：现在的大语言模型技术路径不可能通往AGI，天花板是能预测到的

AI见闻｜字节跳动预设立欧洲 AI研发中心，谷歌“贾维斯”问世，AI自主操控电脑指日可待

ARM计划“断供”高通，昔日伙伴为何“反目成仇”？

黄仁勋最新演讲，称Blackwell四季度有望量产，英伟达算力将增长20倍

给AI打工的人｜大龄、转行、AI设计师，我该待在舒适区，还是去往AI风口？

科大讯飞星火4.0 turbo发布，能力超越GPT-4 turbo！刘庆峰：AI应用已进入落地深水区

OpenAI劲敌甩大招！Claude 3.5升级，能力反超GPT-4o，训练AI自己操控电脑

AI见闻｜华为纯血鸿蒙登场，nova13全系支持北斗卫星图片消息，微软打造全套AI工具，开启AI代理时代

对话智源研究院院长王仲远｜纯语言模型无法实现AGI，多模态将是必经之路

图灵奖得主杨立昆：我们需要人类水平的AI，尽管现在的系统做不到（内附演讲PPT）

AI见闻｜库克&陈漫同游北京/机器狗泰山测试，解决景区垃圾运输难题/视频生成模型遇冷，李彦宏称“百度不会去做”

AI见闻｜华强北iPhone 16破发，黄牛边抢边赔/x平台允许第三方使用内容训练AI/英伟达力挺特斯拉人形机器人

自动驾驶能做到绝对安全吗？蘑菇车联CEO朱磊给出答案

“AI教父”怒批：现在的人工智能还不如猫聪明！

AI见闻｜OpenAI纳新、Meta裁员，ChatGPT看人下菜碟，区别对待“小帅”和“小美”

文末福利｜搜索引擎被淘汰？实测Kimi、智谱、360的最新AI搜索功能，谁的表现最强

黄仁勋谈AI改变工作方式，生产力提升不意味需要裁员

黄仁勋每天用ChatGPT，称其推理能力会越来越强

AI见闻｜首个 AI Kaggle 大师诞生，OpenAI 夺 7 金封王，vivo发布“蓝心智能”AI战略

特斯拉无人驾驶出租车登场！马斯克：最早2026年推广，车辆成本低于3万美元

AI见闻｜特斯拉“Robotaxi ”亮相，马斯克亲自试驾，英伟达竞品AMD“全线猛攻，“史上最长双十一”，电商战役已敲响

OpenAI重组谋生！既能赚钱又兼顾公益，还能防止被微软恶意收购

对话清华刘嘉：诺奖颁给AI是物理学的自我革命，AI必须纳入物理体系

刚刚！诺贝尔化学奖也给了AI

杰弗里·辛顿：不懂AI的物理学家不是好诺奖得主

AI见闻｜诺贝尔化学奖揭晓，再次花落AI/英伟达5连涨重燃AI热，相关概念股一度涨20%/“纯血鸿蒙”公测，华为用户扎堆体验

获66亿美元融资、估值1570亿美元，OpenAI“抛弃”技术理想，加速商业化

AI见闻 | OpenAI拿下今年最大融资，苹果或取消一年一更新，Meta推出号称最先进的媒体基础模型

滞留太空114天，马斯克拯救宇航员布奇和苏尼

AI见闻｜智谱开放平台国庆月打折，最低每月19元，华为三折叠特别版最高定价10万元

AI见闻 | 苹果退出OpenAI融资谈判，中国完成首个全国产化万卡万参大模型训练，开源TeleChat2-115B

AI见闻｜导演卡梅隆加入Stability AI董事会，奥特曼否认得到OpenAI“巨额股权”，欧盟《AI公约》Meta未签署

对话西湖大学仇旻：AR眼镜还要3-5年进入大众市场，未来还很难替代手机

Meta年会小扎开箱！头显售价不到苹果1/17，全息AR眼镜，黄仁勋点赞

一出好戏！“ChatGPT之母”离职，OpenAI 转向营利性组织只差奥特曼临门一脚

大模型是泡沫？刘韵洁院士：GPT已2亿用户，行业大模型是中国的出路

豆包视频生成模型交作业，火山引擎谭待：大模型要从卷价格走向卷性能

AI见闻｜字节跳动进军AI视频生成，TikTok Music将于11月关闭，中东正在成为硅谷AI投资领域的关键力量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉