用 AI 做高考题，结果出人意料...

科技 2025-01-18 22:51 广东

去年 5 月，老狐曾做过一期手机 AI 大模型助手的横评，在那篇文章里，我们对华米 OV 还有魅族的 AI 助手，在生活助理和生产效率方面进行了比较，感兴趣的可以点这里查看。

如果没有意外的话，国行 iPhone 将在今年 4 月份带来手机大模型助手。

前提是没有意外。而意外已经发生过一次了，本来大家都认为苹果和百度合作已经板上钉钉，结果 12 月份，爆出了苹果正在与腾讯和字节接触的消息。

如今，手机产商都在强调自己的 AI 大模型助手，它就像卫星通信功能，用户可以不用，但手机厂商如果没有就会低人一等，苹果几乎已经是动作最慢的。

在很多场景下，AI 大模型助手确实好用，科技狐内部已经有不少人把它们当作工具，有的用豆包，有的用 Kimi，有的正体验最近火起来的 DeepSeek。

至于到底哪个好用，不同人有不同的看法，因此，我们决定来一期 AI 大模型横评，看看谁家的 AI 助手更强，也对苹果 AI 的实际效果有个底。

有库克微信的朋友，麻烦把文章链接发给他。

老狐选择了苹果传言要合作的三家，百度的文小言、字节的豆包、腾讯的元宝，除此之外，还有目前用户较多的 Kimi，再加上阿里的通义千问，一共五个。

先叠个甲啊，本次横评为了有能力区分度，加大了难度，不只是简单的写周报，识别图片这样的常规能力，测试选项来源于生活，但复杂程度可能会高于生活。

首先是数学题目，数学题一直是 AI 大模型的苦主，之前出现过 9.11 比 9.9 大的翻车事件，我们此前在对手机大模型进行测试的时候，小爱同学对鸡兔同笼的计算也出了问题。

所以，照例以鸡兔同笼的问题当作测试的开胃小菜。

结果在意料之中，这几个 App 都给出了正确的答案，毕竟，这都已经 2025 年了，如果还能算错，就有点说不过去了。

*腾讯元宝计算过程

为了测出他们现在解答计算题的能力，老狐忍受着死去记忆的攻击，拿出绝招。

这是一道 2024 届广东省的月考题，既考验了大模型提取信息的能力，又考验了大模型数学运算的能力。

5 个大模型里，通义选了 A，文小言选了 B，豆包和元宝选了 C，Kimi 选了 D，这够有节目效果了吧。

（滑动查看全文）

*通义千问

*文小言

*豆包

*元宝

*Kimi

先声明一下，这是我第一次用他们测试高考题，答案也是第一次生成的结果，这个节目效果绝不是我刻意制造的。

但细看就会发现，这些大模型生成答案过程有所区别，比如文小言和元宝，识别图片时就把题目里的公式识别错了。

屏幕前的各位可以猜……不对，算一下哪个是正确答案。

答案是 A，通义是正确的，事实上，这个等式由条件可以推出结果，但由结果倒推，不一定是非得 b＞a＞0，所以前者是后者的充分不必要条件。

通义虽然给出了正确答案，但是关于必要性证明的解释有点难理解。

为了给你们解释这个知识，老狐狠狠恶补了高中基本不等式的知识，大模型没懵，我已经懵了……

不等式可能对 AI 来说有点难，我又换成了安徽黄山歙县的一道数列题。

结果只有元宝做错了这道题，它的答案是 A，做错的原因还是老问题，公式识别错误。

（滑动查看全文）

*元宝

剩余四个都得出了正确答案 C，通义千问和豆包解答过程很漂亮，文小言没有解答过程，Kimi 虽然答案对了，但 n=6 时，等式的值算错了。

（滑动查看全文）

*通义千问

*豆包

*文小言

*Kimi

再把题目换成这道几何题。

事实上，这道题选 B，可以通过平行线法和空间向量法来计算，结果只有豆包采用平行线法计算正确。

（滑动查看全文）

*豆包

其他几个都是简单描述，然后就选了 C，这糊弄的样子，真是太像老狐曾经的“不懂就选 C”。

（滑动查看全文）

*Kimi

*元宝

*通义千问

*文小言

不过坦白讲，三道题高考题，豆包和通义做对两道已经超过了老狐的预料，一年前测试时效果还比较糟糕。

这里腾讯的元宝一道题没有做对，原因是识别公式错误，不过我用一道没有图形，公式也相对简单的题测试，元宝能做对。目前来看，元宝图像识别能力还有比较大的优化空间。

*元宝

在这里，至少在做数学题方面，AI 大模型已经超过了大部分人，目前还打不过人生智商巅峰的高中生。

用 AI 做高考题，是为了测试大模型曾经的短板现在如何，在实际应用中这种场景比较少见，更多的可能是拿来搜寻信息，比如苹果在发布会上演示的摄像头识别，又或者国内厂商喜欢的演示识屏做策划功能。

普通的识别物体，现在的 AI 大模型已经做得很好，即使我在网上找来这样的合成图片，它们也能一五一十地说清楚。

所以，我们还是从实用性出发，用它来处理一些我们认知能力之外的事。比如，这是一件衣服的英文水洗标，不知道该怎么洗时，就可以求助 AI 大模型。

通义、Kimi 和豆包都给出了较为准确的结果，文小言忽略了低温烘干和低温熨烫，自己虚空增加了一个关于洗涤剂的内容；元宝将可低温（小于 150℃）熨烫解释为不能熨烫，低温滚筒烘干改成悬挂晾干。

（滑动查看全文）

*Kimi

*豆包

*通义千问

*文小言

*元宝

这是一款进口榛子饼干的配料表，老狐给中文配料表打了马赛克，假设一个对花生过敏，又不认识原料信息的人，接到朋友递过来这饼干，大模型能解决它能不能吃的问题吗？

实际的结果是只有豆包和通义指出，花生酱过敏的人有一定可能会对榛子过敏；Kimi 忽略了榛子，提出了另一个没那么重要的卵磷脂成分；元宝没有指出，仅仅是说咨询医生；而文小言坦言自己没有该功能。

（滑动查看全文）

*豆包

其他生活方面，我让这些大模型给我规划了一份自驾游攻略，这是我给的 Prompt（提示词）。

生成的结果，豆包和通义都把广西旅游景点定在了最热门的桂林，虽然桂林山水甲天下，但会导致行程变长，比如豆包路线第二天阳朔直达丽江，高达 1000 公里，上午还去阳朔玩漂流。通义千问没有距离和行驶时间的信息，这对自驾来说有些不方便。

（滑动查看全文）

*豆包

相对来、Kimi 和文小言把在广西游玩歇息的地方选在南宁更合适。

Kimi 把在广西游玩的地点定在了广西云南交界的崇左，增加了大理这个中间点游玩，这很合理，不过这也导致，Kimi 的路线每天都在驾车，只有最后能在西双版纳可以玩一天。

（滑动查看全文）

*Kimi

文小言的选择是南宁到昆明，再到丽江，而且给丽江和西双版纳都单独安排了一天游玩，这样更合理。

（滑动查看全文）

*文小言

整体来说，Kimi 和文小言更好，综合一下，第一天采用 Kimi 的路线，先到崇左，玩一天后到丽江，第四天起用文小言的路线。

这四个大模型都在景点路线设计上默认提示词中的顺序，把西双版纳放在最后，如果先经西双版纳再到丽江行程更短，目前来看，只能是用户在提示词里优化。

可能会有人问元宝呢？它有点拉胯，从广州到桂林后，就以桂林为中心，柳州、梧州、贺州玩，忘记去云南这回事。

（滑动查看全文）

*文小言

老狐在提示词中特意说明在广西南宁玩一天，才有结果，可是结果中，香格里拉至西双版纳的距离也出现了错误。

从数学计算、识图、再到旅游规划，豆包、通义整体较好，Kimi、文小言差一点，元宝表现相对拉垮。

而接下来，我们来对比大模型在生产力方面的能力，其实 AI 大模型从诞生起，人们对它的关心可能不是它如何协助人们生活，而是它会不会抢走人的工作，现在，AI 大模型显然还没有夺走绝大部分人的工作，但它能多大程度协助工作了呢？

首先，以老狐自己工作中的信息搜集为场景，假设要了解对比 6 款旗舰手机的硬件信息，让大模型用图表列出来。

然而结果就是都有多处不准确的地方。

Kimi 把华为 Mate 70 Pro+ 芯片列为麒麟 9100，vivo X200 Pro 的系统搞错；通义千问将许多公开信息都列为未知；腾讯元宝把 Mate 70 Pro+ 的生产工艺列为台积电第二代 3nm 工艺；豆包过多信息未明确，甚至连 vivo X200 Pro 的芯片都没有；文心一言将 vivo X200 Pro 的长焦像素列为 3 亿。

除此之外，还有多处信息不全，实际用起来就是生成了答案，我还得去校对，这对工作帮助不大。

这可能也是为什么如今 AI 大模型都不宣传搜集信息，因为网络信息良莠不齐，大模型也拎不准，致使数据错误。所以大模型宣传的，往往是有确定来源的文稿的总结功能，要么就是生成大纲或文章。

简单的文章总结，如今 AI 大模型助手都有这项能力了，大家可以找文章链接、PDF 文件试一下，因为时间关系，老狐就不重复了，我们来一项有难度的测试。

我找来了格力和小米 2024 年上半年的财报，想要比较他们俩上半年的营业收入、研发投入、毛利润和净利润的数据。

这里面是有坑的，有的数据没有，比如格力没有提到毛利润，只有利润率。

通义是表现最好的，数据准确，通义通过毛利率算出了格力的毛利润，但是缺少小米的研发投入。

（滑动查看全文）

*通义

豆包没有给出格力和小米的研发投入，虽然两个大模型给出的格力总收入和小米净利润数据不同，那是因为二者数据的来源有的是财务指标描述，有的是合并的利润表。

（滑动查看全文）

*豆包

元宝就比较多错误问题了，除了格力的总收入和净利润，其他都是乱来。文小言也自己推出了格力的毛利润，但没有给出研发投入，更离谱的是，小米这部分数据是季度数据，而非提示中的半年数据。

（滑动查看全文）

*元宝

*文小言

Kimi 直接表示格力的财报文件超过长度，只能每个 PDF 单独询问，生成结果中，也存在数据错误的情况，比如格力的毛利润是错误的。但是指出了小米的半年研发投入。

（滑动查看全文）

*Kimi

如果这里要矮子里拔将军，通义、豆包和 Kimi 是较好的。

再来看看 AI 大模型写文章的能力，我找来了两篇关于英伟达 RTX50 系显卡发布以及老黄回应价格争议的文章，希望 AI 能再结合目前网上关于 RTX50 显卡相关产品的内容，写一篇文章。

结果是，豆包和 Kimi 更好，在两篇稿子的基础上补充了更多内容，比如笔记本产品的上市时间，RTX50 更多的技术细节，以及竞争对手分析。

（滑动查看全文）

*Kimi

通义和文小言基本就是围绕这两篇文章的性能参数、价格争议、用户群体和未来展望来写。

元宝似乎还没搞懂什么情况，写的不是已经发布的产品，而是展望 RTX50 会如何。

（滑动查看全文）

*元宝

坦白讲看完这些答案并没有让我感觉惊讶，文章内容比较平平无奇，缺乏亮眼，这样的工具不适合写稿，其实更适合写周报这种重复重复再重复的工作内容。

比如这样的：

（滑动查看全文）

*文小言

这是一个简单的需求，生成的结果其实都非常不错，只需要根据自己的实际情况对文本内容做一些调整，唯一要吐槽的地方是 Kimi 字数太多了……

（滑动查看全文）

*Kimi

最后，是有关 AI 大模型的图片生成功能力，如今在互联网上，能见到一些大模型生成的图片用于商业化，比如某些淘宝商品的详情页，但是细节有很多问题。

可是如果你还认为这是 AI 现有的水平，那可能结果会让你大吃一惊。我们也以这个商品给一段 Prompt，让这些大模型来生成图片：

一位年轻的女裁缝在一张桌子前剪裁布料，女裁缝大概二十五岁左右，留着长发，穿着一件羽绒服，戴着手套，正专注地工作。她的背后是衣架，上面有折叠好的衣物，也有正挂着的羽绒服，天花板没有吊顶，只有日光灯和裸露的管道。

除了 Kimi 没有图像生成能力，通义千问表示在生成图片时遇到了技术问题，豆包、文小言和元宝生成的图片都要比前面提到的淘宝详情图片要好得多，虽然还存在手部比例失调等细节问题，但整体质量已经提升了不少。

如果大家在家过年发微信消息，缺少表情包，那么也可以借助大模型来定制你需要的表情包，例如这样。

以上就是关于 5 个 AI 大模型助手各方面能力的横向比较，整体而言，豆包综合表现更好，其次是通义和 Kimi，再是文小言，最后是元宝。如果生成图片对你而言重要，那么要考虑的是豆包、文小言和元宝。

需要注意的是，本次测试内容提升了难度，不再是简单的拍照识别，做鸡兔同笼问题，还有写周报，这些场景，其实大模型都完成的不错。

在更复杂的场景上，可以看到大模型取得了长足的进步，它能做高考题，如果 Prompt 优化得当，能生成一份有参考性的长期旅行计划，生成的图片也有了可用性，只是用 AI 大模型找来的数据，我还是不放心使用。

但可以期待在 2025 年，AI 大模型能带来更多的惊喜，尤其是当下，AI 大模型结合硬件成为一个热门赛道，国外的 Meta、国内的 Rokid、雷鸟、闪极都在推出智能眼镜，还有豆包的 AI 耳机，2025 年的 AI 硬件领域一定非常精彩。

最近一年，豆包和 Kimi 应该是市场上最热门的两家 AI 大模型助手，其中有研发投入带来的优秀体验，也有营销上花的心思，相比之下，通义和元宝，热度会低不少，这可能与他们自身的产业有关，阿里和腾讯都有丰富的面向企业端的业务，可以用 AI 大模型来优化，因此在用户端的投入没那么高。

不是所有的互联网大厂都去卷 C 端大模型，这是好事，AI 应该是给全行业带来帮助的，我们离不开微信和抖音，但同时也需要 EDA 这样设计芯片的软件。

大家认为苹果会选择跟哪家大厂合作呢？

参考资料：

豆包、元宝、Kimi、通义、文小言

编辑：木易

科技狐

一家专注科技互联网领域，每日分享科技、数码、汽车、商业、TMT、AI 的新媒体。

最新文章

价格屠夫！7000 元的顶配手机，如今只卖 2900

用医保可以买华为！这操作给我看懵了...

新品 | 华为 Pura 70 Ultra 新配色发布；新款奔驰 GLS 曝光

狐讯 | 春节连续 8 天高速免费通行；陈震赔付领克 500 万

支付宝集五福直接开奖了！网友：骂骂咧咧集了 1 块钱...

科技界的玄学，据说这样清理垃圾会带来一整年的好运

新品 | 小米 15 Ultra 新进展；比亚迪 580KW 超级电机曝光

狐讯 | 多款手机降到 6000 元内；尊界 S800 四种配色公开

知名奶茶品牌，又翻车了！

大数据，到底有什么用？

新品 | OPPO “传奇”手机复刻；五菱之光 EV 开启预售

狐讯 | 我国多地发现大型金矿；本田与日产合并再出变故

新品 | 汉L/唐L双车首发亮相；OPPO Find X8 Ultra来了

狐讯 | 小米回应收购蔚来；微信更新了 Callkit

用 AI 做高考题，结果出人意料...

特斯拉自动驾驶，比不过华为小鹏

刚偷偷上架这 7050mAh 真全面屏，价格彻底杀疯了！

986 万！全球仅一辆，这定制幻影卖给了李姓中国富豪

新品 | OPPO 新机曝光；比亚迪两款重磅新车发布

狐讯 | 支付宝回应付款打折 bug ；荣耀赵明辞职

我宣布，这是本年度，最奇葩的比赛！

2699 元！这可能是今年最便宜的折叠屏新机了

新品 | 努比亚 Z70 Ultra 新年版开售；苹果新机现身

狐讯 | 抖音否认开放国际注册；理想 L6 交付破 20 万辆

“ 不买就滚蛋 ” ？车企被爆强制员工买车，这操作给我看笑了！

狐讯 | 华为自动充电机器人曝光；趣加招聘闹乌龙

美国人逃难，小红书竟成为最大赢家？

别再买 499 元的红米了！刚偷偷上架这新机还要更香

新品 | 红米新机升到 7000mAh 电池；比亚迪推全新车型

狐讯 | 微信新功能上线；苹果将推出全新 ipad Air

骁龙 8s 至尊 + 7000mAh 1999 元！这些新机太炸了

2500 元，刚发布这旗舰新机，有点狠啊

新品 | OPPO Find N5 官宣；iPad 11 硬件规格曝光

狐讯 | iPhone 17 Air 或无国行；RTX5090 缺货

20 台车砸出 3000 万粉丝，抖音又出神人！

别先对比问界 M9 了，打得赢 M8 再说

新品 | 江铃代工“小跑车 SC01”；技嘉三款显卡已上架官网

狐讯 | 特斯拉 FSD 撞墙；HarmonyOS NEXT 获奖

“科技春晚”落幕，厂商一个比一个狠

Model Y 放狠话，雷军两字回应

狐讯｜八大新车炸裂登场；法院将拍卖王自如旗下车产

最便宜的苹果手机！iPhone 16E 定了...

这款 “ 赛博手表 ” ，最近好火啊！

狐讯 | 鸿蒙版微信发布；吉利新车降价到 4 万

2 秒满电，刚发布这手机“ 神器 ”，给我整不会了！

为了能吃上国补！这些新机价格都疯了

狐讯 | B 站拿下央视春晚转播权；哪吒汽车创始人被限制高消费

一顿饭花 56 万，韩国年轻人扎堆上海消费，给网友看爽了！

人均“ 4090 ”成为过去，现在是 5090 显卡的时代！

狐讯 | 12306 崩了；本田发布了两个“ 0 ”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉