用 AI 做高考题,结果出人意料...

科技   2025-01-18 22:51   广东  

去年 5 月,老狐曾做过一期手机 AI 大模型助手的横评,在那篇文章里,我们对华米 OV 还有魅族的 AI 助手,在生活助理和生产效率方面进行了比较,感兴趣的可以点这里查看

如果没有意外的话,国行 iPhone 将在今年 4 月份带来手机大模型助手。

前提是没有意外。而意外已经发生过一次了,本来大家都认为苹果和百度合作已经板上钉钉,结果 12 月份,爆出了苹果正在与腾讯和字节接触的消息。

如今,手机产商都在强调自己的 AI 大模型助手,它就像卫星通信功能,用户可以不用,但手机厂商如果没有就会低人一等,苹果几乎已经是动作最慢的。

在很多场景下,AI 大模型助手确实好用,科技狐内部已经有不少人把它们当作工具,有的用豆包,有的用 Kimi,有的正体验最近火起来的 DeepSeek。

至于到底哪个好用,不同人有不同的看法,因此,我们决定来一期 AI 大模型横评,看看谁家的 AI 助手更强,也对苹果 AI 的实际效果有个底。

有库克微信的朋友,麻烦把文章链接发给他。

老狐选择了苹果传言要合作的三家,百度的文小言、字节的豆包、腾讯的元宝,除此之外,还有目前用户较多的 Kimi,再加上阿里的通义千问,一共五个。

先叠个甲啊,本次横评为了有能力区分度,加大了难度,不只是简单的写周报,识别图片这样的常规能力,测试选项来源于生活,但复杂程度可能会高于生活。

首先是数学题目,数学题一直是 AI 大模型的苦主,之前出现过 9.11 比 9.9 大的翻车事件,我们此前在对手机大模型进行测试的时候,小爱同学对鸡兔同笼的计算也出了问题。

所以,照例以鸡兔同笼的问题当作测试的开胃小菜。

结果在意料之中,这几个 App 都给出了正确的答案,毕竟,这都已经 2025 年了,如果还能算错,就有点说不过去了。

*腾讯元宝计算过程

为了测出他们现在解答计算题的能力,老狐忍受着死去记忆的攻击,拿出绝招。

这是一道 2024 届广东省的月考题,既考验了大模型提取信息的能力,又考验了大模型数学运算的能力。

 5 个大模型里,通义选了 A,文小言选了 B,豆包和元宝选了 C,Kimi 选了 D,这够有节目效果了吧。

(滑动查看全文)

*通义千问

*文小言
*豆包
*元宝
*Kimi

先声明一下,这是我第一次用他们测试高考题,答案也是第一次生成的结果,这个节目效果绝不是我刻意制造的。

但细看就会发现,这些大模型生成答案过程有所区别,比如文小言和元宝,识别图片时就把题目里的公式识别错了。

屏幕前的各位可以猜……不对,算一下哪个是正确答案。

答案是 A,通义是正确的,事实上,这个等式由条件可以推出结果,但由结果倒推,不一定是非得 b>a>0,所以前者是后者的充分不必要条件。

通义虽然给出了正确答案,但是关于必要性证明的解释有点难理解。

为了给你们解释这个知识,老狐狠狠恶补了高中基本不等式的知识,大模型没懵,我已经懵了……

不等式可能对 AI 来说有点难,我又换成了安徽黄山歙县的一道数列题。

结果只有元宝做错了这道题,它的答案是 A,做错的原因还是老问题,公式识别错误。

(滑动查看全文)
*元宝

剩余四个都得出了正确答案 C,通义千问和豆包解答过程很漂亮,文小言没有解答过程,Kimi 虽然答案对了,但 n=6 时,等式的值算错了。

(滑动查看全文)
*通义千问
*豆包
*文小言
*Kimi

再把题目换成这道几何题。

事实上,这道题选 B,可以通过平行线法和空间向量法来计算,结果只有豆包采用平行线法计算正确。

(滑动查看全文)
*豆包

其他几个都是简单描述,然后就选了 C,这糊弄的样子,真是太像老狐曾经的“不懂就选 C”。

(滑动查看全文)
*Kimi
*元宝
*通义千问

*文小言

不过坦白讲,三道题高考题,豆包和通义做对两道已经超过了老狐的预料,一年前测试时效果还比较糟糕。

这里腾讯的元宝一道题没有做对,原因是识别公式错误,不过我用一道没有图形,公式也相对简单的题测试,元宝能做对。目前来看,元宝图像识别能力还有比较大的优化空间。

*元宝

在这里,至少在做数学题方面,AI 大模型已经超过了大部分人,目前还打不过人生智商巅峰的高中生。

用 AI 做高考题,是为了测试大模型曾经的短板现在如何,在实际应用中这种场景比较少见,更多的可能是拿来搜寻信息,比如苹果在发布会上演示的摄像头识别,又或者国内厂商喜欢的演示识屏做策划功能。

普通的识别物体,现在的 AI 大模型已经做得很好,即使我在网上找来这样的合成图片,它们也能一五一十地说清楚。

所以,我们还是从实用性出发,用它来处理一些我们认知能力之外的事。比如,这是一件衣服的英文水洗标,不知道该怎么洗时,就可以求助 AI 大模型。

通义、Kimi 和豆包都给出了较为准确的结果,文小言忽略了低温烘干和低温熨烫,自己虚空增加了一个关于洗涤剂的内容;元宝将可低温(小于 150℃)熨烫解释为不能熨烫,低温滚筒烘干改成悬挂晾干。

(滑动查看全文)
*Kimi
*豆包
*通义千问

*文小言

*元宝

这是一款进口榛子饼干的配料表,老狐给中文配料表打了马赛克,假设一个对花生过敏,又不认识原料信息的人,接到朋友递过来这饼干,大模型能解决它能不能吃的问题吗?

实际的结果是只有豆包和通义指出,花生酱过敏的人有一定可能会对榛子过敏;Kimi 忽略了榛子,提出了另一个没那么重要的卵磷脂成分;元宝没有指出,仅仅是说咨询医生;而文小言坦言自己没有该功能。

(滑动查看全文)
*豆包

其他生活方面,我让这些大模型给我规划了一份自驾游攻略,这是我给的 Prompt(提示词)

生成的结果,豆包和通义都把广西旅游景点定在了最热门的桂林,虽然桂林山水甲天下,但会导致行程变长,比如豆包路线第二天阳朔直达丽江,高达 1000 公里,上午还去阳朔玩漂流。通义千问没有距离和行驶时间的信息,这对自驾来说有些不方便。

(滑动查看全文)
*豆包

相对来、Kimi 和文小言把在广西游玩歇息的地方选在南宁更合适。

Kimi 把在广西游玩的地点定在了广西云南交界的崇左,增加了大理这个中间点游玩,这很合理,不过这也导致,Kimi 的路线每天都在驾车,只有最后能在西双版纳可以玩一天。

(滑动查看全文)
*Kimi

文小言的选择是南宁到昆明,再到丽江,而且给丽江和西双版纳都单独安排了一天游玩,这样更合理。

(滑动查看全文)
*文小言

整体来说,Kimi 和文小言更好,综合一下,第一天采用 Kimi 的路线,先到崇左,玩一天后到丽江,第四天起用文小言的路线。

这四个大模型都在景点路线设计上默认提示词中的顺序,把西双版纳放在最后,如果先经西双版纳再到丽江行程更短,目前来看,只能是用户在提示词里优化。

可能会有人问元宝呢?它有点拉胯,从广州到桂林后,就以桂林为中心,柳州、梧州、贺州玩,忘记去云南这回事。

(滑动查看全文)
*文小言

老狐在提示词中特意说明在广西南宁玩一天,才有结果,可是结果中,香格里拉至西双版纳的距离也出现了错误。

从数学计算、识图、再到旅游规划,豆包、通义整体较好,Kimi、文小言差一点,元宝表现相对拉垮。

而接下来,我们来对比大模型在生产力方面的能力,其实 AI 大模型从诞生起,人们对它的关心可能不是它如何协助人们生活,而是它会不会抢走人的工作,现在,AI 大模型显然还没有夺走绝大部分人的工作,但它能多大程度协助工作了呢?

首先,以老狐自己工作中的信息搜集为场景,假设要了解对比 6 款旗舰手机的硬件信息,让大模型用图表列出来。

然而结果就是都有多处不准确的地方。

Kimi 把华为 Mate 70 Pro+ 芯片列为麒麟 9100,vivo X200 Pro 的系统搞错;通义千问将许多公开信息都列为未知;腾讯元宝把 Mate 70 Pro+ 的生产工艺列为台积电第二代 3nm 工艺;豆包过多信息未明确,甚至连 vivo X200 Pro 的芯片都没有;文心一言将 vivo X200 Pro 的长焦像素列为 3 亿。

除此之外,还有多处信息不全,实际用起来就是生成了答案,我还得去校对,这对工作帮助不大。

这可能也是为什么如今 AI 大模型都不宣传搜集信息,因为网络信息良莠不齐,大模型也拎不准,致使数据错误。所以大模型宣传的,往往是有确定来源的文稿的总结功能,要么就是生成大纲或文章。

简单的文章总结,如今 AI 大模型助手都有这项能力了,大家可以找文章链接、PDF 文件试一下,因为时间关系,老狐就不重复了,我们来一项有难度的测试。

我找来了格力和小米 2024 年上半年的财报,想要比较他们俩上半年的营业收入、研发投入、毛利润和净利润的数据。

这里面是有坑的,有的数据没有,比如格力没有提到毛利润,只有利润率。

通义是表现最好的,数据准确,通义通过毛利率算出了格力的毛利润,但是缺少小米的研发投入。

(滑动查看全文)
*通义

豆包没有给出格力和小米的研发投入,虽然两个大模型给出的格力总收入和小米净利润数据不同,那是因为二者数据的来源有的是财务指标描述,有的是合并的利润表。

(滑动查看全文)
*豆包

元宝就比较多错误问题了,除了格力的总收入和净利润,其他都是乱来。文小言也自己推出了格力的毛利润,但没有给出研发投入,更离谱的是,小米这部分数据是季度数据,而非提示中的半年数据。

(滑动查看全文)
*元宝
*文小言

Kimi 直接表示格力的财报文件超过长度,只能每个 PDF 单独询问,生成结果中,也存在数据错误的情况,比如格力的毛利润是错误的。但是指出了小米的半年研发投入。

(滑动查看全文)
*Kimi

如果这里要矮子里拔将军,通义、豆包和 Kimi 是较好的。

再来看看 AI 大模型写文章的能力,我找来了两篇关于英伟达 RTX50 系显卡发布以及老黄回应价格争议的文章,希望 AI 能再结合目前网上关于 RTX50 显卡相关产品的内容,写一篇文章。

结果是,豆包和 Kimi 更好,在两篇稿子的基础上补充了更多内容,比如笔记本产品的上市时间,RTX50 更多的技术细节,以及竞争对手分析。

(滑动查看全文)
*Kimi

通义和文小言基本就是围绕这两篇文章的性能参数、价格争议、用户群体和未来展望来写。

元宝似乎还没搞懂什么情况,写的不是已经发布的产品,而是展望 RTX50 会如何。

(滑动查看全文)
*元宝

坦白讲看完这些答案并没有让我感觉惊讶,文章内容比较平平无奇,缺乏亮眼,这样的工具不适合写稿,其实更适合写周报这种重复重复再重复的工作内容。

比如这样的:

(滑动查看全文)
*文小言

这是一个简单的需求,生成的结果其实都非常不错,只需要根据自己的实际情况对文本内容做一些调整,唯一要吐槽的地方是 Kimi 字数太多了……

(滑动查看全文)
*Kimi

最后,是有关 AI 大模型的图片生成功能力,如今在互联网上,能见到一些大模型生成的图片用于商业化,比如某些淘宝商品的详情页,但是细节有很多问题。

可是如果你还认为这是 AI 现有的水平,那可能结果会让你大吃一惊。我们也以这个商品给一段 Prompt,让这些大模型来生成图片:

一位年轻的女裁缝在一张桌子前剪裁布料,女裁缝大概二十五岁左右,留着长发,穿着一件羽绒服,戴着手套,正专注地工作。她的背后是衣架,上面有折叠好的衣物,也有正挂着的羽绒服,天花板没有吊顶,只有日光灯和裸露的管道。

除了 Kimi 没有图像生成能力,通义千问表示在生成图片时遇到了技术问题,豆包、文小言和元宝生成的图片都要比前面提到的淘宝详情图片要好得多,虽然还存在手部比例失调等细节问题,但整体质量已经提升了不少。

如果大家在家过年发微信消息,缺少表情包,那么也可以借助大模型来定制你需要的表情包,例如这样。

以上就是关于 5 个 AI 大模型助手各方面能力的横向比较,整体而言,豆包综合表现更好,其次是通义和 Kimi,再是文小言,最后是元宝。如果生成图片对你而言重要,那么要考虑的是豆包、文小言和元宝。

需要注意的是,本次测试内容提升了难度,不再是简单的拍照识别,做鸡兔同笼问题,还有写周报,这些场景,其实大模型都完成的不错。

在更复杂的场景上,可以看到大模型取得了长足的进步,它能做高考题,如果 Prompt 优化得当,能生成一份有参考性的长期旅行计划,生成的图片也有了可用性,只是用 AI 大模型找来的数据,我还是不放心使用。

但可以期待在 2025 年,AI 大模型能带来更多的惊喜,尤其是当下,AI 大模型结合硬件成为一个热门赛道,国外的 Meta、国内的 Rokid、雷鸟、闪极都在推出智能眼镜,还有豆包的 AI 耳机,2025 年的 AI 硬件领域一定非常精彩。

最近一年,豆包和 Kimi 应该是市场上最热门的两家 AI 大模型助手,其中有研发投入带来的优秀体验,也有营销上花的心思,相比之下,通义和元宝,热度会低不少,这可能与他们自身的产业有关,阿里和腾讯都有丰富的面向企业端的业务,可以用 AI 大模型来优化,因此在用户端的投入没那么高。

不是所有的互联网大厂都去卷 C 端大模型,这是好事,AI 应该是给全行业带来帮助的,我们离不开微信和抖音,但同时也需要 EDA 这样设计芯片的软件。

大家认为苹果会选择跟哪家大厂合作呢?

参考资料:

豆包、元宝、Kimi、通义、文小言

编辑:木易

科技狐
一家专注科技互联网领域,每日分享科技、数码、汽车、商业、TMT、AI 的新媒体。
 最新文章