AI也懵圈:13.8%和13.11%到底哪个大?

文摘   科技   2024-07-16 17:22   上海  

文:董指导



-----------------------------------o------------------------------------

本期要点

#大模型 #数学 #比大小

---------------------------------o----------------------------------



理工科和金融的复合背景,让我更好地理解技术,也喜欢从投资的视角发现变化,毕竟资本永不眠、资本最敏锐。国内头部私募的投研、以及头部财经自媒体创业的两段经历,让我有了结构化的思考体系时,也更理解企业经营并非写报告。因而,剖析商战,就成为我理解商业、发现机遇的最佳视角。


今天就来聊一下“大模型的数学计算能力”




前几天,《歌手2024》最新一期,孙楠以微弱优势超过了海外歌手,获得第三。结果,却引起了网友们的争执。


争执焦点不是孙楠和海外选手Chante Moore谁唱得好,而是13.8%和13.11%到底哪个大?



不少人感叹,5%本科率,诚不欺我。九年义务教育,都白普及了。


但你要以为只有网友们是这样,那就大错特错了。同样的类似的问题,抛给AI之后,也翻车了。


ChatGPT 也没反应过来,但是经过多次提问矫正后,可以给出正确答案。



那么,国内各AI会如何呢?测试是这样:第一轮,直接询问“9.8和9.11哪个大”。 


第二轮:担心AI没理解是数学问题,所以更加明确是“数字比大小,9.8和9.11哪个大”。


第三轮:质疑。


第四轮:继续质疑。


结果是这样的:


    1、文心一言

    第一轮就直接回答正确,而且两次质疑后,依然回答正确。


2、字节


也是,第一轮就回答正确了。两次质疑后,依然十分确定。



3、讯飞星火


第一轮回答正确,但质疑之后,就懵圈了,回答错了。  再次质疑后,又重新计算了一遍。然后,再质疑几次后,基本是坚持正确答案不变了。



4、通义千问


第一次回答错误;第二次告诉是数字比大小后,回答正确。

但是质疑之后,就连续错误了。


眼看着救不回来了,我又重复了一遍数学比大小,这次纠正了前面错误,而且在质疑之后能坚持正确答案了。


5、KIMI


KIMI还是处理中文结构化是非常好的,数学,这次翻车得很。怎么说都不行,脑海里浮现的就是吵架时女朋友的我不听我不听。


当然,数学计算只是AI的一个小功能,并不代表绝对的优劣。但是,还是提醒了我们,目前阶段,一个AI助手,是不够的。要多个交叉验证。




-全文完


理工/金融  复合背景,头部私募/头部自媒体  双重经历

董指导 和大家一起

深度挖掘商战,前瞻发现机遇


点个在看和赞再走~

董指导研究
拆解“商战”,发现“机遇”