上6休3上3休2……这烧脑的调休安排,国内外AI都算不明白,集体大“翻车”!

文摘   2024-09-12 09:56   北京  


这两天,关于今年中秋国庆的调休安排频繁登上热搜:“上6休3上3休2上5休1上2休7再上5休1”。

对此,广大网友集体被搞懵:“太复杂了,根本算不明白”,“谁能直接告诉我到底多休了几天”,“看这词条长度,上一个把简单数字搞这么复杂的还是大促凑满减”……既然如此,那就有请不论是文本生成、知识问答,还是数理逻辑、代码编写等方面都面面俱到的 AI 大模型出场

接下来,让我们一起来看看,AI 到底能不能算明白这次“烧脑”的调休安排。
提示词统一为:我们即将迎来中秋节和国庆节,以下是从2024年9月9日(周一)到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。请你告诉我,扣除本就应该休息的周末(周六和周日),我因为放假多休息了几天?

正确答案为:4天。

01


国外 AI 大模型篇:唯独 Claude 回答正确,Gemini 给放了 20 天假

首先上场的是 ChatGPT(GPT-4o)。先不提结果,光看这一页都盛不下的演算过程,这调休安排的复杂程度就已呼之欲出了。可惜的是,一顿哐哐输出后 ChatGPT 给出了错误答案:6 天,比正确答案多了 2 天。
然后是 Gemini。从刚开始输出的休息日和工作日,明显就感到不对劲了:有很多既是工作日也是休息日的日子?最后一看结果,Gemini 果然也错了:多休息了 20 天——甚至它还温馨提示说,这 20 天假期不包含病假和事假。嗯……很希望这个错误答案是对的(bushi)。
最后是 Claude。它的解答逻辑很清晰:先算出实际休息天数,再减去正常周末天数即可——果然,Claude 给出了正确答案 4 天。

02


国产 AI 大模型篇:几乎“全军覆没”,还有负数答案?
国外 AI 大模型测了一遍,目前只有 Claude 回答正确。接下来,让我们看看国产 AI 大模型能否有些“主场优势”?

在回答这个问题时,文心一言首先计算 9 月 9 日开始后的 9 月剩余天数,但本该是 22 天算成了 13 天,由此影响了后续演算,最终答案也因此有所出入:7 天。


通义千问把时间分割为五周,在此基础上分别进行计算,最终得出了正确结果:4 天。
腾讯元宝首先给出了正确的计算思路,但没有给具体的演算过程,最后直接得出了 14 天这个答案。
Kimi 由于在计算放假天数上存在问题,故而与 Gemini 一样给出了超长的答案:多休了 23 天。


智谱清言可谓“人狠话不多”,没有提供任何解答思路和演算过程,直接就给出了正确答案:

颇为巧合的是,有些 AI 大模型给出的错误答案也是一样的:

(豆包)

(天工)

360 智脑给出的答案最令人意外:它的计算结果竟然是负数,还进一步解释道“实际上你在这段时间内工作的时间比原本应该有的周末还要多 7 天”。
从以上国内外大模型的测评结果来看,尽管目前 AI 技术正迅速发展并深入各个领域,在数据分析、机器学习等方面表现出色,但看来多数大模型在处理这个问题上还有待加强。

最后,借用一位网友令人“茅塞顿开”的分析,提醒各位接下来的上班时间:“就是中秋节跟前面借了一天,国庆节前面借一天,后面借一天。其他该上班上班该周末周末。”

AI技术正改变世界,而AiDD峰会正是这一变革的缩影。峰会汇聚了全球的研发精英,共同探讨和分享如何利用AI技术解决现实问题,推动社会进步。AiDD峰会即将于2024年11月8-9日于深圳举办,主题为“AI驱动研发变革,促进企业降本增效”。覆盖研发、产品、测试\质量、AI架构师、数据科学家等技术管理者,内容涵盖当下实时热点:AI Agents、大模型对齐与安全、端侧大模型与云端协同、领域大模型SFT与优化、知识增强与数据智能、AI+流程自动化、AI驱动产品及设计创新、LLM驱动编程与单测等精彩内容,聚焦于实践操作与经验共享。现AiDD峰会早鸟票火热报名中,欢迎大家扫码报名,了解更多详情!
如果在您心目中有非常合适的演讲人选,欢迎向组委会推荐(请在邮件中尽可能详述被推荐人的个人信息与可分享的话题信息,发送至assistant@aidd.vip



推荐活动




欢迎大家参与「2024软件研发应用大模型」调查,您的见解将推动行业创新,同时还有机会赢取技术图书奖励。2024年的软件研发应用大模型调查,旨在更深入地理解LLM在软件研发中的新进展、新趋势和新挑战。与2023年的调查相比,今年的调查在内容上进行了优化、丰富和扩展,增加了几项重要的调查项,例如:RAG相关技术、智能体(agents)开发框架、微调技术、业务规划或产品创新、在“软件需求” 哪些方面发挥作用、各个行业 / 领域大模型应用成熟度......。欢迎参与调研,也欢迎一起转发,让更多的企业参与。
《2023软件研发应用大模型现状调研报告》下载渠道:请关注本公众号,输入“AiDD2023调查”可免费下载。

点这里↓↓↓记得关注标星哦~





中智凯灵
中智凯灵(KeyLink)是国内领先的专业数字人才发展平台,面向科技研发型企业和组织提供数字化人才培养的专属成长地图,数字化转型的方法 + 智库。
 最新文章