一个常识问题竟让大模型集体翻车?9.9vs9.11?多家测试对比

文摘   2024-07-17 00:35   广东  


关于“9.9和9.11谁更大”的问题,主流大模型如GPT-4o、Claude 3.5 Sonnet等在处理这一简单数学问题时出现了错误,错误地认为9.11大于9.9。这一现象表明,尽管AI在处理复杂问题时表现出色,但在基础的数学常识问题上仍存在明显缺陷。



先来一波一本正经回答错误❌的


GPT4o

结果:回答错误❌


Gemini

结果:回答错误❌


Claude3.5

结果:回答错误❌


Perplexity

结果:回答错误❌

Kimi

结果:回答错误❌


秘塔

结果:回答错误❌

豆包

结果:回答错误❌



正经回答正确的


腾讯元宝

结果:回答正确✔

百度文心3.5

结果:回答正确✔

天工AI搜索

结果:回答正确✔

360AI搜索

结果:回答正确✔

Miku AI搜索

结果:回答正确✔


最后,具体想看出错的原理,可参考以下文章,都写得很不错~



参考链接:

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765



GeekSavvy
GeekSavvy是一个新世代AI极客社区,主要覆盖AI极客、创业者和投资人。我们会用Geek视角👉见识行业趋势、洞察AI产品和预见未来科技风向标🚀!
 最新文章