关于“9.9和9.11谁更大”的问题,主流大模型如GPT-4o、Claude 3.5 Sonnet等在处理这一简单数学问题时出现了错误,错误地认为9.11大于9.9。这一现象表明,尽管AI在处理复杂问题时表现出色,但在基础的数学常识问题上仍存在明显缺陷。
先来一波一本正经回答错误❌的
GPT4o
结果:回答错误❌
Gemini
结果:回答错误❌
Claude3.5
结果:回答错误❌
Perplexity
结果:回答错误❌
Kimi
结果:回答错误❌
秘塔
结果:回答错误❌
豆包
结果:回答错误❌
正经回答正确的✔
腾讯元宝
结果:回答正确✔
百度文心3.5
结果:回答正确✔
天工AI搜索
结果:回答正确✔
360AI搜索
结果:回答正确✔
Miku AI搜索
结果:回答正确✔
最后,具体想看出错的原理,可参考以下文章,都写得很不错~
参考链接:
[1]https://x.com/goodside/status/1812977352085020680
[2]https://x.com/billyuchenlin/status/1812948314360541302
[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
[4]https://tiktokenizer.vercel.app
[5]https://x.com/learnprompting/status/1812867464419852765