首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

一个常识问题竟让大模型集体翻车？9.9vs9.11?多家测试对比

文摘 2024-07-17 00:35 广东

关于“9.9和9.11谁更大”的问题，主流大模型如GPT-4o、Claude 3.5 Sonnet等在处理这一简单数学问题时出现了错误，错误地认为9.11大于9.9。这一现象表明，尽管AI在处理复杂问题时表现出色，但在基础的数学常识问题上仍存在明显缺陷。

先来一波一本正经回答错误❌的

GPT4o

结果：回答错误❌

Gemini

结果：回答错误❌

Claude3.5

结果：回答错误❌

Perplexity

结果：回答错误❌

Kimi

结果：回答错误❌

秘塔

结果：回答错误❌

豆包

结果：回答错误❌

正经回答正确的✔

腾讯元宝

结果：回答正确✔

百度文心3.5

结果：回答正确✔

天工AI搜索

结果：回答正确✔

360AI搜索

结果：回答正确✔

Miku AI搜索

结果：回答正确✔

最后，具体想看出错的原理，可参考以下文章，都写得很不错~

参考链接：

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

http://mp.weixin.qq.com/s?__biz=MzkyNDYwMzg3OA==&mid=2247487350&idx=1&sn=7e10ccf6df06c922aa3cbd8c779d807f

GeekSavvy是一个新世代AI极客社区，主要覆盖AI极客、创业者和投资人。我们会用Geek视角👉见识行业趋势、洞察AI产品和预见未来科技风向标🚀！

最新文章

知识经济结束，已经悄悄来到配置经济！

智能体即将爆发，如何从中获利？

先被画饼再到PUA，我才明白职场的第一课

从0到1完成500万美元的收入经验分享

别再卷国内了，出海，赚美金吧！

一文深度了解Agent智能体以及认知架构

最新深度访谈 | YC CEO对话OpenAI CEO山姆奥特曼

RAG在未来会消失吗？附RAG的5种切分策略

在未来，通才和专家谁更有优势？

腾讯混元又悄悄开源两个模型，MoE和3D模型！

吴恩达 |《The Batch》推出关于AI万圣节特别版文章

首次公布三个月后，OpenAI正式推出ChatGPT search

AI创业的尽头还是广告/营销吗？

我们如何生活在社交媒体矩阵中...

设计为何如此重要，除非你不追求美！

AI能像人一样操控电脑了！熬夜实测Claude新版本，只能说太牛逼！！

打个喷嚏 achei~，谁又在想你了？

初创公司的产品应该开启收费吗？

情绪又可以释放了，「歌词爆改机」它来了！

初创团队正在丢掉自己仅存的一点优势！

揭秘Kimi探索版不好用的背后的原因

Sam Altman再一次被推向风口浪尖，人工智能安全再一次敲响警钟！

从AI搜索开始到AI信息官，我们只想实现一个事情…

OpenAI开源多Agent框架Swarm，熬夜实测整理出几大亮点！

Claude CEO的最新万字长文，比山姆奥特曼更理性实际！

马斯克Robot对话Kimi探索版，一起探索世界

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

YC合伙人谈论如何撰写高转化率冷邮件 | 实用指南件

国外增长大佬专为新手设计的Google SEO 指南丨快速上手

NotebookLM+AI播客到底是什么神仙组合？

来自YC给创业公司商业模式和定价的学习指南

前Uber增长大佬Andrew的产品冷启动实用指南

不懂代码的人也可以用Cursor，5分钟快速完成一个简单的支付页面

今日思考：AI信息官能否成为这个时代的救世主？

一个常识问题竟让大模型集体翻车？9.9vs9.11?多家测试对比

每一天都是最难的一天 | 用Geek视角看AI+影视

AIGC、UGC、PGC三者之间新的排列组合将诞生新范式内容社区

大模型参加高考，能否轻松上清北，还是需要复读？

数据严谨才是最大的豪华 | 多地高考分数线公布，AI填报志愿引热议

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉