首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

9.9比9.11小？哪些大模型的数学课是语文老师教的？

文摘 2024-07-21 17:13 新加坡

1. 引言：一个意外发现

上周开始，一个小学生都不会做错的数学问题在社交媒体上引发了热议：9.11和9.9，哪个更大？

这个问题最初是由Riley Goodside发现的，他是一个全职的提示词工程师，目前在硅谷独角兽Scale AI工作，在使用GPT-4时偶然发现了这个有趣的现象。

（国内很多人对Scale AI应该不陌生，它的CEO Alex Wang是MIT辍学，现在的公司估值千亿，这个月还看到Scale AI正在招聘博士训练LLM，可以远程办公，时薪40美元，有兴趣的可以去试试。）

2. 问题的发现与测试

当他问GPT-4 “9.11 and 9.9——which is bigger?”时，AI竟然毫不犹豫地回答是9.11更大。

作为一名提示工程师，Goodside敏锐地意识到可能是“打开方式有误”。于是他又换了个问法，将提问限定在“实数”，结果AI模型还是给出了错误的答案。

这个发现引发了他的好奇心，Goodside随即测试了其他主流大模型，结果令人大跌眼镜——几乎所有模型都犯了同样的错误，包括Gemini Advanced和Claude 3.5 Sonnet在内。

3. 提问顺序的影响

有趣的是，当有网友试着给提问换了个顺序时，AI模型居然反应过来了，给出了正确的答案。

总结就是：将数字放在问题前面时，AI更容易出错；而将问题放在前面，AI则能正确作答。

4. 错误的根源

那么，为什么这些号称能解决复杂问题的AI大模型，会在这样一个简单的数学问题上栽跟头呢？

原来，问题的关键在于提问的方式和顺序。

大模型使用称为“Tokenizer”的工具（中文叫分词器）来理解和处理文本。

以OpenAI使用的开源Tokenizer为例，当它处理“9.11”时，会默认将其分解为“9”、“.”和“11”三个部分。

Tokenizer的工作原理是将文本切分成更小的单元(token)，以便模型能够更好地理解和处理语言。然而，在处理数字时，这种切分方式可能会引入歧义。

在“9.11”的例子中，模型错误地将其理解为两个独立的数字“9”和“11”，而没有意识到这实际上是一个小数，这导致了模型的判断出现偏差。

https://platform.openai.com/tokenizer （OpenAI开源的Tokenizer，知识做模拟）

5. 解决方法

现在知道了问题的来源，我们就能找到解决方法。

方法1：

只要向AI明确解释这是一个“双精度浮点数”比较问题，AI就能给出正确答案，当然要注意顺序，你在结尾说明这个是“双精度浮点数”就来不及了。

方法2：

使用“Zero-shot CoT”思维链技术，就是引导AI“一步一步地思考”。例如，我们可以这样提问：（英文是Think in step）

“让我们一步步思考:

9.11 可以写成 9 + 0.11
9.9 可以写成 9 + 0.9
0.9 比 0.11 大所以，哪个数更大？”

使用这种方法,大多数AI大模型都能得出正确结论。

6. AI技术的局限性与提示工程的重要性

这个看似简单的问题揭示了当前AI技术的一些局限性。

尽管在许多复杂任务上表现出色，但在一些基础的数学运算上，AI仍然可能出现意想不到的错误。

这也提醒了我们，在使用AI时需要保持警惕，并且在关键决策中仍然需要人类的判断和验证。

在尝试解决这个问题的过程中，人们发现原先无往不利的角色扮演（Role Playing），好像这次没有起到任何作用。你即使定义大模型是一个牛津大学数学专业毕业的博士，还是不会回答这道小学生都会做的数学题。

除了数学运算，ChatGPT和其他大语言模型在一些其他看似简单的任务上也存在缺陷，例如字符计数、处理不对称信息等。

在阿里巴巴举办的数学竞赛中，参赛AI模型的表现也不尽如人意。

7. 目前AI大模型创业的形势判断

这个月看到Gartner发布的《2024年人工智能技术成熟度曲线》，GenAI已经度过了预期膨胀的高峰期，但炒作仍在继续。

另外高盛、红杉的分析师说AI行业的投资和收入，有6000亿美金的缺口，不可能长期持续，就看出了卖铲子的英伟达，还有哪个挖金矿的开始赚钱了。

对于大模型创业，还是要守住现金流，不要盲目扩张，也要注意克制，不去接后期运维成本高的项目。

同时也因为大模型存在的各种缺陷，在和客户一起打造产品的时候，一定要理解技术边界，目前的技术能做什么，不能做什么，不能对技术过于乐观。在没有充分理解目前大模型技术边界的情况下去寻找场景，很可能会找到不切实际的场景。

http://mp.weixin.qq.com/s?__biz=Mzk0MTY4MjE4OA==&mid=2247483893&idx=1&sn=1de50ac7837610ebb6c932f9c8b9d45f

AI科普 AI培训超级个体创业

最新文章

姜萍事件背后：关于诚信、教育与组织能力的思考

每天一小时：打造属于自己的副业之路

亚马逊KDP出版实战：从0到月入6位数的5个关键策略

从推特到世界舞台：马斯克钻洞公司的创新之旅

海外文凭新选择：美国顶尖院校在线IT硕士项目全攻略

双十一来了，给粉丝发140个大红包！

11个非常实用的提示词技巧，建议收藏！

从TypingTest.com解析海外工具站的成功之道

AI走进生活：与新加坡华人社区共话AI未来

图解Transformer：大语言模型背后的核心框架

Scikit-Learn：完整工作流程与算法选择指南

提示词工程的演变：从文本到可视化

AI辅助炒股：10个点石成金的提示词

Python数据分析:从收集到部署的全流程指南

从入门到精通：5个循序渐进的Python AI项目实战

动手实践：5个AI项目让你的AI技能提升

35岁以后职场退路，真的是小公司吗？

AI推理能力再审视：苹果最新论文揭示大语言模型的局限

AI大模型格局与核心技能：从技术前沿到个人成长

解析Llama 3.2：技术进步与市场期待的微妙平衡

谷歌推出AI驱动的智能笔记本：NotebookLM

ChatGPT 最新提示词速查表：提示工程技巧揭秘

七步打造AI产品经理之路：技能、挑战与未来展望

职场人如何用AI快速创作电子书并赚取副业收入

NTU学生的问卷和答复

19个提升大脑健康的实用技巧：全面守护你的大脑

麻省理工公开课：线性代数

创业者必知的学习清单：克服7大障碍，实现持续成长

工作效率与生活平衡：AI时代的智慧之选

国庆节来了，给粉丝发140个大红包！

OpenAI高层动荡揭秘：技术与伦理的矛盾之战

生成式AI如何改变企业未来？谷歌185个案例为你解答

探索AI前沿：三门顶级大学的免费大型语言模型课程

中年逆流，何处是岸?——从《逆流人生》看AI时代的个人出路

从0到1！用AI创作电子书，赚取被动收入的完整指南

吴恩达最新力作：AI+Python初学者课程系列

哈佛大学13门免费AI课程大盘点：从入门到精通

从1943到2023：人工智能的80年进化史

OpenAI o1模型：AI能力的新里程碑与行业思考

Skana AI：日本AI新星的崛起与启示

关于OpenAI o1系列大模型的几点思考

AI落地神器：NotebookLM让你快速阅读一本书

使用 Cursor 进行开发的7个技巧

海外独立开发者的成长之路：经验、挑战与启示

OpenAI o1系列：AI时代的新里程碑

用Cursor快速搭建网站，开启全球商机

不用写代码！教你如何用Cursor AI轻松开发2048游戏

一个让LLM更具创造力的"超级提示词"

Anthropic最新的AI提示词工程视频总结

重新评估生成式AI：挑战、机遇与社会影响

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉