AI又出bug了? 数学能力翻车?​嘲笑AI的结局,就是被碾压

科技   2024-07-16 16:07   北京  
 近日,人工智能领域再次引发热议。知名AI研究者Riley Goodside在社交平台上发布了一组有趣的测试结果,揭示了包括ChatGPT、Claude和Gemini在内的多个大语言模型(LLM)在进行简单数值比较时出现了令人困惑的错误。
这个看似简单的测试是这样的:询问AI "9.11和9.9哪个数字更大?"
下面是亲测GPT-4o,英文给出的答案,前后有些矛盾,但最终给了正确答案
而中文,则是正确的。对中文会更谨慎求证?还是能自我学习,改进?
谣言不要尽信,需要去小心求证。像当年围棋一样,嘲笑Alapha Go的结局一样,最终一众大师被碾压。


下面是社交媒体上疯传的截图。

GPT-4o,认为9.11更大。

都这么肯定了,那就继续问你9.11比9.9大多少 ,果然上套了。


Claude 3.5,给出了推理过程,很负责任地认为9.11更大。

Gemini,给出了推理过程,很确定认为9.11更大。

令人惊讶的是,多个顶级AI模型都给出了错误答案,认为9.11比9.9大。这个结果引发了技术界的广泛讨论,也让我们不禁思考:AI在基础数学运算上为何会出现如此明显的错误?

Goodside的实验显示,即便明确指出这是实数比较而非软件版本号,AI仍然会犯同样的错误。这个问题似乎并不受标点符号、连词选择或比较词的影响。

有评论认为,这可能与AI训练数据中包含大量软件版本号有关,导致模型在某些情况下将数字误解为版本号。然而,更深层次的原因可能在于AI对数字概念的理解还不够深入和灵活。

这一发现再次提醒我们,尽管当前AI技术发展迅速,在许多复杂任务上表现出色,但在一些看似简单的基础问题上仍可能出现意想不到的失误。这凸显了AI系统在数学逻辑、常识推理等方面还有很长的路要走。

随着ChatGPT、文心一言等生成式AI的普及,越来越多人开始在日常生活和工作中使用这些工具。这个案例提醒我们,在使用AI时仍需保持警惕,特别是在涉及数据分析、财务计算等关键领域时,人类的判断和验证仍然不可或缺。

这一事件也为AI研究者们指明了新的方向。如何提升AI在基础数学和逻辑推理方面的能力,如何让AI拥有更接近人类的"常识",将是未来AI发展的重要课题。

随着技术的不断进步,相信这类问题终将得到解决。但在此之前,我们既要认识到AI的强大之处,也要清醒地认识到它的局限性,在"人机协作"中找到最佳平衡点。

记得关注我们的公众号,获取更多AI使用技巧和效率提升秘籍

解锁未来,掌控AI 大模型的力量!评论区留言,加入“零基础掌握AI”群

AI大模型应用派
AI前沿,AI大模型应用介绍,AI大模型案例分享。
 最新文章