下面是社交媒体上疯传的截图。
GPT-4o,认为9.11更大。
都这么肯定了,那就继续问你9.11比9.9大多少 ,果然上套了。
Claude 3.5,给出了推理过程,很负责任地认为9.11更大。
Gemini,给出了推理过程,很确定认为9.11更大。
令人惊讶的是,多个顶级AI模型都给出了错误答案,认为9.11比9.9大。这个结果引发了技术界的广泛讨论,也让我们不禁思考:AI在基础数学运算上为何会出现如此明显的错误?
Goodside的实验显示,即便明确指出这是实数比较而非软件版本号,AI仍然会犯同样的错误。这个问题似乎并不受标点符号、连词选择或比较词的影响。
有评论认为,这可能与AI训练数据中包含大量软件版本号有关,导致模型在某些情况下将数字误解为版本号。然而,更深层次的原因可能在于AI对数字概念的理解还不够深入和灵活。
这一发现再次提醒我们,尽管当前AI技术发展迅速,在许多复杂任务上表现出色,但在一些看似简单的基础问题上仍可能出现意想不到的失误。这凸显了AI系统在数学逻辑、常识推理等方面还有很长的路要走。
随着ChatGPT、文心一言等生成式AI的普及,越来越多人开始在日常生活和工作中使用这些工具。这个案例提醒我们,在使用AI时仍需保持警惕,特别是在涉及数据分析、财务计算等关键领域时,人类的判断和验证仍然不可或缺。
这一事件也为AI研究者们指明了新的方向。如何提升AI在基础数学和逻辑推理方面的能力,如何让AI拥有更接近人类的"常识",将是未来AI发展的重要课题。
随着技术的不断进步,相信这类问题终将得到解决。但在此之前,我们既要认识到AI的强大之处,也要清醒地认识到它的局限性,在"人机协作"中找到最佳平衡点。
解锁未来,掌控AI 大模型的力量!评论区留言,加入“零基础掌握AI”群