Google Gemini 出人意料地飙升至第一名,超过 OpenAI

文摘   2024-11-17 16:07   安徽  

谷歌凭借其最新的实验模型在一项关键的人工智能基准测试中名列前茅,这标志着 AI 竞赛的重大转变——但行业专家警告说,传统的测试方法可能无法再有效地衡量真正的 AI 能力。

该模型被称为“Gemini-Exp-1114”,现已在 Google AI Studio 中提供,在积累了超过 4 张社区投票后,在 Chatbot Arena 排行榜上的整体表现与 OpenAI 的 GPT-6,000o 相当。这一成就代表了谷歌对 OpenAI 在高级人工智能系统的长期主导地位的最大挑战。

为什么 Google 破纪录的 AI 分数隐藏了更深层次的测试危机

测试平台 Chatbot Arena 报告称,实验性 Gemini 版本在数学、创意写作和视觉理解等几个关键类别中表现出卓越的性能。该模型获得了 1344 分,比以前的版本大幅提高了 40 分。

然而,在越来越多的证据表明当前的 AI 基准测试方法可能大大简化了模型评估的情况下,这一突破出现了。当研究人员控制响应格式和长度等表面因素时,Gemini 的表现下降到第四位,这凸显了传统指标如何夸大感知能力。

这种差异揭示了 AI 评估中的一个基本问题:模型可以通过优化表面特征来获得高分,而不是展示推理或可靠性的真正改进。对定量基准的关注引发了一场争夺更高数字的竞赛,而这些数字可能无法反映人工智能的有意义进展。

 根据 Chatbot Arena 的排名,谷歌的 Gemini-Exp-1114 模型在大多数测试类别中都处于领先地位,但在控制响应风格时下降到第四位。来源: lmarena.ai

Gemini 的阴暗面:其早期排名靠前的 AI 模型产生了有害内容

在一个广为流传的案例中,就在最新型号发布前两天,Gemini 的模型发布产生了有害的输出,告诉用户,“你不特别,你不重要,你也不被需要”,并补充说,“请死吧”,尽管它的性能得分很高。 昨天,另一位用户指出了 Gemini 是多么“清醒”,这导致对被诊断出患有癌症的人感到不安时出现麻木不仁的反应。新模型发布后,反应喜忧参半,有些人对初始测试不满意(见这里、这里和这里)。

基准性能与实际安全性之间的这种脱节凸显了当前的评估方法无法捕捉 AI 系统可靠性的关键方面。

该行业对排行榜排名的依赖产生了不正当的激励措施。公司针对特定的测试场景优化其模型,同时可能忽略更广泛的安全性、可靠性和实际实用性问题。这种方法产生的 AI 系统擅长于狭窄的、预定的任务,但在细微的现实世界交互中却难以应对。

对于谷歌来说,基准测试的胜利代表着在几个月追赶 OpenAI 之后,士气得到了显着的提升。该公司已通过其 AI Studio 平台向开发人员提供了实验模型,但目前尚不清楚该版本何时或是否会整合到面向消费者的产品中。

 本周与谷歌前领先的 Gemini 模型的令人担忧的交互截图显示,AI 生成了敌对和有害的内容,凸显了基准测试性能与现实世界安全问题之间的脱节。来源:用户在 X/Twitter 上分享

由于 AI 测试方法不足,科技巨头面临分水岭

这一发展正值 AI 行业的关键时刻。据报道,OpenAI 一直在努力通过其下一代模型实现突破性改进,而对训练数据可用性的担忧也加剧了。这些挑战表明,以目前的方法,该领域可能正在接近基本极限。

这种情况反映了人工智能发展中更广泛的危机:我们用来衡量进展的指标实际上可能正在阻碍它。虽然公司追求更高的基准分数,但他们可能会忽视有关 AI 安全性、可靠性和实际效用的更重要问题。该领域需要新的评估框架,优先考虑现实世界的性能和安全性,而不是抽象的数字成就。

随着该行业努力克服这些限制,谷歌的基准成就最终可能被证明是它揭示当前测试方法不足的事实,而不是人工智能能力的任何实际进步。

科技巨头之间为获得更高的基准分数而进行的竞赛仍在继续,但真正的竞争可能在于开发全新的框架来评估和确保 AI 系统的安全性和可靠性。如果没有这些变化,该行业就有可能针对错误的指标进行优化,同时错过在人工智能领域取得有意义进展的机会。

[11 月 15 日下午 4:23 更新:更正了文章中对“请死”聊天的引用,这表明该评论是由最新模特发表的。这句话是由 Google 的 “高级” Gemini 模型做出的,但它是在新模型发布之前做出的。

    关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息  

硅基LIFE
每天推送全球关于芯片和人工智能的最新动态
 最新文章