仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

科技 2024-11-24 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心｜编辑：蛋酱、陈陈

太卷了，大模型迭代开始以「周」为单位了吗？

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。

对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

可惜振奋的时间不长：昨天，GPT-4o 一个更新，把第一名的位置抢回来了。

奥特曼庆功的话音刚落，Gemini-Exp-1121 杀出来，又把第一名抢走了。

谷歌工程师还顺带嘲讽了一波：

位次的变化实在太快，让人有点恍惚了。难道接下来，大模型迭代要以「周」为单位了吗？

狂卷基准测试，真有意义吗？

有人猜测，莫非这就是谷歌逐渐过渡到 Gemini 2 的发布方式？但这种可能性不大，因为最近的两个模型版本都还达不到「次世代」的水准。再加上又有传言，各家在训练阶段的 Scaling Law 上都遇到了一些瓶颈，提升模型能力的希望更多转向了后训练阶段。我们最终看到的下一代大模型，或许和目前的技术路线大不相同。

目前，Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均为可用状态：

从官方发布的介绍来看，Gemini-Exp-1114 的亮点主要在于质量改进，而最新的 Gemini-Exp-1121 重点改进了编码、推理和视觉能力。

这场争夺战的出现，却引出了另外一个角度的话题：当前的人工智能基准测试方法可能大大简化了模型评估。

就比如一周前，当研究人员控制了响应格式和长度等表面因素时，Gemini-Exp-1114 的表现下降到第四位，因为传统指标可能会夸大感知能力。

这种差异揭示了人工智能评估中的一个根本问题：模型可以通过优化表面特征而不是展示推理或可靠性的真正改进来获得高分。对定量基准的关注引发了一场争夺更高分数的竞赛，行业对排行榜的依赖也会催生一些不良激励方式，而这些都无关于人工智能的真正进步。

各个厂商针对特定测试场景优化模型，同时可能忽略安全性、可靠性和实用性等更广泛的问题。这种方法产生的 AI 系统擅长完成狭隘的预定任务，但在处理细微的现实世界互动时却举步维艰。

比如有人就发现在 LiveBench 上，一周后更新的 Gemini-Exp-1121 版本，在数学和推理能力上反而比不上 Gemini-Exp-1114，令人疑惑。

厂商之间为获得更高的基准分数而展开的竞争并不会停止，但真正的竞争可能在于如何开发全新的框架来评估和确保人工智能系统的安全性和可靠性。

OpenAI 考虑用浏览器挑战谷歌霸主地位

谷歌和 OpenAI 不仅在大模型领域有点针锋相对，在浏览器方面，OpenAI 正在加紧追赶。

当谷歌 Chrome 浏览器深陷反垄断之际，OpenAI 出手了。

据《Information》周四报道，OpenAI 最近考虑开发一款可与其 ChatGPT 聊天机器人集成的 web 浏览器，并推出了 NLWeb（Natural Language Web）搜索技术，以增强对旅游、食品、房地产和零售等行业的搜索。

报道还称，OpenAI 已与 Conde Nast、Redfin、Eventbrite 和 Priceline 等网站和应用程序开发商讨论过这款搜索产品。

据知情人士透漏，为了达到这一目标，OpenAI 聘请了谷歌 Chrome 团队创始成员 Ben Goodger 以及其他前 Chrome 关键开发人员进行研发，展现了 OpenAI 对开发浏览器浓厚的兴趣。

领英资料显示，此前 Ben Goodger 是 Chrome 团队的创始成员，今年 6 月加入 OpenAI

这一系列举措可能会让 OpenAI 与占据浏览器和搜索市场最大份额的谷歌展开竞争。此前，OpenAI 已经通过 SearchGPT 进入搜索市场。

报道还称，OpenAI 讨论了为三星制造的设备提供人工智能功能，而三星是谷歌的主要商业合作伙伴。

此前，OpenAI 已经与苹果建立了合作伙伴关系，Apple Intelligence 功能现已使用 OpenAI 的技术。

不过，目前尚不清楚 OpenAI 何时会推出浏览器，《Information》报道称，OpenAI 距离推出浏览器还差得很远。

如今看来，谷歌不仅面临来自 OpenAI 的压力，在美国司法部认为谷歌应该出售其 Chrome 浏览器以结束其在在线搜索领域的垄断地位后，谷歌在浏览器市场的主导地位变得岌岌可危。

如果 OpenAI 成功推出新的浏览器，它将成为谷歌最大的竞争对手。

吃瓜网友们也是纷纷看好 OpenAI，表示道「OpenAI 是非常有潜力开发出一款非常棒的浏览器的，因为他们现在已经有了搜索功能。」

不过也有网友并不看好：「就我个人而言，浏览器对我已经没什么用了，因为我现在只需向聊天机器人提问，就能立即得到答案，而且无需广告或尝试多个页面。」

还有人用一个故事表达了自己的观点：「Nicholas Negroponte 曾经讨论过超级计算机的应用，并讲述了一个关于他们展示科学计算器应用的故事。所有的投资者都非常生气 ——『我们花费了数百万美元，而你们所做的只是重新创建了计算器？我们已经有计算器了！』如果 OpenAI 开发一款浏览器，我认为可能会发生同样的事情。」

我们暂且不管 OpenAI 何时推出浏览器，单就最近几天这两家机构在模型更新速度上，就已经相当激烈了，OpenAI 正面刚谷歌还会继续。

参考链接：

https://www.theinformation.com/articles/openai-considers-taking-on-google-with-browser

https://x.com/btibor91/status/1859716045004734739

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611513&idx=3&sn=98e509cb983868790d2e986aaaa08ce2

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！