谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

科技 2024-11-22 12:37 北京

明敏发自凹非寺
量子位 | 公众号 QbitAI

谷歌和OpenAI又杠上了。

在新版GPT-4o刚登顶竞技榜后1天，立马发布最新试验版模型Gemini-Exp-1121夺回冠军宝座。

要知道，一周前上一版模型Gemini-Exp-1114才发布。

这怕不是拿准了OpenAI会来争擂台，故意留了一手。

这就是引诱OpenAI发新版GPT-4o，然后再用更好的模型来狙击它。

谷歌的研究人员们显然很得意。

谷歌DeepMind首席科学家Jack Rae，称这是一场有趣的后训练“闪电战”。暗示post-training的迭代速度要比预训练快得多。

DeepMind研究副总裁Oriol Vinyals还隔空发问奥特曼：最近还有提交计划吗？

火药味很足，也很自信啊。

所以“1121”有多强？来看具体性能。

代码/推理/视觉理解全提升

按照官方说法，Gemni-Exp-1121重点提升了三方面性能。

代码能力显著提升
更强推理能力
更强视觉理解能力

除了风格控制外，其他方面目前都位于第一。

在视觉能力方面，Gemini-Exp-1121比上一版还有提升。

风格控制下的复杂提示词方面，Gemini-Exp-1121和o1-preview、New Sonnet 3.5水平相当。

竞技场中的实际胜率如下。

现在也能直接上手体验。

比如针对同一张漫画，让Gemini-Exp-1121和GPT-4o-lastest-1120给出理解。

Gemini-Exp-1121的回答更加全面且详细，并且善用小标题、重点加粗。

新版4o的回复就比较简短和笼统。

在经典的动物过河逻辑推理题上，Gemini-Exp-1121回答完全正确，新版4o出现了一些失误，把第三次过河和第四次过河合并了，因此回答有误。

问题：农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。

One More Thing

值得一提的是，OpenAI这边也有新消息。

有人在ChatGPT最新测试版本中首次发现了“实时摄像”（Live Camera）视频功能的代码。

它具体包括实时录像、实时处理、语音模式集成以及视觉识别能力。

在高级语音模式推出时，一些用户有体验到这一能力。

这意味着OpenAI已经做好了上线这一功能的准备。

另一边谷歌也演示过类似的demo，还没上线。按照OpenAI的调性，很可能会抢在谷歌前全量铺开。

或许等到明年，和Chatbot的主要交流方式，就要从文字对话转为语音和agent了。Live Camera可能就是开始，你觉得呢？

参考链接：
[1]https://x.com/OfficialLoganK/status/1859667244688736419
[2]https://x.com/adonis_singh/status/1859682100569571399
[3]https://x.com/OriolVinyalsML/status/1859730969600852222
[4]https://x.com/rowancheung/status/1859301345993556277

— 完 —

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了！

首批嘉宾阵容在此，观众报名通道已开启！欢迎来到MEET智能未来大会，期待与您一起预见智能科技新未来！

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247760478&idx=4&sn=12883ec8216faf4b130c47fce259e963

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

黄仁勋港科大全程高能：对话沈向洋，现场发显卡，与梁朝伟共同获得荣誉博士学位

乌镇最火AI议题，原来答案藏在这份报告里

AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？

将活体神经元植入大脑，他和马斯克闹掰后开辟脑机接口新路线

限定120分钟科研挑战，o1和Claude表现超越人类

可口可乐pick可灵，用AI拍了新广告片

经典卡尔曼滤波器改进视频版「分割一切」，网友：好优雅的方法

Nature：谷歌学术正在被AI工具颠覆

20种复杂Excel操作一句话搞定！北大ChatExcel全新升级，所有人免费可用

最新嘉宾阵容来了！MEET2025智能未来大会正在报名中

陶哲轩宣布“等式理论计划”成功，人类AI协作，57天完成2200万+数学关系证明

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明

40亿美元！Anthropic再获亚马逊新一轮投资，双方正合作开发AI芯片

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

低成本机器人“皮肤”登上Nature子刊：实现三维力的自解耦，来自法国国家科学研究中心&香港大学

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

百度AI营收占比翻倍，净利润涨12%，李彦宏主动剧透新版文心大模型

第二波嘉宾曝光！二十位科技圈大咖齐聚MEET2025智能未来大会

汽车上的《Her》：模型竟然想做个人了，甩掉机械感，让灵魂有趣，来自吉利的全新尝试

王炸！谁能想到年底杀出的黑马是美图啊

谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

FLUX“官方版ControlNet”来了！景深轮廓更精准控制，共四款官方工具一齐上线

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

2D图纸分分钟转3D模型！杭州独角兽补齐空间智能关键一环，现公开两大技术引擎

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

OpenAI重夺竞技场第一，但这波靠的是4o

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

定档12月11日，MEET2025智能未来大会报名通道已开启！

DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次，后续将开源

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

明敏 发自 凹非寺量子位 | 公众号 QbitAI

代码/推理/视觉理解全提升

One More Thing

明敏发自凹非寺
量子位 | 公众号 QbitAI