撰文 | 新皮层小组
编辑 | 王杰夫
在基础模型能力提升降速的传言持续了半年后,本周终于听到了来自这些AI公司内部的消息。
先是有OpenAI员工爆料,公司的下一代旗舰模型Orion的效果不及预期,至少这一次的提升效果,要远逊于当初GPT-3和GPT-4之间的差距。这意味着此次大模型浪潮的核心假设——规模定律(scaling law)即将失效,即投入更多数据、更多算力去训练,模型能力却无法提升更多。
随后Google的Gemini团队也爆出了类似的消息,中国AI创业公司月之暗面甚至在本周六匆忙召开发布会表达了类似的观点。
当然,这些公司还是要找出路的,既然基础模型的提升有限,那就试试把精力放在优化模型上——也就是从预训练向后训练转移。一般来说,「预训练」(pre-training)指的是从零开始训练超大规模的基础模型,主要是为了提升模型的基础能力和通用性,保证模型能力的下限;「后训练」(post-training)指的是针对特定任务或领域做微调和适配,注重提升模型在实际应用场景中的表现。
OpenAI前不久发布的推理模型o1就是在后训练过程中引入了强化学习的方法,成功提高了在推理方面的能力。可想而知,这也将成为接下来这些AI公司的竞争的重点,月之暗面已经发布了名为k0-math的推理模型,专注提升数学能力,Google版本的类o1模型也在路上了。
以下内容由「新皮层」团队制作,欢迎关注。
Key Points
科技公司动态
ChatGPT月访问量恢复增长,同比上升115%
模型能力提升速度放缓,OpenAI正努力解决;
Google跟随OpenAI,成立新团队开发推理模型;
月之暗面发布类o1的新模型,杨植麟称预训练接近瓶颈;
新产品与模型
百度推出自然语言编程工具「秒哒」和小度AI眼镜;
OpenAI计划明年发布可操控电脑的智能体「Operator」;
英伟达机器人芯片Jetson Thor计划明年上半年推出;
生数科技发布视频模型Vidu 1.5版本,支持多主体一致性;
人事变动
OpenAI前首席技术官Murati的新团队成形;
月之暗面两位产品经理离职创业。
科技公司动态
ChatGPT月访问量恢复增长,同比上升115%
根据SimilarWeb的最新数据, ChatGPT 10月的全球访问量达到37亿次,创下新纪录,环比增长17.2%,同比增长115.9%。OpenAI 聊天机器人继8月增长8%和9月增长18.7%后,继续保持快速上升趋势,其移动应用程序的美国每日活跃用户增加了19%。最近的ChatGPT搜索功能推出可能会使得用户数进一步上升。
在8月前,ChatGPT的访问量增长已经停滞了近14个月,迟迟未能突破20亿大关,这次重新恢复增长无疑是个好消息。有分析称这轮增长主要受到学生开学推动,不过另一个原因或许是AI聊天机器人已经越来越成为工作生活中不可或缺的助手,用户的使用习惯已经发生变化。
另一款由Google推出的AI产品NotebookLM,访问量在8月后同样快速增长,10月其访问量增长200%以上,达到3150万,已是连续第二个月实现三位数增长。NotebookLM于2023年夏天推出,可以根据用户上传的内容生成摘要、注解与用户想要的答案。该产品用户数量激增是由于一项新的AI播客功能。有自媒体博主演示了将一本福柯的《归训与惩罚》中文版PDF版本上传至NotebookLM,即可生成一个英文对话的AI播客。这一功能迅速在社交媒体走红,引发了人们对NotebookLM的广泛关注。
模型能力提升速度放缓,OpenAI正努力解决
11月9日,有媒体称OpenAI正在训练的旗舰模型Orion面临能力提速放缓的挑战。据测试过Orion的OpenAI员工称,Orion的表现超过之前的模型,但能力提升远逊于GPT-3和GPT-4之间的差距。一位OpenAI员工称,Orion在语言任务上表现更好,但在编码等任务上甚至还不如之前的模型。
这或许意味着此次大模型浪潮的核心假设——规模定律(scaling law)将失效。为此OpenAI成立了一个团队,由负责预训练的Nick Ryder领导,研究如何应对训练数据的匮乏以及规模定律可能失效的问题。目前Orion的训练部分使用了其他AI模型生成的数据,然而这些数据正在导致一个新问题,即Orion最终可能会在某些方面与旧模型相似。
Safe Superintelligence(SSI)创始人、OpenAI前科学家Ilya Sutskever 告诉路透社,这是扩大预训练规模的结果——训练AI模型时,使用大量未标记数据来理解语言模式和结构的做法已趋于稳定。「2010年代是扩展(scaling)的时代,现在我们又回到了充满惊奇与发现的时代。每个人都在寻找下一个突破,」Sutskever说,「找到正确的方向并加以扩展,比以往任何时候都更加重要。」Sutskever拒绝透露他的团队如何解决该问题,只是表示SSI正在研究扩大预训练规模的代替方案。
Google跟随OpenAI,成立新团队开发推理模型
11月14日有报道称,与OpenAI的处境类似,Google发现尽管投入了更多的计算资源和训练数据,其Gemini模型的性能提升并没有达到预期,于是公司也在将资源从预训练转向后训练。
Google DeepMind最近在Gemini部门内组建了一个团队,旨在开发类似于OpenAI的o1模型。该团队由首席科学家Jack Rae和Character.AI创始人Noam Shazeer带领。Jack Rae是DeepMind的老员工,在OpenAI工作了一年多时间后,今年7月又跳回了Google。Character.AI「卖身」Google后,Noam Shazeer担任Gemini项目的联合技术负责人。
DeepMind的研究人员也在专注于手动调整模型的「超参数」,这些参数会直接影响模型性能和泛化能力。
此外,Google正在重新考虑训练数据的方法,希望使用合成数据(AI生成的数据)以及音频和视频作为模型训练数据的一部分,但并没有取得显著效果。OpenAI也发现合成数据在提升模型性能方面作用有限。
月之暗面发布类o1的新模型,杨植麟称预训练接近瓶颈
11月16日,月之暗面召开媒体沟通会,发布了类o1的新模型k0-math,该模型采用了强化学习方法,在数学推理上有突出表现。在会后的问答环节,创始人杨植麟也对近期公司放弃预训练、烧钱投流、人才流失等问题做了回答。首先,他判断大模型的预训练阶段已接近瓶颈,未来更重要的是通过强化学习优化模型表现,这与OpenAI与Google团队近期的判断不谋而合。其次他表示公司在产品上实施聚焦策略,目的是更好的提升用户体验和产品留存率,所以只要存留指标符合预期,投流就是有效的策略;最后,他表示人才选择创业或者回流大厂都是阶段性不可避免的趋势,但公司还是倾向于保持团队精简的状态,尤其是保证算力与人的高比例,所以部分人才流失影响不大。
新产品与模型
百度推出自然语言编程工具「秒哒」和小度AI眼镜
11月12日,百度世界大会2024在上海举行。此次大会以「应用来了」为主题,「智能体」成为关键词。百度CEO李彦宏称「智能体是AI应用最主流的形态,即将迎来爆发点」。
自然语言编程工具「秒哒」:与辅助代码生成工具不同,用户完全不需要懂代码,通过自然语言交互就可以完成应用开发和相关系统搭建。接到用户需求后,一个名为「小组长」的智能体会将任务拆解,召唤相关职能的智能体(如策划、小编、程序、质检智能体)协同工作,并调用所需工具。李彦宏表示,即日起用户可以排队预约秒哒,该产品将在明年第一季度发布。
小度AI眼镜:这款眼镜具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘、氛围歌单等功能。配置上,眼镜搭载1600万像素超广角摄像头、4个麦克风阵列,重量45克,续航5小时以上,搭配可以充电的眼镜盒。相比之下,今年爆火的Meta雷朋智能眼镜重48克,摄像头为1200万像素,单次续航4个小时。百度称这款AI眼镜将于明年上半年上市,但并未透露具体价格。
OpenAI计划明年发布可操控电脑的智能体「Operator」
11月14日,有消息称OpenAI计划明年1月推出一款代号为「Operator」的智能体,可以代替人类在电脑上执行任务。该功能与Anthropic在10月推出的computer use功能类似。Google也有相关布局,其代号为「Jarvis」(贾维斯)的智能体预计最早于12月发布。
值得一提的是,最近更新的Mac版ChatGPT上已经能看到这种智能体的雏形,它可以直接读取电脑上的编程软件(包括VS Code、Xcode、Terminal和iTerm2)。以往开发人员需要将代码从编程软件中复制并粘贴到ChatGPT;现在,ChatGPT获取权限后,可以直接「阅读」软件中的已有代码,然后完成代码撰写任务。开发者点击「Copy」按钮即可将想要的代码片段嵌入。该功能还处于早期测试阶段,只对Plus和Team用户开放。
知情人士称,OpenAI一直在开展多个与智能体相关的研究项目,完成度最高的是一个在Web浏览器中执行任务的通用工具。
英伟达机器人芯片Jetson Thor计划明年上半年推出
11月14日,在英伟达负责机器人和边缘计算的副总裁Deepu Talla表示,英伟达计划于2025年上半年推出机器人芯片Jetson Thor。「我们正在为机器人提供一个平台,我们不是在制造机器人。」Deepu Talla表示。
在今年3月的年度大会GTC(GPU Technology Conference)上,英伟达推出新型的机器人芯片Jetson Thor,还演示了搭载Jetson Thor芯片的人形机器人Project GR00T。
过去一年间,英伟达已经与特斯拉、西门子、丹麦机器人公司优傲(Universal Robots)就机器人芯片达成了合作。
生数科技发布视频模型Vidu 1.5版本,支持多主体一致性
11月13日,生数科技推出视频模型Vidu 1.5版本,声称展现了与大语言模型相似的上下文理解、记忆等能力,可以实现多角度、多主体、多元素的一致性生成。与此前的Vidu 1.0版本相同,Vidu 1.5版本生成视频所需的最短时间也是30秒。
Vidu 1.0版本于今年7月上线,通过锁定人物面部特征,该版本已经可以确保人物面部特征的一致性。今年9月,Vidu发布「主体一致性」功能,将面部一致扩展为全身一致,并且将范围由人物形象拓展到动物、物体、虚拟角色等任意主体。当用户上传任意自定义主体的图片,Vidu可以通过描述词确保连续不同场景中的主体特征一致性。但是,生数科技没有解释将Vidu 1.0版本升级至1.5版本的训练过程和两版模型的差异。
生数科技创立于2023年3月,由瑞莱智慧Real AI、蚂蚁集团和BV百度风投联合孵化,瑞莱智慧前副总裁唐家渝担任CEO,公司团队成员主要来自清华大学人工智能研究院。目前,生数科技已经完成了4轮融资,今年完成的天使++轮、Pre-A轮都是数亿元融资规模。
人事变动
OpenAI前首席技术官的新团队成形
11月12日,有消息称OpenAI前首席技术官Mira Murati在离职之后组建的新团队已经初具规模,其中有不少成员来自OpenAI。不过Murati这个团队的创业方向目前仍不明确。
据称OpenAI的项目经理Mianna Chen在最近离职后已加入Murati的新公司。Chen曾领导发布OpenAI的多个模型和产品,包括GPT-4o、o1推理模型及其高级语音模式。她曾在后训练的团队工作,将AI模型应用于特定任务。
此外,OpenAI后训练负责人Barret Zoph和高级研究员Luke Metz也在近期离开了OpenAI,计划加入Murati的团队。
月之暗面两位产品经理离职创业
11月12日,有报道称月之暗面9月决定停止更新两款已上线的出海产品——Ohai和Noisee,相关负责人则已经离职,正在接触投资人。
报道称,Noisee前产品负责人明超平在离职后开始创业。Noisee是月之暗面在今年1月立项的文生视频产品。据悉,明超平创立的公司为深圳市新言意码科技公司,主要业务方向为AI coding,对标美国智能代码生成产品Cursor。目前,该项目正在以5000万美元进行估值,并且已经收到了两家月之暗面股东的投资意向。Ohai原产品负责人也已在近期离职创业。Ohai是月之暗面于今年2月上线的情感陪伴类聊天机器人,目前同样停止了更新。
-END-