来源:科技最前线 (kejizqx)
卷参数、卷数据集大小、卷算力……大模型在进入到GPT4之后,这种“大力出奇迹”的内卷法似乎不再奏效——消耗能源惊人,换来的模型能力增长却异常缓慢。“漫山遍野的大模型似乎都大差不差……觉得说也就这样了”——这是这段时间很多人对AI透露出的一些悲观态度。
但是o1打破了这一瓶颈。
9月13日,OpenAI o1-preview发布,凭借“慢思考”开创大模型技术前进的新模式,让通向AGI的道路再次豁然开朗。
将通往AGI的计数器重置为1
什么是慢思考?
360集团创始人周鸿祎在其近期发布的短视频中指出,过去GPT类的大模型通过训练大量知识,主要学习的是快思考能力。快思考的特点是——快速直觉、无意识,反应很快但能力不够强,这也是为什么GPT类大模型答案总是脱口而出,但质量却不够稳定,“就像人一样,不假思索就想出口成章而不出错,非常难实现”。
反之,慢思考的特点则是缓慢、有意识、有逻辑性,需要分很多步骤。类似写一篇复杂的文章,要先列提纲,根据提纲去搜集数据,收集素材,根据素材进行讨论,再把文章写出来,还要进行润色和修改。
这一次o1拥有了人类慢思考的特质,在回答问题前会反复地思考,拆解、理解、推理,可能会自己问自己1000遍,然后才能给出最终的答案。
注意这和人类的思考过程非常相似,人类在解决复杂推理问题时,如果也选择先将问题点一个个写下来,再各个击破,也会显著提升答案的准确度。
换句话说,o1通过引入大规模强化学习算法,将模型思维展现为“思维链”(Chain-of-Thought, CoT),告别Prompt工程,从复杂人工环节走向自动化,从而显著提高了模型通用推理能力和对齐效果。
慢思考的威力有多大?
根据OpenAI官方测评,o1不仅在绝大多数推理任务中表现优于GPT-4o,甚至在部分推理密集型基准测试中可与人类专家相媲美——在国际数学奥林匹克(IMO)资格考试中,o1模型解决了83%的问题,远超GPT-4的13%解决率;在OpenAI模拟的Codeforces主办的编程竞赛中,o1模型表现优于 93% 的竞争对手;此外,在物理、化学和生物等学科的基准测试(GPQA)中,o1模型的准确率甚至超越了人类博士水平的准确率。
对于复杂的推理任务来说,慢思考加持后的o1模型取得了重大进步。OpenAI首席执行官山姆·奥特曼表示,在处理难而复杂的任务上,OpenAI o1达到了当下人工智能的最高水平,展现出强大的推理能力。这也是o1名字的来源——一个新的开始,将计数器重置为1。
“跨越式的改变”、“大模型领域的iPhone时刻”……炸圈的o1再次向业界展示了慢思考的威力。只是为什么说“再”呢?因为同一理念早在两个月前,360集团创始人周鸿祎就已经提出且付诸实践。
就在今年7月底的ISC AI大会上,周鸿祎就前瞻性地宣布,将「用基于智能体的框架打造慢思考系统,从而增强大模型的慢思考能力」,并且在近期的多次强调,将「利用智能体框架,让大模型从快思考转成慢思考模式,把多个大模型组合起来解决业务问题」。
而且不仅仅是方向上的类似,OpenAI o1是用“思维链”结构实现的超级智能对吧?老周的360也同样在7月底发布了专家协作架构CoE(Collaboration-of-Experts),它们在分工协作,多步推理的底层逻辑上几乎是一样的,这个360首创的CoE架构,在加快推理速度的同时,还有效降低了API接口和Token的使用成本。
没有止步于技术创新,360比OpenAI更早一步地将慢思考模式付诸实际应用。目前,基于CoE技术架构的AI功能,用户可在360AI浏览器和360AI搜索中体验。
回到文章开头的问题,漫山遍野的大模型在回答同一个问题的能力上,看似相近,但一旦挖掘细分维度——这个擅长回答,那个擅长反思,另一个擅长总结……能力在细分维度上立马见高下,而此时正在360AI浏览器上使用大模型的你,好比给你配齐了各色能人异士。
换句话说,CoE架构并非只接入了一家企业的模型,而是由360牵头——百度、腾讯、阿里巴巴、智谱AI、Minimax、月之暗面等16家国内主流大模型厂商合作打造的,目前已经接入了这些企业的54款大模型产品,未来预计会全量接入100多款大模型产品。更进一步的是,CoE技术架构不仅接入了“大模型”,还接入了很多十亿甚至更小参数的专家模型,在回答简单问题时调用更精准的“小模型”,可在获得高质量回答的同时还能节约推理资源、提升响应速度。
在这个功能里,你可以54款大模型中任意选择3款大模型,让其中一个模型扮演专家,为你回答问题;第二个模型作为反思者,会对专家给出的答案进行评估、纠错以及补充;最后,由第三个模型总结汇总两轮回答,给出最终答案。
要知道,当一个人能力有限的时候,唯有团结协作才能实现更大的突破。进行多模型协作,以此将达成比单个大模型回答问题好得多的效果。
值得一提的是,这和OpenAI o1通过多个子模型实现“慢思考”的逻辑是类似的,和人类的思考方式也很像。
甚至于,近期有国内技术团队通过将思维链CoT优化为CoE协同工作模式,使用任意3个模型协同工作,达到了和OpenAI o1-preview类似的反思决策效果。经过21道复杂逻辑推理题测试结果显示,其效果与OpenAI o1-preview相当,完全超越GPT-4o,有时还能超越o1-preview。
这就是“复仇者联盟”的力量,即使“灭霸”的能力再强,团结起来的团队,依旧是强大、可以与之抗衡的。
2、「大模型竞技场」,总有一款模型适合你;
「大模型竞技场」支持调用国内16家主流大模型企业的54个大模型产品进行同台竞技,在响应速度、耗时、效率等多个维度进行量化比拼,帮助用户“在最短的时间获取最佳回答”。
模型竞技场也为国内大模型厂商提供了一个公平的竞技平台,共同塑造“比学赶帮超”的产品进化氛围,为广大AI用户提供优质服务。
3、左右手互博,「360AI搜索」实现答案的“信达雅”;
360AI搜索的“深入回答”模式,会涉及7-15次的大模型调用,比如可能会涉及1次意图识别模型调用,1次搜索词改写模型调用,5次搜索调用,1次网页排序调用,1次生成主回答调用,1次生成追问调用。
1、首先构建意图分类模型,对用户的问题进行意图识别;
2、接着打造任务路由模型对问题进行拆解,不同的问题可以划分成“简单任务”、“多步任务”和“复杂任务”,对多个模型进行调度;
3、最后构建AI工作流,使多个大模型协同运作。
在古诗词翻译任务中,360AI搜索会调用多个模型协同完成任务 图源:360
得益于全球领先的CoE技术架构的支撑,以及和国内多家主流大模型厂商的通力协作,360AI搜索在2024年1月诞生后,仅用8-9个月的时间,就超越了Perplexity AI,成为全球最大的AI原生搜索引擎。
在一潭死水的大模型发展困境中,是创新的“慢思考”让其再现风浪,OpenAI用“思维链”、360用CoE将其一一实现。
与此同时,在慢思考模式上先行一步的360,让我们有充分的理由相信,在AI大模型这条赛道上,国内厂商不仅没有被扩大差距,反而是在思想前瞻性、技术产品落地方面,都走在了以 OpenAI 为代表的国际水平前面。
况且,基于我国高素质的工程师人才优势,和新时代创新精神,完全有可能让AI大模型赛道,成为继新能源汽车之后的又一个领跑国际前沿的重要科技创新领域。