给OpenAI亿点点压力?
作者|苏霍伊
编辑|赵健
最近一周,一波又一波新模型赶在春节前上新,你方唱罢我登场,仿佛就是“AI春晚”一般热闹。
昨晚,DeepSeek与月之暗面Kimi在相隔20分钟的时间里发布推理模型,并且都放出了详尽的技术报告。这两家年轻的、备受瞩目的AI新星“中门对狙”,引发了众多AI从业者的围观。
同样是对标o1的推理模型,DeepSeek与Kimi的这次发布有什么不同?首先,这次两家公司发布的都是满血版o1,从数学、代码基准测试分数看,和过往类o1-preview模型有明显差距。
虽然DeepSeek R1和Kimi k-1.5都侧重以强化学习(RL)为核心驱动力,但在具体的技术路线和模式设计上却“分道扬镳”。
英伟达AI科学家Jim Fan第一时间发帖对比。他发现,Kimi和DeepSeek的论文惊人地集中在类似的发现上:
不需要像 MCTS 那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可;
不需要需要另一个昂贵的模型副本的价值函数;
无需密集奖励建模。尽可能依赖事实和最终结果。
两者的差异点在于:
DeepSeek 采用 AlphaZero 方法 - 纯粹通过 RL 引导,无需人工输入,即“冷启动”。Kimi 采用 AlphaGo-Master 方法:通过即时设计的 CoT 跟踪进行轻度 SFT 预热。
DeepSeek 权重是 MIT 许可证(思想领导力!);Kimi K1.5尚未正式上线。
Kimi 在 MathVista 等基准测试中表现出强大的多模式性能(!) ,这需要对几何、智商测试等有视觉理解(DeepSeek目前只能识别文字,不支持图片识别)。
Kimi 的论文在系统设计上有更多细节:RL 基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。
虽然Kimi没有开源,Kimi分享了更多的训练策略、数据与AI Infra方面的信息,并且其推理模型的测评成绩在业内首屈一指。
1.OpenAI之外首个多模态o1
过去,Kimi一直采取的是模型闭源路线。业内人士评估,此次k1.5技术报告的公开,或多或少是为了“招兵买马”,希望更多技术人才能关注并加入他们的多模态大模型项目。
k1.5团队公布了SOTA模型设计和训练的四大关键要素:
第一,长上下文扩展。K1.5将RL的上下文窗口扩展到128k,通过部分展开(partialrollouts)等技术手段提升训练效率,观察到随着上下文长度的增加,模型推理能力也在提升。
第二,改进的策略优化。K1.5采用推导自long-CoT的在线镜像下降(OMD)变体来进行稳健的策略优化,并结合长度惩罚与数据配方微调算法性能。
第三,简洁的RL框架。K1.5通过上下文扩展来获得更多搜索和反思的空间,而不依赖复杂的价值函数、过程奖励模型或蒙特卡洛树搜索,也能获得较强性能。
第四,多模态能力。K1.5联合视觉与文本数据训练,让模型在处理图文推理时具备更宽泛的适应性。但由于主要支持 LaTeX 等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
与前几代相比,k1.5最显著的特点在于其在多模态推理更上一层楼。k1.5在文本与视觉数据上联合训练,能够进行多模态推理,着重在数学、代码、视觉等复杂任务上的综合性能提升,是OpenAI之外首个多模态类o1模型。
在短思考模式(short-CoT)模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。
在长思考模式(long-CoT)下,Kimi k1.5在数学、编程和视觉任务中的表现与OpenAI o1的性能水平接近。
总体而言,在数学和代码能力上,模型在推理能力和正确率(诸如 pass@1、EM等指标)上大幅领先或赶超其他主流对比模型;在视觉多模态任务上,无论是对图像中信息的理解、还是进一步的组合推理、跨模态推理能力,都有显著提升。在通用推理测试上,如MMLU、C-Eval、CLUEWSC等评测基准中,也展现出综合性的语言理解与推理水准。
2.独特的“Long2Short”训练方案
在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的报告中,最大的亮点之一是“Long2Short”训练方案:具体做法是先利用较大的上下文窗口(据称可扩展到128K)让模型学会长链式思维,再将“长模型”的成果和参数与更小、更高效的“短模型”进行合并,然后针对短模型进行额外的强化学习微调。
Kimi提到,尽管长链推理(long-CoT)模型表现优异,但在测试时消耗的标记数量比标准短链推理(short-CoT)大模型更多。
相比之下,采用Long2Short方案的好处是,最大化保留原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,同时有效挖掘短模型在特定场景下的高效推理或部署优势。
在AIME测试中,k1.5系列模型一举冲上60.8分的高度;在MATH500测试中,拿下94.6分;而在LiveCodeBench测试中也稳稳占据47.3分的领先地位。对比GPT-4和Claude 3.5等传统短链模型,k1.5的提升幅度甚至达到了550%。
Long2Short表现,靠近左上方效率越高
这波long2short操作,让短链推理任务实现了质变”通过将长链模型的深度推理能力和短模型的高效响应特点相结合,开创了一种更灵活、更实用的思路。不夸张地讲,k1.5系列的突破为未来如何平衡算力与性能提供了启发式的答案,也为短链思维模型的创新打开了新的大门。
知名AI博主刘聪评价,Long2Short方案可能要成为新风潮了。
3.强化学习的Scaling
很多人都知道Kimi的产品做的很好,殊不知Kimi团队在AI Infra的基建能力上也实力雄厚。
RL可以让模型在“尝试—反馈—改进”的循环中不断提升。为了实现这个循环,就需要一个完整的训练系统来支撑。本次Kimi的技术报告也分享了在RL的模式下如何做AI Infra。
K1.5训练系统的架构,主要由几个核心模块组成,从图片左边的System overview可以看到整个强化学习训练系统的主要组件和数据流向。
Kimi k1.5使用了一个迭代同步的强化学习框架,其灵感来自于训练AlphaGo和AlphaStar的系统。这个框架的核心是通过持续学习和适应来增强模型的推理能力。该系统的一个关键创新是引入了部分rollout技术,以优化复杂推理轨迹的处理。
在处理长文本推理时,模型可能会生成非常长的回答,这会消耗大量计算资源。为了解决这个问题,Kimi k1.5引入了Partial rollouts的技术,主要思想之一是扩展长上下文RL训练——也就是做RL的Scaling。
通过分段处理、异步操作、重复检测等方法,Partial rollouts可以处理更长的推理过程,同时保持高效的训练速度,从而优化了整个系统的性能。
此外,通常情况下训练模型和使用模型进行推理是分开的,这会导致资源浪费。Kimi k1.5采用了一种混合部署策略,让训练和推理共享同一个计算资源池。这种策略大大减少了训练和推理之间的切换时间,提高了资源利用率。
可以说,Kimi所有技术的核心,都把长上下文作为了核心指导原则。Kimi在技术报告中总结道:“从我们的实践中得出的关键见解之一是,上下文长度的扩展对于 LLM 的持续改进至关重要。我们采用了优化的学习算法和基础设施优化(例如 Partial rollouts 技术),以实现高效的长上下文 RL 训练。”
Kimi虽然并没有把模型的权重开源,但如此详尽的技术策略报告的开放,对于推动整个强化学习以及AI行业的发展,仍旧有巨大的推动意义。
END.