Kimi k1.5:与全功率o1性能匹敌的LLM技术分析

文摘   2025-01-23 11:00   安徽  

作为一种多模态思维模型,Kimi k1.5 实现了 OpenAI 以外其他公司都无法实现的目标:在推理基准测试中,性能可与全功率 o1 模型相媲美。这一发展代表了人工智能向前迈出的重要一步,标志着竞争和创新的新时代的到来。


提高长链和短链推理的标准  



Kimi k1.5 在长链推理(Long CoT)和短链推理(Short CoT)任务中均表现出色,证明了其多功能性和技术实力。


1. 长上下文扩展


Kimi k1.5 在 RL(强化学习)生成期间突破了长链推理的界限,上下文长度高达 128k 个 token。通过利用部分部署,它可以确保高效训练,同时保持高性能,使模型能够处理更长、更复杂的任务,而不会牺牲速度或质量。


2. Long2Short 优化


借助 Long2Short 技术,Kimi k1.5 使用最少的 token 以最高的效率完成任务。这种方法提高了短链推理模型的性能,确保它们在消耗更少计算资源的同时保持竞争力。


在短链推理任务中,Kimi k1.5 不仅在数学、编码、视觉和多模态任务中与 GPT-4o 和 Claude Sonnet 3.5 等 SOTA 模型竞争,而且远远超越它们,性能裕度高达 550%



这一性能飞跃重新定义了紧凑、可扩展的 AI 系统在长链和短链环境中可以实现的目标。



Kimi 的技术报告  



Kimi 团队发布了一份全面的技术报告,详细介绍了 Kimi k1.5 背后的方法、挑战和突破。报告概述了 Kimi 训练方法的简单性,无需使用蒙特卡洛树搜索、价值函数或过程奖励模型等复杂技术即可实现卓越成果。相反,Kimi 专注于有效的 RL 扩展和多模态集成。


以下是报告摘要:


使用 next token prediction 进行语言模型预训练已被证明可以有效扩展计算,但本质上受到高质量训练数据数量的限制。扩展 RL 为推进人工智能提供了一条新途径,使 LLM 能够通过基于奖励的探索扩展其训练数据,从而扩展计算。


然而,该领域的先前工作一直难以取得有竞争力的成果。Kimi 团队的方法简单而有效,在多个基准和模式下实现了最先进的推理性能——例如,AIME 上的 Pass@1 为 77.5%,Codeforces 上的 94%,MathVista 上的 74.9%,与 OpenAI 的 o1 相当。此外,他们引入了 long2short 技术,利用 Long CoT 策略来改进 Short CoT 模型。这带来了 SOTA Short CoT 性能——例如,AIME 上的 Pass@1 为 60.8%,MATH500 上的 94.6%,LiveCodeBench 上的 47.3%,远远优于 GPT-4o 和 Claude Sonnet 3.5。




三个关键要点  




1. 首创的多模态 SOTA 模型:Kimi k1.5 突破了 LLM 强化学习的界限。


2. 简单取胜:它无需使用蒙特卡洛树搜索或值函数等复杂方法即可实现卓越性能。


3. Long2Short 创新:使用 Long CoT 技术优化 Short CoT 模型设定了新的效率基准。


NVIDIA 高级研究科学家 Jim Fan 表示:

Kimi 在 MathVista 等基准测试中表现出强大的多模态性能(!),这需要对几何、智商测试等进行视觉理解。

Kimi 论文在系统设计方面有更多细节:RL 基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。



完整的技术报告可在 GitHub 上找到:

https://github.com/MoonshotAI/kimi-k1.5





PyTorch研习社
打破知识壁垒,做一名知识的传播者
 最新文章