本号可能一日内发布多篇推送,但只有一篇能被推送给所有读者,推荐标星⭐本号,避免错过数据合规新鲜资讯~
来源:月之暗面Kimi
简评:爸爸妈妈再也不用担心我的学习!
今天,Kimi 发布视觉思考模型 k1。k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
「Kimi 视觉思考版」会完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。
AI 大模型行业的技术范式正在发生变化,我们已处于强化学习的新时代。就像人类在遇到难题时,并不是立即给出答案,而是先分析问题、探索不同的解决方案、尝试各种方案、反思、改进策略和反复尝试一样。基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,形成高质量的思维链CoT(Chain of Thought),显著提升了解决更复杂、更难任务的成功率。数据显示,在强化学习技术的助推下,AI 大模型的智力水平正在持续攀升,在很多领域已经达到或超过人类专家的水平。
我们把基于强化学习技术的新一代模型,称为思考模型。过往,思考模型主要是基于文本数据训练的。但基础科学领域的大量信息蕴藏在图像和图形信息里。如何将思考能力与图像理解能力更紧密得融合,同时为用户带来更流畅的交互体验,是一项重要的技术挑战。
今天我们发布和上线的 k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度。
从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。
k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化,在强化学习的规模化(scaling)上取得了新的突破,这是 k1 视觉推理模型在基准测试中取得行业领先成绩的最关键原因。
此外,科学的模型能力基准测试方案是大模型行业面临的重要挑战之一。由于市面上缺乏针对基础科学学科的图形测试集,Kimi 模型研发团队自主构建了一个标准化的测试集Science Vista,涵盖不同难度的数理化图片题目,且从分布上与实际用户需求较为匹配。
在内部测试中,我们也发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。
基础科学能力泛化
一个月前,Kimi 推出数学能力对标 OpenAI o1 系列的 k0-math 模型。该模型数学能力出众,但由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
新的 k1 视觉思考模型,借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。在不同阶段的几何和图形题专项基准能力测试中,k1-preview 成绩追平或超过了 OpenAI 的 o1 模型。
我们先来一道普通几何题,让 k1 视觉思考模型先小试牛刀:
(上下滑动查看思维链CoT,长按可下载)
除了数学能力,k1视觉思考模型将能力扩展到了物理、化学等领域。在基础科学学科教育阶段的物理和化学能力测试中,k1 模型的表现同样不输全球领先的玩家 OpenAI 和 Anthropic。
我们来看一道 k1 视觉思考模型解答经典物理电路题的例子:
(上下滑动查看思维链CoT,长按可下载)
接下来,我们来看一个 k1 视觉思考模型化学领域技术原理的例子。我们将一张曾获得诺贝尔化学奖的技术原理图去掉大部分文字说明,只留下“QD”两个字母,看 k1 是如何一步一步分析出原理图是在讲什么。
(上下滑动查看完整思维链CoT,长按可下载)
在真实场景下,用户输入给模型的图像信息往往存在各种各样的噪声,包括照片灰暗、图像模糊、多题一起拍、手写字迹干扰、纯手写的题目、倾斜的拍摄角度等。
我们专门测试了更接近真实使用场景的 k1 模型表现。在“噪声”场景下,多个基础科学学科的基准测试数据显示,k1 模型相比OpenAI 和 Anthropic 的视觉语言模型,有更显著的领先优势。其他大部分模型在视觉噪声场景下,能力水平下降了一半多,k1 则依靠超强的视觉识别能力,保持了最低的能力损失幅度。
我们来看一个例子。
下图是一位同事在平板电脑上手动推演的公式。
看看 k1 模型是怎么一步一步分析出作者意图的。
(上下滑动查看思维链CoT,长按可下载)
在发布数学推理模型 k0-math 时,我们发现 Kimi 数学版不只会做数学题,它还会用数学思维来解释任何问题。比如你问“一颗心值多少钱”,Kimi 数学版经过一番分析,可能给出让我们惊喜的答案:一颗心是无价的。
在学习了代数、几何、物理、化学、生物等更多基础科学的难题之后,我们发现 k1 视觉思考模型同样涌现出更多通用能力。
例如,我们在网上找到一份科学家的手稿照片,发给 Kimi 视觉思考版,看它如何一步一步,引人入胜地推理手稿的内容和背景故事:
我们相信,图像理解和思考能力,将会解锁 Kimi 更广泛的使用场景。未来,用户不仅遇到不懂的题目,可以随手拍给 Kimi,而且在社交软件上看到不认识的城市或建筑照片、不熟悉的热带水果、看不明白的草书毛笔字、看不懂的梗图、看不懂的科学家手稿……都可以尝试发给 Kimi 视觉思考版,让 Kimi 与大家一起探索答案。
我们会持续提升 Kimi 视觉思考版的各方面能力,让它变得更加“可靠”、更加“万能”。你可能已经发现了,Kimi 主产品之前也全面升级了图像理解能力。