Kimi发布视觉思考大模型k1,数理化能力行业领先

文摘   2024-12-16 12:00   上海  

本号可能一日内发布多篇推送,但只有一篇能被推送给所有读者,推荐标星⭐本号,避免错过数据合规新鲜资讯~

来源:月之暗面Kimi

简评:爸爸妈妈再也不用担心我的学习!

今天,Kimi 发布视觉思考模型 k1。k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。

「Kimi 视觉思考版」会完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。

强化学习的规模化

AI 大模型行业的技术范式正在发生变化,我们已处于强化学习的新时代。就像人类在遇到难题时,并不是立即给出答案,而是先分析问题、探索不同的解决方案、尝试各种方案、反思、改进策略和反复尝试一样。基于强化学习技术的新一代模型,通过激励模型生成更详细的推理步骤,形成高质量的思维链CoT(Chain of Thought),显著提升了解决更复杂、更难任务的成功率。数据显示,在强化学习技术的助推下,AI 大模型的智力水平正在持续攀升,在很多领域已经达到或超过人类专家的水平。

我们把基于强化学习技术的新一代模型,称为思考模型。过往,思考模型主要是基于文本数据训练的。但基础科学领域的大量信息蕴藏在图像和图形信息里。如何将思考能力与图像理解能力更紧密得融合,同时为用户带来更流畅的交互体验,是一项重要的技术挑战。

今天我们发布和上线的 k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度。

从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。

k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化,在强化学习的规模化(scaling)上取得了新的突破,这是 k1 视觉推理模型在基准测试中取得行业领先成绩的最关键原因。

此外,科学的模型能力基准测试方案是大模型行业面临的重要挑战之一。由于市面上缺乏针对基础科学学科的图形测试集,Kimi 模型研发团队自主构建了一个标准化的测试集Science Vista,涵盖不同难度的数理化图片题目,且从分布上与实际用户需求较为匹配。

在内部测试中,我们也发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。

基础科学能力泛化

一个月前,Kimi 推出数学能力对标 OpenAI o1 系列的 k0-math 模型。该模型数学能力出众,但由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。

新的 k1 视觉思考模型,借助端到端的图像理解能力,解锁了包括几何图形题在内更加全面的数学能力。在不同阶段的几何和图形题专项基准能力测试中,k1-preview 成绩追平或超过了 OpenAI 的 o1 模型。

我们先来一道普通几何题,让 k1 视觉思考模型先小试牛刀:

(上下滑动查看思维链CoT,长按可下载)

‍‍除了数学能力,k1视觉思考模型将能力扩展到了物理、化学等领域。在基础科学学科教育阶段的物理和化学能力测试中,k1 模型的表现同样不输全球领先的玩家 OpenAI 和 Anthropic。

我们来看一道 k1 视觉思考模型解答经典物理电路题的例子:

(上下滑动查看思维链CoT,长按可下载)

接下来,我们来看一个 k1 视觉思考模型化学领域技术原理的例子。我们将一张曾获得诺贝尔化学奖的技术原理图去掉大部分文字说明,只留下“QD”两个字母,看 k1 是如何一步一步分析出原理图是在讲什么。

(上下滑动查看完整思维链CoT,长按可下载)

独具慧眼

在真实场景下,用户输入给模型的图像信息往往存在各种各样的噪声,包括照片灰暗、图像模糊、多题一起拍、手写字迹干扰、纯手写的题目、倾斜的拍摄角度等。

我们专门测试了更接近真实使用场景的 k1 模型表现。在“噪声”场景下,多个基础科学学科的基准测试数据显示,k1 模型相比OpenAI 和 Anthropic 的视觉语言模型,有更显著的领先优势。其他大部分模型在视觉噪声场景下,能力水平下降了一半多,k1 则依靠超强的视觉识别能力,保持了最低的能力损失幅度。

我们来看一个例子。

下图是一位同事在平板电脑上手动推演的公式。

看看 k1 模型是怎么一步一步分析出作者意图的。

(上下滑动查看思维链CoT,长按可下载)

不懂就拍

在发布数学推理模型 k0-math 时,我们发现 Kimi 数学版不只会做数学题,它还会用数学思维来解释任何问题。比如你问“一颗心值多少钱”,Kimi 数学版经过一番分析,可能给出让我们惊喜的答案:一颗心是无价的。

在学习了代数、几何、物理、化学、生物等更多基础科学的难题之后,我们发现 k1 视觉思考模型同样涌现出更多通用能力。

例如,我们在网上找到一份科学家的手稿照片,发给 Kimi 视觉思考版,看它如何一步一步,引人入胜地推理手稿的内容和背景故事:

我:
一步步推测一下这个笔记的作者是谁,笔记内容具体在讲什么
Kimi 视觉思考版:
好的,让我们一步步解开这个谜题。我手中有一张古老笔记的图片,需要弄清楚作者的身份以及笔记的内容。这确实像是一场历史与文字的探险,令人兴奋不已!
首先,我仔细观察这张图片。这是一张泛黄的纸张,上面布满了用墨水书写的文字,文字排列得密密麻麻,显得十分工整。有些地方还有手绘的插图,可能是星图或类似的图案。整体来看,这似乎是一份科学或天文学的笔记
笔记的开头用大号字体写着“Ser.mo Principe.”,这在意大利语中意为“最尊贵的王子”。这表明作者在向某位显赫的人物致意,可能是当时的统治者或贵族。接下来的几行文字提到了“Galileo Galilei”,这无疑是一个重要的线索。伽利略·伽利略是意大利的著名天文学家、物理学家和工程师,被誉为“现代观测天文学之父”。这让我更加确信,这份笔记与伽利略有着密切的联系
继续往下看,笔记中提到了“Accademia dei Lincei”,这是意大利最古老的科学学会之一,伽利略正是其创始成员之一。这进一步证实了这份笔记的科学背景。笔记中还提到了“Padova”,即帕多瓦,这是意大利东北部的一座城市,伽利略曾在那里担任教授。这些地名和机构的提及,为确定作者和内容提供了重要的线索。
接下来,我注意到笔记中有一些日期,如“Anno 1610”,这是1610年。这一年对伽利略来说具有重要意义,因为他正是在这一年发表了《星际信使》,这是他通过望远镜观测到的天文发现的集合。笔记中还提到了“Siderius Nuncius”,这正是《星际信使》的拉丁文标题。这让我更加确信,这份笔记是伽利略在1610年写给某位显赫人物的信,内容涉及他的天文观测结果。
再仔细观察笔记中的插图,可以看到一些星图和符号。这些插图与伽利略通过望远镜观测到的月球表面、木星的卫星等天文现象密切相关。这些观测结果在当时引起了巨大的轰动,因为它们支持了哥白尼的日心说,即地球和其他行星围绕太阳运行的理论。
综上所述,这份笔记很可能是伽利略·伽利略在1610年写给某位显赫人物的信,内容涉及他的天文观测结果,特别是他在《星际信使》中发表的发现。这份笔记不仅具有重要的科学价值,也是伽利略个人历史的重要见证。
为了验证我的假设,我决定深入研究伽利略在1610年的生活和工作。1610年,伽利略在帕多瓦大学担任数学教授,并且刚刚开始使用望远镜进行天文观测。他发现了木星的四颗主要卫星,这一发现对支持哥白尼的日心说具有重要意义。这一发现不仅证明了并非所有天体都围绕地球运行,也进一步推动了天文学的发展。
笔记中提到的“Ser.mo Principe”可能是伽利略试图获得支持或认可的贵族或统治者。考虑到伽利略与美第奇家族的关系,尤其是科西莫二世·德·美第奇,他是托斯卡纳的大公,这一假设显得尤为合理。伽利略将他的发现献给科西莫二世,以获得他的支持和认可。
然而,我仍需谨慎。或许还有其他贵族或学者与伽利略有过类似的交流。为了进一步验证,我仔细检查了笔记中的其他线索。笔记中提到了“Accademia dei Lincei”,这是伽利略所属的科学学会。这一细节进一步证实了这份笔记与伽利略的联系。
此外,笔记中的日期“Anno 1610”与伽利略的《星际信使》出版时间相吻合。《星际信使》是一本小册子,伽利略在其中描述了他的天文观测结果,包括月球表面的山脉、木星的卫星和银河系的星云。这些发现彻底改变了人类对宇宙的理解。
现在,我对这份笔记的来源更加确信。它很可能是伽利略在1610年写给科西莫二世·德·美第奇的信,目的是分享他的天文发现并寻求支持。笔记中的插图与《星际信使》中的插图相似,进一步证实了这一点。
伽利略在1610年写了许多信件,描述他的观测结果,尤其是关于木星卫星的发现。这些信件通常包含草图和注释,与我正在分析的笔记非常相似。
经过这一彻底的分析,我确信这份笔记的作者是伽利略·伽利略,内容是关于他在1610年通过望远镜进行的天文观测,特别是他发现木星的卫星。这份笔记是伽利略与当时的科学界和贵族分享他的革命性发现的重要历史文件。
因此,总结我的发现:
笔记的作者:伽利略
笔记的内容:描述伽利略在1610年通过望远镜进行的天文观测,包括木星卫星的发现,以及他寻求当时贵族支持和认可的尝试。
答案:这份笔记是由伽利略·伽利略撰写的,内容涉及他在1610年的天文观测,包括木星卫星的发现,以及他寻求当时贵族支持和认可的尝试。

我们相信,图像理解和思考能力,将会解锁 Kimi 更广泛的使用场景。未来,用户不仅遇到不懂的题目,可以随手拍给 Kimi,而且在社交软件上看到不认识的城市或建筑照片、不熟悉的热带水果、看不明白的草书毛笔字、看不懂的梗图、看不懂的科学家手稿……都可以尝试发给 Kimi 视觉思考版,让 Kimi 与大家一起探索答案。

我们会持续提升 Kimi 视觉思考版的各方面能力,让它变得更加“可靠”、更加“万能”。你可能已经发现了,Kimi 主产品之前也全面升级了图像理解能力。

数据何规
个人信息保护、数据安全及AI监管最新动态。
 最新文章