超越GPT-4!Kimi新模型k1完胜数理化,还能像人类一样思考

文摘   2024-12-19 08:58   北京  

相信大家已经被「OpenAI连续十二天放大招」的新闻刷屏了,因为时差原因遛着大家追更,还有一些期货技术,太不实诚。

反观我们国内这两天,Kimi 直接给我们带来了一个重磅更新 —— 视觉思考模型 k1 正式发布!发布“即”上线~

k1模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力范围扩展到数学之外的更多基础科学领域。

视觉思考模型K1基准评测

Kimi视觉思考版 k1会完整展示其推理思维链(Chain of Thought,简称CoT),让用户不仅能看到最终答案,还能完整理解模型是如何一步步思考得出结论的。这种透明的推理过程,大大提升了结果的可信度。

新模型还把能力范围扩展到了物理、化学等更多基础科学领域。在多项理科测试中,k1 的表现甚至超越了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet!

光说不练假把式,我们直接上手实操,看看它到底有多强!

实战测试:k1的数理化能力到底有多强?

数学?拿捏!

让我们先来一道高考数学解析几何题小试牛刀。这是一道涉及韦达定理和斜率公式的复杂题目,之前这道题我在GPT-4o上反复测试得不到答案,这次就用Kimi视觉思考版来破解一下。

几何原题

但是看看Kimi视觉思考版是如何处理的:

  • 准确理解题目信息和图形内容
  • 系统规划解题思路
  • 严谨推导每一步计算过程
  • 主动验证结果的正确性

然后一步步详细推理,还在第一次尝试就给出了正确答案!

第一部分答案推理

更令人印象深刻的是,它还会主动检查自己的推理过程,并明确问自己“我是否在某个环节出现了疏漏?”

中间反复思考给出答案

最终汇总给出最终正确答案。

最终结果输出

这种严谨的态度,不正是我们期待的理想解题伙伴吗?

除了常规的数学题目之外,有一些逻辑思维训练「数字华容道」的题目也不在话下~ 比如👇🏻这道题

数字华容道

Kimi通过一步步的线索推理,不断推断可能的数字,

分布分析

综合分析,反复比对线索.

综合分析,确认关键线索

最终给出正确答案,「698」并且再次验证是否符合题目要求,我们可以看到,Kimi不仅可以解题,相信之后在「密码学」等涉及到复杂推理场景中能够大显身手!

给出最终答案

同样地,我们可以让 Kimi 来培养我们的数学思维,充当学习好搭档~

物理、化学通通玩转

在基础科学领域,Kimi视觉思考版 k1的能力远不止于数学。它在物理、化学等学科上同样展现出了卓越的表现

再来看看物理题,直接上传一张模糊的2022年高考物理模拟题,我们来看看K1的表现如何~

某物理模拟题

在接收到题目之后,(ps.笑死🤣接收到物理题之后Kimi直接表示“虽然物理问题有时会让人感到紧张,但只要我们保持冷静,仔细分析,一定能找到答案。”)之后直接进入计算状态。

开始答题

不但能够get到题目中的重点,还能根据计算所得及时反馈调整,最终得出正确答案,更难能可贵的是,它会用不同的方法反复验证自己的计算结果。

反复验证

Kimi 的视觉模型,就像一个超级敏锐的侦探,极为擅长根据图片信息抽丝剥茧,逐步推理

最终输出

这种深度思考和反复验证的能力,让k1在处理复杂科学问题时显得游刃有余。

同样地我们再来一道「高考化学题」,对这种简单的化学题更是信手拈来。

高考化学题

我们来看看Kimi k1的表现,直接迅速得到正确答案。

秒杀普通高考化学题

像极了一位老师,在逐字逐句帮你分析题目中的每一个选项,搭配了k1模型的Kimi已经能够成为我们很好的学习助力伙伴~

解锁更多玩法:k1不止会做题

既然Kimi视觉思考版这么会“看”,又有这么强的推理能力。

那我们何不把思路打开,用它来探索更多有趣的场景呢?

比如说,每次双十一,双十二各种购物节,大家肯定会被眼花缭乱的活动规则弄得头昏眼花,这时候你可以直接把规则截图发给k1,让它来分析这次活动的特点。

元旦礼遇规则页

看看它是如何像侦探一样,通过分析活动规则,优惠等信息,一步步推导出最省钱的价格方案。

规则解读,推荐方案

它甚至会在得出结论前,先“平衡矛盾特征”,做出更全面的判断。

比如,听泉赏宝最近不是很火嘛。。我能不能让Kimi来帮我鉴鉴宝,看看银锭的真假与否,我们来看看Kimi的表现,可以看到Kimi已经尽力去推理了~

但是涉及到银锭真假,Kimi也表示“仅凭图片很难断定”,也避免了模型「幻觉」的现象,不会直接说为真,需要进一步验证..

银锭真伪
Kimi鉴宝

更有趣的是,当我们拿出一份书法稿时,Kimi视觉思考版不仅能准确识读内容,还能通过笔迹特征、行文风格等细节来推测作者的身份和写作背景。

笔记分析
兰亭集序

就像在玩一场推理游戏,每个细节都可能是重要线索!

包括我们在逛电商购物直播间的时候,有时候会看到奇怪的水果,这时候可以直接随手拍一下,让Kimi帮我们确认下是什么东东。。

水果拍照
释迦果识别

当我们把Kimi视觉思考版带到更广阔的应用场景中,会发现它不仅仅是一个解题工具,而是一个真正的“思考者”。

想象一下,当你在社交媒体上看到一座不认识的建筑,或者遇到一幅看不懂的古画,甚至是一个复杂的科学示意图,都可以让Kimi视觉思考版来帮你解读。它会像一位博学的向导,带着你一步步探索其中的奥秘。

Kimi视觉思考版背后的"黑科技"

Kimi视觉思考版 k1之所以能有如此出色的表现,源于其背后的技术突破。它是基于强化学习技术打造的新一代思考模型,真正实现了端到端的图像理解和思考能力

与传统模型不同,Kimi视觉思考版的训练分为两个阶段:

  1. 预训练阶段:构建基础视觉理解能力
  • 在OCRBench上获得903分的SOTA成绩
  • 在MathVista-testmini等多个基准测试中位居第一梯队
  1. 强化学习后训练
  • 优化数据质量和学习效率
  • 突破强化学习的规模化瓶颈
  • 建立系统性思考能力

这就像是先让它掌握基础知识,然后通过不断练习和改进来提升解题能力。

在这个过程中,Kimi视觉思考版遵循强化学习Scaling Law,在数据质量和学习效率方面都实现了显著优化。

两个阶段训练流程

这种训练方式使得k1不仅能直接处理图片信息,还能进行深度推理,不需要依赖外部OCR或额外的视觉模型,这种结合不是简单的“拼凑”,而是真正的融合。

写在最后

从科学计算到图像理解,从基础教育到前沿研究,Kimi k1模型的出现标志着AI视觉推理能力迈入了新的阶段

观看先于言语

正如约翰·伯格在《观看之道》中所说:“观看先于言语。孩子在学会说话之前,就已经会观察和识别了。”

Kimi k1的视觉思考能力,正是对这一人类基本认知模式的突破性模拟。

基于强化学习的深度思考能力,让k1不再是简单的图像识别工具,而是成为了能够真正理解和推理的智能助手。它的每一次分析都像一位经验丰富的专家,细致地观察、严谨地推理、系统地思考。

创新融合

正如乔布斯所说:“创新就是把不同的事物联系在一起。”

k1将视觉理解和逻辑推理完美结合,创造出了一个真正革命性的AI助手。它不仅能看,还能思考;不仅会答,还懂得解释。

这或许就是AI发展的下一个重要里程碑:

不再是简单的工具,而是成为我们认知世界的新伙伴。

在未来,当我们遇到不懂的问题时,就能轻松地拍照发给Kimi视觉思考版,让这位AI侦探带着我们一起探索答案的奥秘。

k1已经在最新版的Kimi智能助手APP和网页版上线,小伙伴们可以直接上手体验!

官网入口

我相信,未来已经来临。

而Kimi k1,正是开启这个未来的一把钥匙。

祝福Kimi!


欢迎大家👏🏻去Kimi的官网多加尝试,来体验「Kimi 视觉思考版」的惊人魅力~

云中江树
AI 提示词怎么应用?关于提示词你需要知道的一切。结构化提示词的提出者,wx 1796060717
 最新文章