相信大家已经被「OpenAI连续十二天放大招」的新闻刷屏了,因为时差原因遛着大家追更,还有一些期货技术,太不实诚。
反观我们国内这两天,Kimi 直接给我们带来了一个重磅更新 —— 视觉思考模型 k1 正式发布!发布“即”上线~
k1模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力范围扩展到数学之外的更多基础科学领域。
Kimi视觉思考版 k1会完整展示其推理思维链(Chain of Thought,简称CoT),让用户不仅能看到最终答案,还能完整理解模型是如何一步步思考得出结论的。这种透明的推理过程,大大提升了结果的可信度。
新模型还把能力范围扩展到了物理、化学等更多基础科学领域。在多项理科测试中,k1 的表现甚至超越了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet!
光说不练假把式,我们直接上手实操,看看它到底有多强!
实战测试:k1的数理化能力到底有多强?
数学?拿捏!
让我们先来一道高考数学解析几何题小试牛刀。这是一道涉及韦达定理和斜率公式的复杂题目,之前这道题我在GPT-4o上反复测试得不到答案,这次就用Kimi视觉思考版来破解一下。
但是看看Kimi视觉思考版是如何处理的:
准确理解题目信息和图形内容 系统规划解题思路 严谨推导每一步计算过程 主动验证结果的正确性
然后一步步详细推理,还在第一次尝试就给出了正确答案!
更令人印象深刻的是,它还会主动检查自己的推理过程,并明确问自己“我是否在某个环节出现了疏漏?”
最终汇总给出最终正确答案。
这种严谨的态度,不正是我们期待的理想解题伙伴吗?
除了常规的数学题目之外,有一些逻辑思维训练「数字华容道」的题目也不在话下~ 比如👇🏻这道题
Kimi通过一步步的线索推理,不断推断可能的数字,
综合分析,反复比对线索.
最终给出正确答案,「698」并且再次验证是否符合题目要求,我们可以看到,Kimi不仅可以解题,相信之后在「密码学」等涉及到复杂推理场景中能够大显身手!
同样地,我们可以让 Kimi 来培养我们的数学思维,充当学习好搭档~
物理、化学通通玩转
在基础科学领域,Kimi视觉思考版 k1的能力远不止于数学。它在物理、化学等学科上同样展现出了卓越的表现。
再来看看物理题,直接上传一张模糊的2022年高考物理模拟题,我们来看看K1的表现如何~
在接收到题目之后,(ps.笑死🤣接收到物理题之后Kimi直接表示“虽然物理问题有时会让人感到紧张,但只要我们保持冷静,仔细分析,一定能找到答案。”)之后直接进入计算状态。
不但能够get到题目中的重点,还能根据计算所得及时反馈调整,最终得出正确答案,更难能可贵的是,它会用不同的方法反复验证自己的计算结果。
Kimi 的视觉模型,就像一个超级敏锐的侦探,极为擅长根据图片信息抽丝剥茧,逐步推理。
这种深度思考和反复验证的能力,让k1在处理复杂科学问题时显得游刃有余。
同样地我们再来一道「高考化学题」,对这种简单的化学题更是信手拈来。
我们来看看Kimi k1的表现,直接迅速得到正确答案。
像极了一位老师,在逐字逐句帮你分析题目中的每一个选项,搭配了k1模型的Kimi已经能够成为我们很好的学习助力伙伴~
解锁更多玩法:k1不止会做题
既然Kimi视觉思考版这么会“看”,又有这么强的推理能力。
那我们何不把思路打开,用它来探索更多有趣的场景呢?
比如说,每次双十一,双十二各种购物节,大家肯定会被眼花缭乱的活动规则弄得头昏眼花,这时候你可以直接把规则截图发给k1,让它来分析这次活动的特点。
看看它是如何像侦探一样,通过分析活动规则,优惠等信息,一步步推导出最省钱的价格方案。
它甚至会在得出结论前,先“平衡矛盾特征”,做出更全面的判断。
比如,听泉赏宝最近不是很火嘛。。我能不能让Kimi来帮我鉴鉴宝,看看银锭的真假与否,我们来看看Kimi的表现,可以看到Kimi已经尽力去推理了~
但是涉及到银锭真假,Kimi也表示“仅凭图片很难断定”,也避免了模型「幻觉」的现象,不会直接说为真,需要进一步验证..
更有趣的是,当我们拿出一份书法稿时,Kimi视觉思考版不仅能准确识读内容,还能通过笔迹特征、行文风格等细节来推测作者的身份和写作背景。
就像在玩一场推理游戏,每个细节都可能是重要线索!
包括我们在逛电商购物直播间的时候,有时候会看到奇怪的水果,这时候可以直接随手拍一下,让Kimi帮我们确认下是什么东东。。
当我们把Kimi视觉思考版带到更广阔的应用场景中,会发现它不仅仅是一个解题工具,而是一个真正的“思考者”。
想象一下,当你在社交媒体上看到一座不认识的建筑,或者遇到一幅看不懂的古画,甚至是一个复杂的科学示意图,都可以让Kimi视觉思考版来帮你解读。它会像一位博学的向导,带着你一步步探索其中的奥秘。
Kimi视觉思考版背后的"黑科技"
Kimi视觉思考版 k1之所以能有如此出色的表现,源于其背后的技术突破。它是基于强化学习技术打造的新一代思考模型,真正实现了端到端的图像理解和思考能力。
与传统模型不同,Kimi视觉思考版的训练分为两个阶段:
预训练阶段:构建基础视觉理解能力
在OCRBench上获得903分的SOTA成绩 在MathVista-testmini等多个基准测试中位居第一梯队
强化学习后训练:
优化数据质量和学习效率 突破强化学习的规模化瓶颈 建立系统性思考能力
这就像是先让它掌握基础知识,然后通过不断练习和改进来提升解题能力。
在这个过程中,Kimi视觉思考版遵循强化学习Scaling Law,在数据质量和学习效率方面都实现了显著优化。
这种训练方式使得k1不仅能直接处理图片信息,还能进行深度推理,不需要依赖外部OCR或额外的视觉模型,这种结合不是简单的“拼凑”,而是真正的融合。
写在最后
从科学计算到图像理解,从基础教育到前沿研究,Kimi k1模型的出现标志着AI视觉推理能力迈入了新的阶段。
正如约翰·伯格在《观看之道》中所说:“观看先于言语。孩子在学会说话之前,就已经会观察和识别了。”
Kimi k1的视觉思考能力,正是对这一人类基本认知模式的突破性模拟。
基于强化学习的深度思考能力,让k1不再是简单的图像识别工具,而是成为了能够真正理解和推理的智能助手。它的每一次分析都像一位经验丰富的专家,细致地观察、严谨地推理、系统地思考。
正如乔布斯所说:“创新就是把不同的事物联系在一起。”
k1将视觉理解和逻辑推理完美结合,创造出了一个真正革命性的AI助手。它不仅能看,还能思考;不仅会答,还懂得解释。
这或许就是AI发展的下一个重要里程碑:
“不再是简单的工具,而是成为我们认知世界的新伙伴。
在未来,当我们遇到不懂的问题时,就能轻松地拍照发给Kimi视觉思考版,让这位AI侦探带着我们一起探索答案的奥秘。
k1已经在最新版的Kimi智能助手APP和网页版上线,小伙伴们可以直接上手体验!
我相信,未来已经来临。
而Kimi k1,正是开启这个未来的一把钥匙。
祝福Kimi!
欢迎大家👏🏻去Kimi的官网多加尝试,来体验「Kimi 视觉思考版」的惊人魅力~