大家都在用AI工具,我们看着AI一步一步发展壮大,以前大部分是我们仅仅用文字跟它们聊天,有些时候Vposy就会在想:要是什么时候能对图片进行很好的思考就好了。
研究了一堆AI之后,后面用起Kimi,发现它的推理功能可以说是让人印象深刻。
当时就在想它的能力能不能扩展成多模态的,发一张图片和一段视频就能进行反思推理,最后给出一个靠谱的答案。
没想到啊,Kimi反手就是一个更新,加上了一个超强的图片识别能力,试了一下没想到连文字识别都有惊喜。
Kimi智能助手又更新了!距离上次给大家介绍的数学版发布过去不久,Kimi现在从数学版的基础上,升级并上线了好玩实用的K1模型,对应产品是Kimi——戴眼镜版!
(真名「Kimi视觉思考版」)
这个模型能识别复杂的图片内容,进行详细的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,而且识别手写内容的能力也很强,能识别各种场景拍的图。
看起还不错的样子,我们直接上手操作一番,首先就是它离谱的文字识别,由于Kimi连复杂的数学字符都能识别,而中文反而显得简单一些了,就拿下面的图片来说,完全不在话下。
(Kimi的识别,点击可以查看详情)
大家常用的PixPin等截图工具也是可以文字识别的,但是上半段识别就有问题了(直接识别不到),识别的正确率也有问题。
(截图工具的识别)
识别正确率啥的都好说,毕竟不算同类工具,有些差距都不令人意外,但Kimi不是死板的识别工具!它甚至能进行原图文字内容的修正和“事实检测”,真就“每个像素都分析到了”。
(下框为Kimi改正的)
(下框为Kimi改正的)
(正确的立正姿势)
这何尝不是对OCR工具的降维打击。
除了文字识别,对问题的解答能力也是有的。
先来玩一个简单的图片推理题目,在下图中找出规律,来选择正确的选项,这一题是公考行测图形推理例题,走你~
(红框里的是答案,不发给Kimi)
如果不接触类似问题的朋友,可能看到题目还有点懵,要想好一会,而Kimi对这个题目分析了一大串,每一步都详细给出了过程,最后给出了正确答案。
(上下滑动查看完整对话)
答案里提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。
基础的推理难不住它,来试一下需要加入计算的内容。
Kimi的回答速度很快,结果也是正确的,而且它为了严谨,前后三次反复确认的自己的回答,思考了一下其他可能出错的地方。以后用来解题可以用来当做参考,看看自己是不是和 Kimi 一样的错误反思逻辑。
(上下滑动查看完整对话)
这类内容,对Kimi来说是比较简单的。
再来看看一个进阶的。
而Kimi用来做代码题目更是专业对口,在力扣上找了一个题目,直接截屏丢给Kimi。
关于这个题目的吐槽
Kimi的回答:
(上下滑动查看)
最后的结果正常通过检验,这下遇到不会的题,就可以让Kimi教你怎么做了,顺便学学它的思路,真人击败5%的提交就自黑“很强”了,而Kimi一上手就是77%。
除了拿来解题,日常遇到的各种表格,也可以交给Kimi分析。
像是上图这个问题大家不要认为太简单了,丢个其他AI,一问一个不吱声。
(没有对比就没有伤害)
而这次的Kimi视觉思考版也是没有使用限制的,以后大家手里能转化成图片内容的数据,都可以交给Kimi解锁更多信息了。
从Kimi的更新来看,它更像是把一件事情做到优秀的水平之后,再去解锁新的技能,而不是做一大堆,一大堆都不好用,这就让人有些期待后续更强的产品,用来生成视频和操作软件的工具等等。
最后,附上Kimi的体验地址。
Kimi官网
https://kimi.moonshot.cn