一款超棒的神仙APP,永无套路!

科技   2024-12-20 11:00   北京  

大家都在用AI工具,我们看着AI一步一步发展壮大,以前大部分是我们仅仅用文字跟它们聊天,有些时候Vposy就会在想:要是什么时候能对图片进行很好的思考就好了。


研究了一堆AI之后,后面用起Kimi,发现它的推理功能可以说是让人印象深刻。


当时就在想它的能力能不能扩展成多模态的,发一张图片和一段视频就能进行反思推理,最后给出一个靠谱的答案。


没想到啊,Kimi反手就是一个更新,加上了一个超强的图片识别能力,试了一下没想到连文字识别都有惊喜。


Kimi智能助手又更新了!距离上次给大家介绍的数学版发布过去不久,Kimi现在从数学版的基础上,升级并上线了好玩实用的K1模型,对应产品是Kimi——戴眼镜版!


(真名「Kimi视觉思考版」)


这个模型能识别复杂的图片内容,进行详细的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,而且识别手写内容的能力也很强,能识别各种场景拍的图。




看起还不错的样子,我们直接上手操作一番,首先就是它离谱的文字识别,由于Kimi连复杂的数学字符都能识别,而中文反而显得简单一些了,就拿下面的图片来说,完全不在话下。


(Kimi的识别,点击可以查看详情)


大家常用的PixPin等截图工具也是可以文字识别的,但是上半段识别就有问题了(直接识别不到),识别的正确率也有问题。


(截图工具的识别)


识别正确率啥的都好说,毕竟不算同类工具,有些差距都不令人意外,但Kimi不是死板的识别工具!它甚至能进行原图文字内容的修正和“事实检测”,真就“每个像素都分析到了”。


(下框为Kimi改正的)


(下为Kimi改正的


(正确的立正姿势


这何尝不是对OCR工具的降维打击。


除了文字识别,对问题的解答能力也是有的。


先来玩一个简单的图片推理题目,在下图中找出规律,来选择正确的选项,这一题是公考行测图形推理例题,走你~


(红框里的是答案,不发给Kimi


如果不接触类似问题的朋友,可能看到题目还有点懵,要想好一会,而Kimi对这个题目分析了一大串,每一步都详细给出了过程,最后给出了正确答案。


(上下滑动查看完整对话)


答案里提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。




基础的推理难不住它,来试一下需要加入计算的内容。



Kimi的回答速度很快,结果也是正确的,而且它为了严谨,前后三次反复确认的自己的回答,思考了一下其他可能出错的地方。以后用来解题可以用来当做参考,看看自己是不是和 Kimi 一样的错误反思逻辑。


(上下滑动查看完整对话)


这类内容,对Kimi来说是比较简单的。


再来看看一个进阶的。


而Kimi用来做代码题目更是专业对口,在力扣上找了一个题目,直接截屏丢给Kimi。




关于这个题目的吐槽




Kimi的回答:


(上下滑动查看)


最后的结果正常通过检验,这下遇到不会的题,就可以让Kimi教你怎么做了,顺便学学它的思路,真人击败5%的提交就自黑“很强”了,而Kimi一上手就是77%。



除了拿来解题,日常遇到的各种表格,也可以交给Kimi分析。



像是上图这个问题大家不要认为太简单了,丢个其他AI,一问一个不吱声。


(没有对比就没有伤害


而这次的Kimi视觉思考版也是没有使用限制的,以后大家手里能转化成图片内容的数据,都可以交给Kimi解锁更多信息了。


从Kimi的更新来看,它更像是把一件事情做到优秀的水平之后,再去解锁新的技能,而不是做一大堆,一大堆都不好用,这就让人有些期待后续更强的产品,用来生成视频和操作软件的工具等等。



最后,附上Kimi的体验地址。



Kimi官网

https://kimi.moonshot.cn

Vposy
备用号:Vposy软件安装管家、Vposy备用号
 最新文章