Kimi 发布新模型对标 OpenAI o1!月之暗面创始人回应近期争议

科技   2024-11-16 20:31   广东  
月之暗面和杨植麟大概是近期最受关注的国产大模型公司和创始人,仲裁争议和出海产品收缩的消息让其站在风口浪尖。
更重要的原因,当然还是月之暗面的 Kimi 是国内 AI 应用的头部产品,目前 Kimi 的月活已经超过 3600万。
在 Kimi Chat 全面开放一周年的今天,Kimi 正式发布新一代数学推理模型 k0-math,对标 OpenAI o1 系列。
月之暗面创始人杨植麟认为,最适合让 AI 锻炼思考能力的场景就是数学。他在向 APPSO 等媒体介绍 k0-math 时,引用了伽利略的一段话:
这个宇宙如果你把它看成一本很大的书,宇宙它其实是用数学来写的,数学是表达这个宇宙的语言。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
基准测试显示,Kimi k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。
在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。
在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。
杨植麟向我们演示了 k0-math 解答数学题的一些过程,比如在面对一道很难的竞赛题,它可以通过大量的尝试。它可能尝试了八九种不同的做法,最后发现没有真正能达到最终的解答。
但是它会在多次尝试后突然发现我可以把前面的两三个不同的想法结合起来,就可以得到一个正确的答案。
为了让 AI 具备深度思考能力, k0-math 并没有前置设计很多模板。杨植麟希望 AI 在学习的过程中,自己衍生出来思考方式,而且它针对每道题是不一样的,它需要做大量的反思和检验的过程。
不过 k0-math 依然还存在一些局限,比如问它 1+1 的简单问题,会出现过度思考。k0-math 的回答大概是这样的:
它会说这个问题看似简单,但是你不能掉以轻心,所以它觉得这个可能有坑,所以开始分析,还要做了一下可视化。甚至它把类比成两个苹果。
这还不够,还要再检查一遍,如果你是苹果成立,如果变成小时,一个小时+一个小时变成两个小时,它确认了很多次,最后说 OK,可以确认 1+1=2。
具体效果如何还要用起来才知道,杨植麟透露,k0-math 模型和更强大的 Kimi 探索版,未来几周将会分批陆续上线 Kimi 网页版和 Kimi 智能助手 APP,帮助大家解决更有挑战的数学和搜索调研类任务。
我们也希望通过更强的推理能力,因为我觉得AI产品包括AI技术接下来的发展很重要的能力我觉得还是更加深度的推理,能够把现在只是短链路的简单的问答,变成更长链路的组合式的任务的操作。
杨植麟也在现场回答了媒体的一些回答,并回应了近期一些争议,以下是现场的交流沟通记录:
Q:如何看待 AI 创业公司被收购,人才回流大厂的?你们最近出现了人才流失吗?
杨植麟:我们没有人才流失。
这个问题我们没有遇到,但可能有一些别的公司遇到。因为行业发展进入了一个新的阶段,它从一开始有很多公司在做。变成了现在少一点的公司在做,接下来大家做的东西会逐渐不一样,我觉得这是必然的规律。
其实我们主动的选择做了业务的减法,在几个大模型创业公司里,我们始终保持人数最少,我们始终保持卡和人的比例是最高的,我觉得这个是非常关键的
我们不希望把团队扩那么大,一扩那么大对创新的影响是有一个致命性的伤害。如果你想把团队保持在一定的规模,那你其实最好的方式是业务上做一些减法。
我们一开始确实也尝试过比如说几个产品一块做,这个在一定的时期内有可能是有效的,到后来发现还是要聚焦,你把一个产品做好把它做到极致是最重要的
因为你砍业务本质上也是在控制人数,你不希望人数涨得特别猛。比如如果现在三个业务一起做,我就活生生把自己变成大厂,我就没有任何的优势
Q:聚焦 Kimi (缩减产品线)这个念头是从什么时候开始出现的?是什么样的因素让你复盘要进行重新的布局?
杨植麟:大概今年二、三月份吧。一个是基于美国市场的判断,二是基于我们自己的观察,主要是这两点。还有就是做(lisen)本身,确实得做减法,不是疯狂地做加法。
Q:你现在觉得最核心的任务是什么?
杨植麟:最核心的任务就是提升留存,或者把留存作为一个重要的衡量指标。因为我觉得基本上它跟你的技术的成熟度或者技术的水平也是一个正相关的过程。所以这个对我们来说当前是最重要的,我觉得还有很大的提升空间。
Q:留存到多少会满意?
杨植麟:永无止境。
Q:o1 发了以后大家也会觉得深层推理,还有包括你今天说的数学模型,它离普通用户比较远,你怎么看这个功能和用户的关系?
杨植麟:其实也不远。数学来讲我觉得是两个方面的价值,第一个方面它今天在教育产品上其实有非常大的价值。在我们整体的流量里也起到很重要的作用。
第二个,我觉得它是技术上的迭代和验证。以及我们可以把这个技术去放在更多的场景里,比如我们刚刚说的探索版去做很多的搜索,我觉得它会有两层这样的含义。
Q:据说 Sora 马上就要发了,为什么你们一直不做多模态?
杨植麟:我们也做,我们几个多模态的能力在内测。我觉得AI接下来最重要的是思考和交互这两个能力。
思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互我觉得是一个必要条件,比如说 vision 的能力,如果没有 vision 的能力没法做交互。所以我觉得它两个不太一样,你就看你要做这个任务你标注任务的难度有很大,你到底需要一个博士去标,还是每个人都可以标,哪个东西更难找到这样的人,那个东西就是 AI 的上限。
所以我觉得多模态它肯定是必要的,但是我觉得是思考决定它的上限。
Q:怎么看待 Kimi 跟豆包的竞争?
杨植麟:我更希望关注在怎么能给用户真正价值上,我不希望我们过多去关注竞争本身,因为竞争本身并不产生价值。
如何提供更好的技术和产品,这是我们现在最核心的问题。我们会更聚焦在怎么提升模型的思考推理能力,通过这个东西给用户带来更大的价值,我们要去做正确的事情,而不是专门去做不一样的事情。
我认为无论是谁能实现 AGI 都是非常好的结果。
Q:AI 的超级应用何时出现?
杨植麟:ChatGPT 月活已经超过5亿,它是不是超级应用,至少半个吧,有 5 亿人每个月在用,这个问题已经很大程度上被验证了。
Q:如何看待近期大模型预训练遭遇瓶颈的讨论,Scaling law 撞墙了吗
杨植麟:我觉得预训练还有空间,半代到一代的模型。这个空间会在明年释放出来,明年领先的模型会把预训练做到一个比较极致的阶段,今天比如说我们去看最好的模型它大概有这样的空间可以去压榨。
但是我们判断接下来最重点的东西会在强化学习上,就是范式上会产生一些变化,但是它还是 Scaling,并不是它不用 Scale,只是说你会通过不同的方式去 Scale,这是我们的判断。
你说Scaling law会不会是一个天花板或者是上限,这个相对来说我比较乐观一点。核心就在于原来你用静态数据集,静态数据集其实是比较简单粗暴的使用方式,现在用强化学习的方式很多情况下是有人在参与这个过程的,但是人没有办法给你标注那么多数据,不可能把每道题具体的思路都标出来,所以你其实用 AI 本身把人的东西加上一个杠杆。
比如说你标 100 条数据,你就能产生非常大的作用,因为剩下的它都是在自己思考,我觉得更多的会用这种方式去解决。我觉得这个大概率可以通过这种方式去做出来,所以我觉得它上限是很高的。
Q:我们距离 AGI 有多远?
杨植麟:我觉得现在还是初级阶段,当然每年都有一些比较大的进步,如果我们今年用去年的产品,你会发现可能根本没法忍受。
但是可能还有很多东西,比如说我刚刚说的思考能力还不够强,交互不够丰富,所以它今天能做的交互还比较有限,这个交互可能是两个维度的,一个是跟用户的交互,一个是跟本身客观世界的交互我觉得都还有很大的提升空间。




APPSO
AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI
 最新文章