Kimi发布新模型,数学能力超o1,产品重点提升留存率

文摘   2024-11-17 10:30   北京  

11 月 16 日,在 Kimi 全面上线一周年之际,月之暗面推出了基于推理强化的数学模型 k0-math,以及 Kimio 探索版的一系列新功能,新推出的 k0-math 数学模型测试成绩超越 o1。

官方称,2024 年 10 月,Kimi 智能助手全平台活跃用户超过 3600 万,k0-math 数学模型和 Kimi 探索版的新功能,将陆续上线网页端和 APP。

「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术,可以解决高质量数据缺乏的问题,将提升 AI 在各个领域和场景的推理能力和智能水平上限。

针对最近业内讨论的 Scaling Law 撞墙的问题,Kimi 创始人杨植麟也发表了自己的观点。而对于深度推理、Kimi 自身海外业务收缩、以及 Kimi 的广告投放和用户留存问题,他也一并做了回答,我们对问答进行了编辑整理。

一些要点:

  • 为什么选择数学场景,是因为杨植麟认为这是最适合锻炼 AI 思考能力的场景,是个不断思考不断试错的过程,而且不需要跟外界进行交互。

  • k0-math 拿下中考数学没有问题,高考的话,北京卷成绩不错,但难一点的就会有些压力。

  • k0-math 模型虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。

  • k0-math 的局限性是,对于简单的问题会过度思考,比如「1+1 等于几」会反复计算几遍,部分场景下还会猜答案。

  • 「模型的过度思考,问题也出现在奖励机制上,我们现在没有对它的长度做任何限制,而是让它自由思考。」

  • 「所有的好算法都是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。」

  • 「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,而是我觉得思考会决定上限,交互是一个必要条件。」

  • 「对我们来讲最核心的是把留存和 Growth 做好。适当的投放是需要的。」

点击关注,每天更新深度 AI 行业洞察


01 

对标 o1 的推理强化模型:k0-math

本次发布的推理强化模型 k0-math,官方公布的测试结果中,成绩直接对标 OpenAI o1 系列。在中考、高考、考研以及入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型的成绩超过 o1-mini 和 o1-preview 模型。

虽然定位为数学模型,但 Kimi 创始人杨植麟表示,「这不仅意味着,在编码、搜索等用户更日常的任务上,更强大的推理能力,将会帮助每个用户解锁更多有挑战性的工作任务,而且在数学、物理、生物、化学等基础科学领域,很多尚未被解决的难题都有机会迎来破解的机会。」

不过杨植麟也表示,当前版本的 k0-math,有时会存在过度思考的问题,比如在回答「1+1 等于几」的问题时,会进行反复思考,用几种不同的逻辑反复验证。在一些简单问题上有点过度思考的倾向,这也是后续技术升级要解决的问题。

除了发布新模型之外,10 月份正式上线的 Kimi 探索版也将上线更多具有推理能力的功能。

  • 意图增强:将模糊的问题和概念具象化,去理解用户的真实需求。比如用户提问「某产品的用户忠实度」,Kimi 会将其具象为从活跃度、留存率、使用频率和时长等维度分析用户的忠实度。

  • 信源分析:更具权威性和可靠的信源分析,并且可以在答案中一键定位信源具体出处。

  • 链式思考:基于 COT 思维链处理能力,对问题进行逐步的链式拆解。


02 

借助于强化学习,

Scaling Law 上限很高

Q:你们模型预训练的情况是什么样的?你们会被 Scaling Law 限制吗?

杨植麟:我觉得预训练还有大约半代到一代的模型空间,这个空间会在明年释放出来,到时最领先的模型会把预训练做到一个比较极致的阶段。但是我们判断,接下来最重点的东西会在强化学习上,就是范式上会产生一些变化。但它还是 Scaling,只是说会通过不同的方式去 Scale,这是我们的判断。

Scaling Law 会不会是一个天花板,这个相对来说我比较乐观一点。核心就在于原来你用静态数据集,静态数据集是比较简单粗暴的使用方式,现在用强化学习的方式,很多情况下是有人在参与的,所以其实是 AI 本身,再把人的东西加一个杠杆。比如说你标 100 条数据,就能产生非常大的作用,剩下的都是它自己思考。我觉得,从具体做法上看,确定性是比较高的,且大概率可以通过这种方式做出来,所以我觉得它上限是很高的。

Q:数据会不会成为比较大的挑战,它怎么判断哪些数据可以用,哪些不用,哪些有价值,哪些没价值?另外,如何避免过度思考?

杨植麟:这对于强化学习来讲是一个核心问题。比如,像以前做 next token prediction,它是一个静态的数据,你可以对数据做很多静态的过滤、筛选,但是对强化学习来讲,所有学习数据都可能是它自己生成的,且它有可能猜答案,这些问题可以通过奖励模型解决。你怎么更好的训练奖励模型?不光是奖励模型的效果,还包括你怎么把奖励模型有效运用到学习的过程中,让它尽量减少学习错误的东西。有点像 pre-training,你要做很多对齐的工作,其实对强化学习来说也是一样。

模型的过度思考,问题也出现在奖励机制上,我们现在没有对它的长度做任何限制,而是让它自由思考,也许你能通过一些方法改变它的奖励机制,一定程度会抑制这样的问题,这是我们接下来去解决的问题。

Q:除了刚才的数据问题,数据、算力、算法,怎么能解决它的平衡问题?怎么能够解决无监督学习,能用小的数据,小的算力解决更多问题?

杨植麟:我觉得 AI 的发展是一个荡秋千的过程。你会在两种状态之间来回切换,一种是算法、数据非常 ready,但你算力不够,所以你要做更多工程,把 infra 做得更好,它就能持续提升。我觉得从 transformer 机制诞生到 GPT-4,更多的矛盾集中在怎么能 Scale,可能在算法和数据上没有本质问题。

于是,当你 Scale 得差不多的时候,你会发现,加更多算力,不一定能直接解决这个问题,核心是因为你没有高质量数据,那小几十 G 的 token 是人类互联网积累了 20 多年的上限。这也可以理解成整个行业遇到的问题。此时要做的,是通过算法的改变,让这个东西不会成为瓶颈。所有的好算法就是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。

我们从很早就开始做强化学习相关的东西,我觉得这个也是接下来很重要的一个趋势,通过这种方式去改变你的目标函数,改变你的学习方式,让它能持续 Scale。


03 

长文本是登月第一步,

深度推理是第二步

Q:关于推理成本,像 o1 也有使用次数的限制,你们这个产品如果之后放到 Kimi 探索版里,会让用户去自主选择使用,还是说,你们会根据用户的提问来分配是否用这个模型?

杨植麟:我们大概会让用户自己选择。好处是,通过这种方式可以更好满足用户预期,我们也不希望它在简单问题上过度思考。

但我觉得这最终还是一个技术问题,第一是它能动态分配最优算力。如果模型足够聪明,它应该知道什么样的问题不需要想太多,比如「1+1=?」。目前来看,对于简单问题,它的思考时间的确会更短,但可能还没达到最优点,我们会通过算法去持续优化。

第二,长期来看,这也是成本不断下降的过程。比如,要想达到去年 GPT-4 的水平,今年你可能只需要十几 B 的参数,去年需要一百多 B。「先做大然后做小」,这是整个行业的普遍规律。

Q:Sora 据说就要发了,Kimi 一直不做多模态的原因是什么?

杨植麟:我们也做多模态,有几个多模态的能力正在内测。我觉得,AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,而是我觉得思考会决定上限,交互是一个必要条件。比如说 vision 的能力,如果没有 vision 的能力你就没法做交互。核心是看做任务的时候,你标注的难度有多大,你到底需要一个博士去标,还是每个人都可以标。哪个东西更难找到这样的人,它就是 AI 的上限。所以我觉得多模态肯定是必要的,但是思考决定它的上限。

Q:你去年说长文本是登月的第一步,你觉得数学模型和深度推理是第几步?

杨植麟:第二步。

Q:o1 发了以后,大家也会觉得深层推理,包括你今天说的数学模型,它离普通用户比较远,你怎么看这个功能和用户的关系?

杨植麟:其实也不远。我觉得数学有两个方面的价值,第一个方面,它今天在教育产品上有非常大的价值,在我们整体的流量里也起到很重要的作用。第二个,我觉得它是技术上的迭代和验证。以及我们可以把这个技术放在更多的场景里,比如探索版去做更多的搜索。


04 

业务做减法,

专注提高 Kimi 留存

Q:如何看待几家 AI 公司最近发生的一些人才流失?

杨植麟:可能别的公司会存在,但我们公司没遇到这个问题。我觉得这种现象很正常,当行业的发展进入一个新阶段,从一开始很多家公司在做,到逐渐减少,甚至之后各家公司差异化发展,这是行业发展的规律。

Q:Kimi 今年整体上没有大的功能变动,更多像是对已有功能的挖掘,想知道 Kimi 这款产品后续的功能规划是什么?

杨植麟:其实我们在主动选择做业务的减法,这个是我们过去一年比较大的 lesson。你应该聚焦一些重要的事情,然后把它做好。在这几家大模型创业公司里,我们始终保持人数最少、卡和人的比例最高,我觉得这个非常关键。我们不希望团队规模扩那么大,这对创新的伤害是致命性的。如果想让团队保持在一定规模,最好的方式是在业务上做减法。如果三个业务一起做,活生生把自己变成大厂,我就没有任何的优势。

另外一个点,我们也在根据美国市场的情况去判断哪个业务最后做成的概率更高。

Q:什么时候决定聚焦 Kimi?

杨植麟:大概今年二、三月份吧,或者三、四月份的区间。一个是基于美国市场的判断,二是基于我们自己的观察,主要是这两点。

注:在今年的 AGI 大会上,杨植麟也就聚焦 Kimi 这一观点进行了详细阐述:对话杨植麟:聚焦生产力,做好Kimi这一个产品

Q:目前AI领域有没有出现超级应用?

杨植麟:ChatGPT 已经超 5 亿的月活,它至少算半个超级应用吧,这个问题很大程度上被验证了,而像 character.ai 这种产品,一开始用户量也蛮多,但后面很难破圈。所以在这个过程中,我们根据美国市场的情况,包括其他观察做出判断,聚焦在我们认为上限最高的事情,这跟我们 AGI 的 misson 也最相关。通过这种方式,去控制你的业务数不要太多,团队人数不要太多,把核心的创新能力做好。

Q:Kimi 目前最核心的任务是什么?目前的用户留存情况如何?从现在的投放力度来看,这个ROI你满意吗?

杨植麟最核心的任务就是提升留存,或者把留存作为一个重要的衡量指标。这个产品的好处就是,你的模型能力跟你的产品指标是高度正相关的,所以它可以统一去优化。假设我们衡量距离 AGI 还有多远,我觉得现在还是初级阶段。当然,如果我们今年用去年的产品,你会发现可能根本无法忍受。但是可能还有很多,比如思考能力还不够强,交互不够丰富,这个交互可能是两个维度的,一个是跟用户的交互,一个是跟本身客观世界的交互,我觉得都还有很大的提升空间。当我们把这两点做好,它的留存会进一步上升。

Q:都说 Kimi 的投流成本很高,怎么能把成本收回来,怎么做良性的商业化?之前说有抽成的模式,现在有没有这种想法?

杨植麟:我觉得肯定有,但是对我们来说现在最关键的还是留存,我觉得这个还是需要看的再长远一些。

Q:留存到多少会满意?

杨植麟:永无止境。整体留存我们相比于其它的产品我们还是有优势的,如果放眼去看这个产品的终极生态,今天肯定有非常大的空间,这个是我想表达的,我们会持续在这个方面做得更好。

Q:至少ROI需要为正吧。

杨植麟:看你怎么衡量,这个东西肯定需要去算,我们也会持续提升。对我们来讲最核心的是把留存和 Growth 做好。适当的投放是需要的,但你需要平衡好这几个东西之间的关系。

Q:怎么看待跟豆包的竞争?

杨植麟:我们更希望关注在怎么能给用户真正价值上,不希望过多去关注竞争本身,因为竞争本身并不产生价值。

我们现在最核心的问题是,聚焦在怎么提升模型的思考推理能力,通过这个东西给用户带来更大的价值,做正确的事情,而不是专门去做不一样的事情。

Q:出海怎么想?

杨植麟:我觉得先聚焦,然后全球化,需要更耐心一点。



更多阅读

Glean:企业AI搜索,估值46亿美元,ARR一年翻4倍
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品
Alexa 做了 10 年,销量 4000 万台,却还是一个智能闹钟
对话Me.bot产品负责人:PH月榜第二,用另一种方式做AI陪伴

转载原创文章请添加微信:founderparker

Founder Park
来自极客公园,专注与科技创业者聊「真问题」。
 最新文章