Kimi发布新模型，数学能力超o1，产品重点提升留存率

文摘 2024-11-17 10:30 北京

11 月 16 日，在 Kimi 全面上线一周年之际，月之暗面推出了基于推理强化的数学模型 k0-math，以及 Kimio 探索版的一系列新功能，新推出的 k0-math 数学模型测试成绩超越 o1。

官方称，2024 年 10 月，Kimi 智能助手全平台活跃用户超过 3600 万，k0-math 数学模型和 Kimi 探索版的新功能，将陆续上线网页端和 APP。

「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术，可以解决高质量数据缺乏的问题，将提升 AI 在各个领域和场景的推理能力和智能水平上限。」

针对最近业内讨论的 Scaling Law 撞墙的问题，Kimi 创始人杨植麟也发表了自己的观点。而对于深度推理、Kimi 自身海外业务收缩、以及 Kimi 的广告投放和用户留存问题，他也一并做了回答，我们对问答进行了编辑整理。

一些要点：

为什么选择数学场景，是因为杨植麟认为这是最适合锻炼 AI 思考能力的场景，是个不断思考不断试错的过程，而且不需要跟外界进行交互。
k0-math 拿下中考数学没有问题，高考的话，北京卷成绩不错，但难一点的就会有些压力。
k0-math 模型虽然擅长解答大部分很有难度的数学题，但是当前版本还无法解答 LaTeX 格式难以描述的几何图形类问题。
k0-math 的局限性是，对于简单的问题会过度思考，比如「1+1 等于几」会反复计算几遍，部分场景下还会猜答案。
「模型的过度思考，问题也出现在奖励机制上，我们现在没有对它的长度做任何限制，而是让它自由思考。」
「所有的好算法都是跟 Scaling 做朋友，如果你的算法能够释放 Scaling 的潜力，它就会持续变得更好。」
「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，而是我觉得思考会决定上限，交互是一个必要条件。」
「对我们来讲最核心的是把留存和 Growth 做好。适当的投放是需要的。」

点击关注，每天更新深度 AI 行业洞察

01 对标 o1 的推理强化模型：k0-math

本次发布的推理强化模型 k0-math，官方公布的测试结果中，成绩直接对标 OpenAI o1 系列。在中考、高考、考研以及入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型的成绩超过 o1-mini 和 o1-preview 模型。

虽然定位为数学模型，但 Kimi 创始人杨植麟表示，「这不仅意味着，在编码、搜索等用户更日常的任务上，更强大的推理能力，将会帮助每个用户解锁更多有挑战性的工作任务，而且在数学、物理、生物、化学等基础科学领域，很多尚未被解决的难题都有机会迎来破解的机会。」

不过杨植麟也表示，当前版本的 k0-math，有时会存在过度思考的问题，比如在回答「1+1 等于几」的问题时，会进行反复思考，用几种不同的逻辑反复验证。在一些简单问题上有点过度思考的倾向，这也是后续技术升级要解决的问题。

除了发布新模型之外，10 月份正式上线的 Kimi 探索版也将上线更多具有推理能力的功能。

意图增强：将模糊的问题和概念具象化，去理解用户的真实需求。比如用户提问「某产品的用户忠实度」，Kimi 会将其具象为从活跃度、留存率、使用频率和时长等维度分析用户的忠实度。
信源分析：更具权威性和可靠的信源分析，并且可以在答案中一键定位信源具体出处。
链式思考：基于 COT 思维链处理能力，对问题进行逐步的链式拆解。

02 借助于强化学习，

Scaling Law 上限很高

Q：你们模型预训练的情况是什么样的？你们会被 Scaling Law 限制吗？

杨植麟：我觉得预训练还有大约半代到一代的模型空间，这个空间会在明年释放出来，到时最领先的模型会把预训练做到一个比较极致的阶段。但是我们判断，接下来最重点的东西会在强化学习上，就是范式上会产生一些变化。但它还是 Scaling，只是说会通过不同的方式去 Scale，这是我们的判断。

Scaling Law 会不会是一个天花板，这个相对来说我比较乐观一点。核心就在于原来你用静态数据集，静态数据集是比较简单粗暴的使用方式，现在用强化学习的方式，很多情况下是有人在参与的，所以其实是 AI 本身，再把人的东西加一个杠杆。比如说你标 100 条数据，就能产生非常大的作用，剩下的都是它自己思考。我觉得，从具体做法上看，确定性是比较高的，且大概率可以通过这种方式做出来，所以我觉得它上限是很高的。

Q：数据会不会成为比较大的挑战，它怎么判断哪些数据可以用，哪些不用，哪些有价值，哪些没价值？另外，如何避免过度思考？

杨植麟：这对于强化学习来讲是一个核心问题。比如，像以前做 next token prediction，它是一个静态的数据，你可以对数据做很多静态的过滤、筛选，但是对强化学习来讲，所有学习数据都可能是它自己生成的，且它有可能猜答案，这些问题可以通过奖励模型解决。你怎么更好的训练奖励模型？不光是奖励模型的效果，还包括你怎么把奖励模型有效运用到学习的过程中，让它尽量减少学习错误的东西。有点像 pre-training，你要做很多对齐的工作，其实对强化学习来说也是一样。

模型的过度思考，问题也出现在奖励机制上，我们现在没有对它的长度做任何限制，而是让它自由思考，也许你能通过一些方法改变它的奖励机制，一定程度会抑制这样的问题，这是我们接下来去解决的问题。

Q：除了刚才的数据问题，数据、算力、算法，怎么能解决它的平衡问题？怎么能够解决无监督学习，能用小的数据，小的算力解决更多问题？

杨植麟：我觉得 AI 的发展是一个荡秋千的过程。你会在两种状态之间来回切换，一种是算法、数据非常 ready，但你算力不够，所以你要做更多工程，把 infra 做得更好，它就能持续提升。我觉得从 transformer 机制诞生到 GPT-4，更多的矛盾集中在怎么能 Scale，可能在算法和数据上没有本质问题。

于是，当你 Scale 得差不多的时候，你会发现，加更多算力，不一定能直接解决这个问题，核心是因为你没有高质量数据，那小几十 G 的 token 是人类互联网积累了 20 多年的上限。这也可以理解成整个行业遇到的问题。此时要做的，是通过算法的改变，让这个东西不会成为瓶颈。所有的好算法就是跟 Scaling 做朋友，如果你的算法能够释放 Scaling 的潜力，它就会持续变得更好。

我们从很早就开始做强化学习相关的东西，我觉得这个也是接下来很重要的一个趋势，通过这种方式去改变你的目标函数，改变你的学习方式，让它能持续 Scale。

03 长文本是登月第一步，

深度推理是第二步

Q：关于推理成本，像 o1 也有使用次数的限制，你们这个产品如果之后放到 Kimi 探索版里，会让用户去自主选择使用，还是说，你们会根据用户的提问来分配是否用这个模型？

杨植麟：我们大概会让用户自己选择。好处是，通过这种方式可以更好满足用户预期，我们也不希望它在简单问题上过度思考。

但我觉得这最终还是一个技术问题，第一是它能动态分配最优算力。如果模型足够聪明，它应该知道什么样的问题不需要想太多，比如「1+1=？」。目前来看，对于简单问题，它的思考时间的确会更短，但可能还没达到最优点，我们会通过算法去持续优化。

第二，长期来看，这也是成本不断下降的过程。比如，要想达到去年 GPT-4 的水平，今年你可能只需要十几 B 的参数，去年需要一百多 B。「先做大然后做小」，这是整个行业的普遍规律。

Q：Sora 据说就要发了，Kimi 一直不做多模态的原因是什么？

杨植麟：我们也做多模态，有几个多模态的能力正在内测。我觉得，AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，而是我觉得思考会决定上限，交互是一个必要条件。比如说 vision 的能力，如果没有 vision 的能力你就没法做交互。核心是看做任务的时候，你标注的难度有多大，你到底需要一个博士去标，还是每个人都可以标。哪个东西更难找到这样的人，它就是 AI 的上限。所以我觉得多模态肯定是必要的，但是思考决定它的上限。

Q：你去年说长文本是登月的第一步，你觉得数学模型和深度推理是第几步？

杨植麟：第二步。

Q：o1 发了以后，大家也会觉得深层推理，包括你今天说的数学模型，它离普通用户比较远，你怎么看这个功能和用户的关系？

杨植麟：其实也不远。我觉得数学有两个方面的价值，第一个方面，它今天在教育产品上有非常大的价值，在我们整体的流量里也起到很重要的作用。第二个，我觉得它是技术上的迭代和验证。以及我们可以把这个技术放在更多的场景里，比如探索版去做更多的搜索。

04 业务做减法，

专注提高 Kimi 留存

Q：如何看待几家 AI 公司最近发生的一些人才流失？

杨植麟：可能别的公司会存在，但我们公司没遇到这个问题。我觉得这种现象很正常，当行业的发展进入一个新阶段，从一开始很多家公司在做，到逐渐减少，甚至之后各家公司差异化发展，这是行业发展的规律。

Q：Kimi 今年整体上没有大的功能变动，更多像是对已有功能的挖掘，想知道 Kimi 这款产品后续的功能规划是什么？

杨植麟：其实我们在主动选择做业务的减法，这个是我们过去一年比较大的 lesson。你应该聚焦一些重要的事情，然后把它做好。在这几家大模型创业公司里，我们始终保持人数最少、卡和人的比例最高，我觉得这个非常关键。我们不希望团队规模扩那么大，这对创新的伤害是致命性的。如果想让团队保持在一定规模，最好的方式是在业务上做减法。如果三个业务一起做，活生生把自己变成大厂，我就没有任何的优势。

另外一个点，我们也在根据美国市场的情况去判断哪个业务最后做成的概率更高。

Q：什么时候决定聚焦 Kimi？

杨植麟：大概今年二、三月份吧，或者三、四月份的区间。一个是基于美国市场的判断，二是基于我们自己的观察，主要是这两点。

注：在今年的 AGI 大会上，杨植麟也就聚焦 Kimi 这一观点进行了详细阐述：对话杨植麟：聚焦生产力，做好Kimi这一个产品

Q：目前AI领域有没有出现超级应用？

杨植麟：ChatGPT 已经超 5 亿的月活，它至少算半个超级应用吧，这个问题很大程度上被验证了，而像 character.ai 这种产品，一开始用户量也蛮多，但后面很难破圈。所以在这个过程中，我们根据美国市场的情况，包括其他观察做出判断，聚焦在我们认为上限最高的事情，这跟我们 AGI 的 misson 也最相关。通过这种方式，去控制你的业务数不要太多，团队人数不要太多，把核心的创新能力做好。

Q：Kimi 目前最核心的任务是什么？目前的用户留存情况如何？从现在的投放力度来看，这个ROI你满意吗？

杨植麟：最核心的任务就是提升留存，或者把留存作为一个重要的衡量指标。这个产品的好处就是，你的模型能力跟你的产品指标是高度正相关的，所以它可以统一去优化。假设我们衡量距离 AGI 还有多远，我觉得现在还是初级阶段。当然，如果我们今年用去年的产品，你会发现可能根本无法忍受。但是可能还有很多，比如思考能力还不够强，交互不够丰富，这个交互可能是两个维度的，一个是跟用户的交互，一个是跟本身客观世界的交互，我觉得都还有很大的提升空间。当我们把这两点做好，它的留存会进一步上升。

Q：都说 Kimi 的投流成本很高，怎么能把成本收回来，怎么做良性的商业化？之前说有抽成的模式，现在有没有这种想法？

杨植麟：我觉得肯定有，但是对我们来说现在最关键的还是留存，我觉得这个还是需要看的再长远一些。

Q：留存到多少会满意？

杨植麟：永无止境。整体留存我们相比于其它的产品我们还是有优势的，如果放眼去看这个产品的终极生态，今天肯定有非常大的空间，这个是我想表达的，我们会持续在这个方面做得更好。

Q：至少ROI需要为正吧。

杨植麟：看你怎么衡量，这个东西肯定需要去算，我们也会持续提升。对我们来讲最核心的是把留存和 Growth 做好。适当的投放是需要的，但你需要平衡好这几个东西之间的关系。

Q：怎么看待跟豆包的竞争？

杨植麟：我们更希望关注在怎么能给用户真正价值上，不希望过多去关注竞争本身，因为竞争本身并不产生价值。

我们现在最核心的问题是，聚焦在怎么提升模型的思考推理能力，通过这个东西给用户带来更大的价值，做正确的事情，而不是专门去做不一样的事情。

Q：出海怎么想？

杨植麟：我觉得先聚焦，然后全球化，需要更耐心一点。

更多阅读

Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

Alexa 做了 10 年，销量 4000 万台，却还是一个智能闹钟

对话Me.bot产品负责人：PH月榜第二，用另一种方式做AI陪伴

转载原创文章请添加微信：founderparker

http://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247510314&idx=1&sn=17772659b97121d7ab902c5e1fe58f8d

Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

最新文章

做销售SaaS，从以色列到全球化，估值72.5亿美元的PMF方法

OpenAI 在亚洲的首届黑客松，这三个作品获奖了

OpenAI主推的AI PDF工具，一年50万用户，团队只有5个人

硅谷一线增长专家分享：C 端 SaaS 产品增长的七大核心杠杆

来自独立开发者的AI编程上手实战：如何用AI 提高编码效率？哪款工具最好用？

具身智能2024：有什么新变化，谁还在牌桌上？

做出最好大模型的 CEO，不认为 Scaling Law 撞墙了

AI Coding能撑起一个多大的叙事？

对话AIGCode创始人：只有从底层训模型，才能真正释放Coding生产力

Founder Park 招人！一起用内容做点有意思的事

11 种反常识的增长手段！增长黑客，就是挑战规则，恰到好处的邪恶

最挣钱的 AI+PPT 应用有哪些？为什么是它们？

专访Perplexity增长负责人：最大AI搜索的增长尝试，哪些成了，哪些没成？

Mistral放大招：124B多模态，Canvas、搜索、图片生成免费用

对话王诗沐：走出大厂创业，做 3D AI 游戏，瞄准新的内容平台机会

周五聊：AI产品出海，怎么找达人做营销？

Kimi发布新模型，数学能力超o1，产品重点提升留存率

AI 创业出海欧洲，如何找到投资？

下周五聊：AI产品出海，怎么找达人做营销？

对话百度智能云：LLM两年，我们找到了做AI应用的正确范式

下周五聊：AI产品出海，达人营销怎么做？

爆火AI编程工具Bolt，数据公开：4周ARR 400万，周活10万

语音AI赛道全解析：市场规模超 50 亿，最有机会的场景在哪里？

和百度智能云聊聊：LLM面世两年，AI应用开发的「坑」与新共识

生数科技发布 Vidu 新版本，解决了视频生成的多主体一致性难题

Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

Anthropic 办了一场黑客马拉松，选出了这三款应用

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

The Information爆料：OpenAI调整大模型方向，Scaling Law撞墙？

Alexa 做了 10 年，销量 4000 万台，却还是一个智能闹钟

ARR 指标失效，SaaS 公司该如何重新设计定价模式？

今年最特别的黑客松：AI社会公益、2万美元大奖，速来！

特朗普当选总统，美国大选如何撕裂整个硅谷科技圈？

副业做的应用获25万用户，全职创业却失败，AI创业这么难吗？

PH本周最佳产品介绍：全是AI产品，40%为华人团队

产品转型，创始人用48小时做了个demo，2 个月后公司卖了6.5亿美元

xAI、Anthropic同日上线API：Grok免费公测，Claude Haiku价格暴涨

腾讯开源：3D素材生成模型、最大MoE模型，兼容OpenAI SDK

产品转型6次才找到PMF，这家公司公开了自己的PMF方法论

被迫转型后，9人团队把AI写作做到500万美元ARR

周三聊：AI产品的全球化增长第一步，SEO怎么做？

胖东来真正的商业模式是什么？为什么不做地域扩张？

周三聊：AI产品的全球化增长，SEO怎么做？

OpusClip创始人赵洋：7个月，500万用户，ARR千万美金

秘塔科技专访：AI搜索这件事，我们是怎么想的？

下周三聊：AI产品的全球化增长，SEO怎么做？

ChatGPT AI搜索上线！Altman：这是ChatGPT发布以来，我最喜欢的功能

RTE年度场景三强专访：实时语音、多模态Agent，创业机会在哪里？

下周三聊：AI产品的海外增长，SEO怎么做？

GPT-4o、NotebookLM带来的AI语音新变化，声网们是怎么想的？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉