Kimi 发布新模型对标 OpenAI o1！月之暗面创始人回应近期争议

科技 2024-11-16 20:31 广东

月之暗面和杨植麟大概是近期最受关注的国产大模型公司和创始人，仲裁争议和出海产品收缩的消息让其站在风口浪尖。

更重要的原因，当然还是月之暗面的 Kimi 是国内 AI 应用的头部产品，目前 Kimi 的月活已经超过 3600万。

在 Kimi Chat 全面开放一周年的今天，Kimi 正式发布新一代数学推理模型 k0-math，对标 OpenAI o1 系列。

月之暗面创始人杨植麟认为，最适合让 AI 锻炼思考能力的场景就是数学。他在向 APPSO 等媒体介绍 k0-math 时，引用了伽利略的一段话：

这个宇宙如果你把它看成一本很大的书，宇宙它其实是用数学来写的，数学是表达这个宇宙的语言。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

基准测试显示，Kimi k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型：o1-mini和o1-preview。

在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中，k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。

在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

杨植麟向我们演示了 k0-math 解答数学题的一些过程，比如在面对一道很难的竞赛题，它可以通过大量的尝试。它可能尝试了八九种不同的做法，最后发现没有真正能达到最终的解答。

但是它会在多次尝试后突然发现我可以把前面的两三个不同的想法结合起来，就可以得到一个正确的答案。

为了让 AI 具备深度思考能力， k0-math 并没有前置设计很多模板。杨植麟希望 AI 在学习的过程中，自己衍生出来思考方式，而且它针对每道题是不一样的，它需要做大量的反思和检验的过程。

不过 k0-math 依然还存在一些局限，比如问它 1+1 的简单问题，会出现过度思考。k0-math 的回答大概是这样的：

它会说这个问题看似简单，但是你不能掉以轻心，所以它觉得这个可能有坑，所以开始分析，还要做了一下可视化。甚至它把类比成两个苹果。

这还不够，还要再检查一遍，如果你是苹果成立，如果变成小时，一个小时+一个小时变成两个小时，它确认了很多次，最后说 OK，可以确认 1+1=2。

具体效果如何还要用起来才知道，杨植麟透露，k0-math 模型和更强大的 Kimi 探索版，未来几周将会分批陆续上线 Kimi 网页版和 Kimi 智能助手 APP，帮助大家解决更有挑战的数学和搜索调研类任务。

我们也希望通过更强的推理能力，因为我觉得AI产品包括AI技术接下来的发展很重要的能力我觉得还是更加深度的推理，能够把现在只是短链路的简单的问答，变成更长链路的组合式的任务的操作。

杨植麟也在现场回答了媒体的一些回答，并回应了近期一些争议，以下是现场的交流沟通记录：

Q：如何看待 AI 创业公司被收购，人才回流大厂的？你们最近出现了人才流失吗？

杨植麟：我们没有人才流失。

这个问题我们没有遇到，但可能有一些别的公司遇到。因为行业发展进入了一个新的阶段，它从一开始有很多公司在做。变成了现在少一点的公司在做，接下来大家做的东西会逐渐不一样，我觉得这是必然的规律。

其实我们主动的选择做了业务的减法，在几个大模型创业公司里，我们始终保持人数最少，我们始终保持卡和人的比例是最高的，我觉得这个是非常关键的。

我们不希望把团队扩那么大，一扩那么大对创新的影响是有一个致命性的伤害。如果你想把团队保持在一定的规模，那你其实最好的方式是业务上做一些减法。

我们一开始确实也尝试过比如说几个产品一块做，这个在一定的时期内有可能是有效的，到后来发现还是要聚焦，你把一个产品做好把它做到极致是最重要的。

因为你砍业务本质上也是在控制人数，你不希望人数涨得特别猛。比如如果现在三个业务一起做，我就活生生把自己变成大厂，我就没有任何的优势。

Q：聚焦 Kimi （缩减产品线）这个念头是从什么时候开始出现的？是什么样的因素让你复盘要进行重新的布局？

杨植麟：大概今年二、三月份吧。一个是基于美国市场的判断，二是基于我们自己的观察，主要是这两点。还有就是做（lisen）本身，确实得做减法，不是疯狂地做加法。

Q：你现在觉得最核心的任务是什么？

杨植麟：最核心的任务就是提升留存，或者把留存作为一个重要的衡量指标。因为我觉得基本上它跟你的技术的成熟度或者技术的水平也是一个正相关的过程。所以这个对我们来说当前是最重要的，我觉得还有很大的提升空间。

Q：留存到多少会满意？

杨植麟：永无止境。

Q：o1 发了以后大家也会觉得深层推理，还有包括你今天说的数学模型，它离普通用户比较远，你怎么看这个功能和用户的关系？

杨植麟：其实也不远。数学来讲我觉得是两个方面的价值，第一个方面它今天在教育产品上其实有非常大的价值。在我们整体的流量里也起到很重要的作用。

第二个，我觉得它是技术上的迭代和验证。以及我们可以把这个技术去放在更多的场景里，比如我们刚刚说的探索版去做很多的搜索，我觉得它会有两层这样的含义。

Q：据说 Sora 马上就要发了，为什么你们一直不做多模态？

杨植麟：我们也做，我们几个多模态的能力在内测。我觉得AI接下来最重要的是思考和交互这两个能力。

思考的重要性远大于交互，不是说交互不重要，我觉得思考会决定上限，交互我觉得是一个必要条件，比如说 vision 的能力，如果没有 vision 的能力没法做交互。所以我觉得它两个不太一样，你就看你要做这个任务你标注任务的难度有很大，你到底需要一个博士去标，还是每个人都可以标，哪个东西更难找到这样的人，那个东西就是 AI 的上限。

所以我觉得多模态它肯定是必要的，但是我觉得是思考决定它的上限。

Q：怎么看待 Kimi 跟豆包的竞争？

杨植麟：我更希望关注在怎么能给用户真正价值上，我不希望我们过多去关注竞争本身，因为竞争本身并不产生价值。

如何提供更好的技术和产品，这是我们现在最核心的问题。我们会更聚焦在怎么提升模型的思考推理能力，通过这个东西给用户带来更大的价值，我们要去做正确的事情，而不是专门去做不一样的事情。

我认为无论是谁能实现 AGI 都是非常好的结果。

Q：AI 的超级应用何时出现？

杨植麟：ChatGPT 月活已经超过5亿，它是不是超级应用，至少半个吧，有 5 亿人每个月在用，这个问题已经很大程度上被验证了。

Q：如何看待近期大模型预训练遭遇瓶颈的讨论，Scaling law 撞墙了吗

杨植麟：我觉得预训练还有空间，半代到一代的模型。这个空间会在明年释放出来，明年领先的模型会把预训练做到一个比较极致的阶段，今天比如说我们去看最好的模型它大概有这样的空间可以去压榨。

但是我们判断接下来最重点的东西会在强化学习上，就是范式上会产生一些变化，但是它还是 Scaling，并不是它不用 Scale，只是说你会通过不同的方式去 Scale，这是我们的判断。

你说Scaling law会不会是一个天花板或者是上限，这个相对来说我比较乐观一点。核心就在于原来你用静态数据集，静态数据集其实是比较简单粗暴的使用方式，现在用强化学习的方式很多情况下是有人在参与这个过程的，但是人没有办法给你标注那么多数据，不可能把每道题具体的思路都标出来，所以你其实用 AI 本身把人的东西加上一个杠杆。

比如说你标 100 条数据，你就能产生非常大的作用，因为剩下的它都是在自己思考，我觉得更多的会用这种方式去解决。我觉得这个大概率可以通过这种方式去做出来，所以我觉得它上限是很高的。

Q：我们距离 AGI 有多远？

杨植麟：我觉得现在还是初级阶段，当然每年都有一些比较大的进步，如果我们今年用去年的产品，你会发现可能根本没法忍受。

但是可能还有很多东西，比如说我刚刚说的思考能力还不够强，交互不够丰富，所以它今天能做的交互还比较有限，这个交互可能是两个维度的，一个是跟用户的交互，一个是跟本身客观世界的交互我觉得都还有很大的提升空间。

http://mp.weixin.qq.com/s?__biz=MjM5MjAyNDUyMA==&mid=2651029509&idx=1&sn=ef06eb208ce9714002c470db2c8e3d0e

APPSO

AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI

字节跳动起诉前实习生并索赔 800 万/华为百万级轿车 48 小时预订量达 2108 台/支付宝上线「AI 帮找工作」功能

Sora 泄露事件背后，艺术家为什么要集体反抗 OpenAI？

AI 视频巨头重磅更新！提示词都不用费劲写了，从未有过这样的视频创作方式

OpenAI 再获软银 15 亿美元投资 / 比亚迪回应要求供应商降价:非强制要求/《王者荣耀》卫冕 10 月全球手游收入冠军

Sora 遭遇严重泄露！艺术家愤怒「复仇」OpenAI，测试渠道全网疯传

史上最薄 iPhone 或全面取消实体SIM卡/预售价百万起，华为发布尊界S800/英伟达展示AI语音模型

Mate 70 发布！华为最强 AI 手机来了，余承东高呼对得起「那四个字」

网易云音乐怒斥 QQ 音乐「剽窃式创新」/华为Mate70系列支持 AI 手势隔空传送/库克来华：没中国就没苹果今天的成就

国行 iPhone 16 实现 AI 自由，三步就够了

微信内测原图原视频 14 天自动清理功能/iPhone17系列仅Pro机型搭载5倍光学变焦/AI助力，陶哲轩宣布等式理论计划成功

AI 聊天机器人让用户去死，大学生吓到崩溃，官方紧急道歉

AI或成华为Mate70最大卖点/苹果Siri大升级，2026年拟超ChatGPT/可口可乐AI广告翻车|Hunt Good周报

刚刚，黄仁勋获港科大荣誉博士，演讲大秀中文，称 AI 可能是人类历史上最重要的技术

你画 AI 猜，这个开源 AI 图像神器，在玩一种很新的 P 图

小米将承担 SU7 自动泊车异常维修费用/麦当劳和支付宝力推「碰一下点餐」/OpenAI 正考虑推出自研浏览器

国产大模型黑马的首个推理模型来了，和 o1 PK后，我发现了AI深度思考的大问题

《黑神话：悟空》获金摇杆奖年度游戏/胖东来回应「员工结婚不许要彩礼」/OpenAI 薪酬曝光，奥特曼年薪仅 55 万

农夫山泉钟睒睒炮轰张一鸣，要求道歉/马斯克：AGI最晚2026年实现，人形机器人超100亿/曝华为鸿蒙智行销售车型明年翻倍

初代星舰最后一飞！首次在太空点燃猛禽发动机，马斯克、特朗普现场观看

iPhone 17 Air 厚度曝光，将是苹果最薄手机/余承东展示华为Mate70 细节/阿里通义千问发布新开源 AI 模型

马斯克与 OpenAI 决裂内幕全曝光！这封邮件让他破防，怒斥「我受够了」

从 GPT-2 开始玩 AI 的博士生，把论文做成了上线 Steam 的独立游戏｜AI 新职人

华为Mate70系列开启预售，预约人数超200万/《黑神话：悟空》获TGA年度游戏提名/英伟达AI芯片被曝存在过热问题，交付推迟

马斯克新 AI 破解千年难题却被紧急喊停？这个「玩笑」怎么让 AI 圈一夜未眠

首发 | Kimi 首个多模态功能体验，AI 一键为音乐生成 MV，月之暗面不再只卷长文本

华为 Mate 70 定档海报提前曝光/AI 疑似证明黎曼猜想，已被叫停/vivo X200 系列更新改善炫光

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

马斯克再谈约架扎克伯格：随时奉陪/传满血版 o1 下月推出/苹果或将推出 AI 智能家居中控屏 | Hunt Good 周报

Kimi 发布新模型对标 OpenAI o1！月之暗面创始人回应近期争议

给马斯克上了瑞士卷大考后，我终于拿捏这个国产 AI 视频模型的最强新功能

17 岁高中生写了个神级 Prompt，直接把 Claude 强化成了满血 o1

余承东曝Mate70将在本月26日发布/美团哈啰单车在郑州停运，哈啰已恢复/OpenAI 拟打造AI 经济区与中国竞争

AI 最可怕的不是取代人类，是已经让我们不相信看到的是真照片

iPhone 15成Q3全球销量最高智能手机/OpenAICEO辟谣AI发展「撞墙」论/B站上市后首次单季度盈利

苹果广告又翻车，给 AI 产品做创意怎么就不能 Think different

OpenAI 下一代模型遭遇重大瓶颈，前首席科学家透露新技术路线

曝小米AI眼镜将于明年发布，雷军预期出货30万台/马斯克新职务官宣，狗狗币大涨/苹果或将推出 AI 智能家居中控屏

黄仁勋最新演讲：每家公司都将成为 AI 制造商 | 万字实录

OpenAI 总裁宣布回归！结束「最长假期」，将专注重大技术挑战

2025 放假安排公布，增加两天假期 / 李子柒恢复更新，播放量破亿 / 百度发布首款 AI 眼镜

百度发布首款 AI 眼镜！比 Meta 爆款更卷，苹果也在押注的智能眼镜正在爆发

支付宝崩了上热搜，官方致歉/字节豆包发布新模型，AI 一句话 P 图/罗永浩发文怒喷餐厅卖预制菜

人类智力锁死在了 2021，OpenAI CEO 预言 AGI 可在 5 年内实现 | 万字专访实录

独家首测：全新 Mac mini 的 Type-C 接口能供电了？实测后，我们发现了苹果的秘密

OpenAICEO ：AGI将于2025年到来 / iPhone 部分旧款机型降至半价 / 开封夜骑爆火，官方喊话夜骑大学生

黄仁勋两万字访谈实录：希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

传 Sora 两周内推出/OpenAI 元老、北大校友翁荔宣布离职/Google 版「贾维斯」泄露 | Hunt Good 周报

打败 Midjourney，匿名屠榜的 AI 生图黑马，让人人都能设计海报

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉