OpenAI o1模型炸场两个月后，Kimi对标发布国产最强新模型

科技 2024-11-18 17:55 北京

这个周末好不热闹，连续三个AI大号都在报道月之暗面的消息，而且关键词都围绕一个，那就是“回应”。这三个媒体，在标题上互相掐架，但在岛主我看来，这都没有说到关键。

钛媒体旗下的钛媒体AGI、虎嗅旗下的AI燎原、36kr旗下的智能涌现，三个大号都在围绕“回应”这个词来观察月之暗面。表面看这三个号在打架，但其实这存在一个悖论，那就是在没有定义“一切”的前提下，根本没办法判断这三个号到底在吵什么。

其实，这三个号最关心的，可能就是近期围绕月之暗面两个创始人身上的仲裁风波，发布会上Kimi 创始人杨植麟对此避而不谈，所以“智能涌现”的说法是，月暗显然并不打算回应一切。

在我看来，关于这个点，回应与否都不重要，因为这只是一个可以拿来炒作的点，最为关键的，还得是技术发展方向、观点以及成果。而杨植麟也的确在会上抛出了一个重磅炸弹——

Kimi 正式发布新一代数学推理模型 k0-math，在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。

要用AI制造新的数据

两个月前，OpenAI o1 的诞生引发了行业的诸多讨论。当时，OpenAI首席执行官Sam Altman在X平台上直接贴出了o1与GPT-4o在解决数学、编程和科学等问题的能力对比。

按照OpenAI 所说，o1 在编程竞赛问题（Codeforces）中排名前 89%，在美国数学奥林匹克预选赛（AIME）中跻身美国前 500 名学生之列。

最关键的是，在物理、生物和化学这种理科问题的基准测试（GPQA）中超过了人类博士生的准确性。

OpenAI o1如此强悍，很多业内大佬纷纷发表相关看法，其中杨植麟在接受腾讯科技的专访时就说过，当天然数据用完后，下一个阶段就是强化学习。

就像这个世界上数学题就这么多，如果要提升数学怎么办呢？可以一直生成更多的题，然后自己做题，有的做对了，有的做错了，然后去学习哪些做对了，哪些做错了，你就可以持续提升。这个本质上就是强化学习的过程。

总结一下就是，之前的GPT是用人类积累的数据喂出来的，但这些数据已经用完了，而o系列是人工智能自己在造新数据。

就是顺着这个方向，依靠强化学习的技术路线，kimi搞出来了k0-math 。k0-math 采用了全新的强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务。

杨植麟表示，接下来 k0-math 模型会持续迭代，提升更难题目的解题能力，挑战数学模型的能力极限。同时，k0-math 数学模型和更强大的 Kimi 探索版，将会分批陆续上线 Kimi 网页版（kimi.ai）和 Kimi 智能助手 APP。

既然 o1，那么k0-math 的表现到底咋样？

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型：k0-math 模型得分 93.8，o1-mini 为 90 分， o1-preview 为 85.5 分。k0-math 的成绩仅次于尚未正式上线的 o1 完全版的 94.8 分。

而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

也就是说，简单问题上，k0-math已经超过了OpenAI o1，但是在复杂问题上还比不过OpenAI o1。

最重要的是两个结论

可以看到，现在的k0-math还不是完美的状态，为啥Kimi还要此时发布呢？我猜很可能就是因为要给一周年献礼。Kimi发布最新模型的11月16日，正好是一年前Kimi正式面向全社会开放服务的日子。

除了要作为一周年的纪念外，Kimi发布新模型还有一个最为关键的作用，那就是——

定纷止争。

k0-math的发布可以说是一槌定音，杨植麟要通过新的模型让整个行业知道，大模型发展的下一个阶段就是强化学习，所有人要集中资源和力量向强化学习攻坚，而不要把注意力和资源分散。

这就是Kimi发布国产最强对标模型最大的意义。

月之暗面很早之前即开始筹备强化学习相关的能力，杨植麟认为这将是接下来AI发展的一个重要趋势。

杨植麟在沟通会中表示，“我觉得 AI的发展就是一个荡秋千的过程，你会在两种状态之间来回切换。如果你的算法、数据非常ready，但是算力不够，那么你要做的事情是做更多的工程，把 Infra做得更好，然后它就能够持续地提升。但今天当Scale得差不多的时候，你会发现加更多算力可能并不一定能直接解决的问题，核心是高质量的数据就没有那么多了，所以我们需要通过算法的改变，让这个东西不会成为瓶颈”。

要想突破瓶颈，就要改变范式，要想改变范式，就要选择强化学习。

其实在o1刚出来的时候，OpenAI CEO奥特曼发了一篇文章叫《智能时代》，文中写到，深度学习算法的成功是这个新时代的催化剂。

一个是OpenAI的烟雾弹，还有业界的争论。尽管强化学习前景广阔，但监督学习仍然是目前最成熟和广泛使用的机器学习方法。许多研究者认为，短期内监督学习仍将在许多应用场景中占据主导地位。

现在，Kimi发布的新模型不仅仅是Kimi的里程碑，更是对未来AI发展方向的一次重要指引。

向Open AI发起冲击的不仅仅是国内玩家，比如，Google DeepMind最近在Gemini部门内组建了一个团队，就是要开发类似于OpenAI的o1模型。

现在，我们可以得出另一个重要结论了——只要技术方向没问题，国内两个月就能赶上美国最新最强模型。

http://mp.weixin.qq.com/s?__biz=Mzg5Njc3MDAwMQ==&mid=2247484566&idx=1&sn=3d9caece7bbcea2aaf8f4ccf5477a02b

数字进化岛

洞察科技产业，透视全球真相。

最新文章

百度Q3净利润增长17%超预期，为啥美股港股双双下跌？

强烈建议麦琳和李行亮锁死，谁也别出来祸害别人

胖东来和钟睒睒，请你们大胆说下去

AI让人类去死，是产生了自我意识？别太天真了

不要被钟睒睒给骗了

何同学早就该翻车了

华为云双11强调价值战：华为云是打不起价格战吗？

惊！腾讯混元大模型技术负责人刘威离职，离职潮席卷“大厂”？

OpenAI o1模型炸场两个月后，Kimi对标发布国产最强新模型

刚刚！腾讯低调推出AI搜索产品ima，最大的亮点不是能搜公众号

奉劝百度，不要企图用非共识言论惊爆市场

李开复对AI为何频频指点江山？

美国OpenAI慢了！国产大模型正在海外大杀四方

突发！Kimi创始人被多家前投资方申请仲裁，国产大模型不被资本看好了？

特朗普上台，中美AI走进大爆发前夜

全网老公崩溃？八个瑞士卷怎么分？我问了问国产AI TOP10：这个AI一个都不给老婆分

“男老师造假，毁了女学生，姜萍也是受害者”

中美大模型如何追赶？李开复：缩小中美大模型差距其实很难

禁令落地！刚刚，美国宣布2025年起限制对华AI投资，香港和澳门也不例外

雷军七天骂翻全网？那个让雷军不得不回应的AI配音，究竟是怎么做出来的？

开源世界天塌了！因为美国政府制裁，Linux 内核就“清洗”了11名俄罗斯开发者

美国AI像人一样用电脑，中国AI像人一样用手机：是划时代还是伪需求？

一个美国AI大模型，让14岁男孩决定去死

重大转折！融资千万的AI公司被OPPO收购，95后创始人携核心团队集体入职

最新！美国限制对中国AI投资的规定，将在一周内发布：想要杀死国产大模型？

京东这次翻车，和百度如出一辙

百度为啥不做Sora类的视频生成？李彦宏：10年、20年都可能难以商业化应用

李开复谈中美大模型差距：很多美国朋友都认为中国会远远落后

惊了！损失超千万美元？字节大模型整个GPU集群被实习生病毒攻击，两个月的训练结果都是错的

封死最后合规渠道！微软Azure OpenAI突然终止中国个人服务，国内套壳大模型无路可走？

太蠢了！四川2.15万亿拆迁项目竟然是用 AI 生成的

见证历史！国产大模型首次在公开榜单上超过GPT-4o

百度网盘安全漏洞！女用户隐私照片被泄露，陌生男子：比我还色

烧钱结束？多家国产大模型公司放弃预训练，技术转向不丢人！

一文读懂国庆后股市行情和操作指南

官方确定三只羊录音是 AI 合成，人们为啥不相信？

估值万亿、清除异己！美国最强AI公司成功集权，OpenAI CEO奥特曼成最大赢家

会说中文，讨好中国？预告4个月后，ChatGPT终于上线了语音功能

数字铁幕！美国禁止联网汽车使用中国研发软件，《纽约时报》都看不下去了

ChatGPT 之父罕见发长文说不要怕AI，为什么国内网友反而更害怕了？

当AI学会了自我批评

蚂蚁吞大象？高通被爆将收购英特尔，或成史上最大科技并购

Kimi创始人杨植麟说出行业真相：全球人类数据都已经被AI学完了……

百度AI，骑虎难下？

阿里云新加坡大火烧了30小时，20年后也不能恢复？

突发！阿里云盘 bug 能看别人隐私照片，甚至不知道事故发生了多久…

打脸！美国OpenAI发布最新模型，李彦宏的十年预判现在就错了？

还有15项异常！阿里云电池爆炸机房着火，为啥导致字节跳动服务严重中断？

再升级！美国要求先进AI公司报告模型训练情况：防止中国使用美国最先进技术

阿里云新加坡节点突发火灾，客户业务为什么没有自动迁移？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉