OpenAI o1模型炸场两个月后,Kimi对标发布国产最强新模型

科技   2024-11-18 17:55   北京  

这个周末好不热闹,连续三个AI大号都在报道月之暗面的消息,而且关键词都围绕一个,那就是“回应”。这三个媒体,在标题上互相掐架,但在岛主我看来,这都没有说到关键。

钛媒体旗下的钛媒体AGI、虎嗅旗下的AI燎原、36kr旗下的智能涌现,三个大号都在围绕“回应”这个词来观察月之暗面。表面看这三个号在打架,但其实这存在一个悖论,那就是在没有定义“一切”的前提下,根本没办法判断这三个号到底在吵什么。

其实,这三个号最关心的,可能就是近期围绕月之暗面两个创始人身上的仲裁风波,发布会上Kimi 创始人杨植麟对此避而不谈,所以“智能涌现”的说法是,月暗显然并不打算回应一切。

在我看来,关于这个点,回应与否都不重要,因为这只是一个可以拿来炒作的点,最为关键的,还得是技术发展方向、观点以及成果。而杨植麟也的确在会上抛出了一个重磅炸弹——

Kimi 正式发布新一代数学推理模型 k0-math,在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。

要用AI制造新的数据

两个月前,OpenAI o1 的诞生引发了行业的诸多讨论。当时,OpenAI首席执行官Sam Altman在X平台上直接贴出了o1与GPT-4o在解决数学、编程和科学等问题的能力对比。

按照OpenAI 所说,o1 在编程竞赛问题(Codeforces)中排名前 89%,在美国数学奥林匹克预选赛(AIME)中跻身美国前 500 名学生之列。

最关键的是,在物理、生物和化学这种理科问题的基准测试(GPQA)中超过了人类博士生的准确性。

OpenAI o1如此强悍,很多业内大佬纷纷发表相关看法,其中杨植麟在接受腾讯科技的专访时就说过,当天然数据用完后,下一个阶段就是强化学习。

就像这个世界上数学题就这么多,如果要提升数学怎么办呢?可以一直生成更多的题,然后自己做题,有的做对了,有的做错了,然后去学习哪些做对了,哪些做错了,你就可以持续提升。这个本质上就是强化学习的过程。

总结一下就是,之前的GPT是用人类积累的数据喂出来的,但这些数据已经用完了,而o系列是人工智能自己在造新数据。

就是顺着这个方向,依靠强化学习的技术路线,kimi搞出来了k0-math 。k0-math 采用了全新的强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升了解决数学难题的能力,可以帮助用户完成更具挑战性的数学任务 。

杨植麟表示,接下来 k0-math 模型会持续迭代,提升更难题目的解题能力,挑战数学模型的能力极限。同时,k0-math 数学模型和更强大的 Kimi 探索版,将会分批陆续上线 Kimi 网页版(kimi.ai)和 Kimi 智能助手 APP。

既然 o1,那么k0-math 的表现到底咋样?

在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中,k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型:k0-math 模型得分 93.8,o1-mini 为 90 分, o1-preview 为 85.5 分。k0-math 的成绩仅次于尚未正式上线的 o1 完全版的 94.8 分。

而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

也就是说,简单问题上,k0-math已经超过了OpenAI o1,但是在复杂问题上还比不过OpenAI o1。

最重要的是两个结论

可以看到,现在的k0-math还不是完美的状态,为啥Kimi还要此时发布呢?我猜很可能就是因为要给一周年献礼。Kimi发布最新模型的11月16日,正好是一年前Kimi正式面向全社会开放服务的日子。

除了要作为一周年的纪念外,Kimi发布新模型还有一个最为关键的作用,那就是——

定纷止争。

k0-math的发布可以说是一槌定音,杨植麟要通过新的模型让整个行业知道,大模型发展的下一个阶段就是强化学习,所有人要集中资源和力量向强化学习攻坚,而不要把注意力和资源分散。

这就是Kimi发布国产最强对标模型最大的意义。

月之暗面很早之前即开始筹备强化学习相关的能力,杨植麟认为这将是接下来AI发展的一个重要趋势。

杨植麟在沟通会中表示,“我觉得 AI的发展就是一个荡秋千的过程,你会在两种状态之间来回切换。如果你的算法、数据非常ready,但是算力不够,那么你要做的事情是做更多的工程,把 Infra做得更好,然后它就能够持续地提升。但今天当Scale得差不多的时候,你会发现加更多算力可能并不一定能直接解决的问题,核心是高质量的数据就没有那么多了,所以我们需要通过算法的改变,让这个东西不会成为瓶颈”。

要想突破瓶颈,就要改变范式,要想改变范式,就要选择强化学习。

其实在o1刚出来的时候,OpenAI CEO奥特曼发了一篇文章叫《智能时代》,文中写到,深度学习算法的成功是这个新时代的催化剂。

一个是OpenAI的烟雾弹,还有业界的争论。尽管强化学习前景广阔,但监督学习仍然是目前最成熟和广泛使用的机器学习方法。许多研究者认为,短期内监督学习仍将在许多应用场景中占据主导地位。

现在,Kimi发布的新模型不仅仅是Kimi的里程碑,更是对未来AI发展方向的一次重要指引。

向Open AI发起冲击的不仅仅是国内玩家,比如,Google DeepMind最近在Gemini部门内组建了一个团队,就是要开发类似于OpenAI的o1模型。

现在,我们可以得出另一个重要结论了——只要技术方向没问题,国内两个月就能赶上美国最新最强模型。

数字进化岛
洞察科技产业,透视全球真相。
 最新文章