Kimi创始人杨植麟说出行业真相:全球人类数据都已经被AI学完了……

科技   2024-09-20 18:21   北京  

真的,太恐怖了,AI竟然已经把人类在现实世界产生的各类线上数据,都已经学完了。

要想紧跟AI趋势,最重要的不是体验各类AI应用,而是要重点关注行业大佬的观点。因为他们在一线看到了更多的真问题、真细节,在此基础上他们这些最强大脑经过思考沉淀输出的观点,值得每个人好好学习。

作为云计算技术行业的观察者,岛主就一直在跟踪学习这些大佬的发言。有些大佬有观点但是不爱表达,有些大佬即便表达也特别理科生,语言系统非常技术流,普通人难以看懂。我认为,Kimi创始人杨植麟能兼顾观点和表达,所以是一个非常好的学习对象。

此前,杨植麟在很多场合都发表过自己的思考。最近OpenAI的最新大模型版本o1炸街出场,杨植麟很快就接受了腾讯科技的专访。o1一出来,很多人说到了慢思考,直到现在很多大佬也都在说这个点,但是杨植麟已经看到了o1给出了当天然数据用完后该怎么办的解题思路。

在这里贴一下杨植麟发言原文:

虽然互联网发展了二十多年,但毕竟数据是有限的,整体积累的数据还不够多。现在大家遇到了一个问题,就是数据墙的问题,没有更多的数据可以去训练了。


我举个例子,假设现在要做一个数学能力很好的AI,我们应该想的问题是我应该有哪些数据会帮助我学习数学能力?现有被数字化的数学题是很少的,可能在互联网上有大部分数据又跟数学没什么关系。


现在好的数据被大家用的差不多了,很难有任何一个人或任何一个公司说,我今天可以找到比互联网大十倍的数据拿来训练,所以会遇到数据墙的问题。

大家都知道,高质量文本数据是大模型赖以学习的核心原料,在很大程度上影响着大模型的能力水平。因此,没有高质量数据,就没有高质量的大模型。

而现在,大模型技术遇到了数据墙的问题。何为数据墙?其实就是,“数据枯竭”。

近日,《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》的文章。该篇援引研究公司Epoch AI的预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这种现象在业内被称为“数据墙”。

天然的数据已经被穷尽了,这个时候怎么能够加更多的数据?能够让它持续做规模化?杨植麟认为,这里面就会涉及到范式的转移。下一个范式是通过强化学习来做。

为什么要强化学习?就是因为天然数据不够用了。就像这个世界上数学题就这么多,如果要提升数学怎么办呢?可以一直生成更多的题,然后自己做题,有的做对了,有的做错了,然后去学习哪些做对了,哪些做错了,你就可以持续提升。这个本质上就是强化学习的过程。

这种范式转变,说白了就是此前的大模型处于初级阶段,通过天然数据来预测下一个词。而o1在经过初级阶段训练后,已经开始自己给自己出题,然后AI自己生成全新的数据,通过这种方式去创造出来很多数据,最终实现自我学习和进化。

总结一下就是,之前的GPT是用人类积累的数据喂出来的,但这些数据已经用完了,而o系列是人工智能自己在造新数据。

这事儿还挺让人震惊的,因为我们都看到过国内一些大模型连人类数据还没有用好,而第二阶段如果贸然进场,很难想象AI能生成出什么牛鬼蛇神。

国际学术期刊《自然》发表的一篇计算机科学论文指出,用AI生成的数据集训练未来几代机器学习模型可能会污染它们的输出,这个概念称为“模型崩溃”。由于模型是在被污染的数据上训练出来,最终会误解现实。

不过从o1非常能打,比GPT最强版本都强八、九倍这个结果来看,这条路径本身问题不大。而值得期待的是,国产大模型该加把劲跟上来了。

事实上,不仅仅是杨植麟关注o1,在昨天的云栖大会上,阶跃星辰创始人姜大昕以及清华大学人工智能研究院副院长、生数科技首席科学家朱军也都在讨论。

其实,GTP刚出来的时候,国内就炸了,可以说给一众AI厂商指了条明路。现在o1可以说又把新的路子给淌出来了,接下来就该看国产AI大模型的精彩表演了!可以预见,未来2-3年又是一场硬仗。

数字进化岛
洞察科技产业,透视全球真相。
 最新文章