Kimi创始人杨植麟说出行业真相：全球人类数据都已经被AI学完了……

科技 2024-09-20 18:21 北京

真的，太恐怖了，AI竟然已经把人类在现实世界产生的各类线上数据，都已经学完了。

要想紧跟AI趋势，最重要的不是体验各类AI应用，而是要重点关注行业大佬的观点。因为他们在一线看到了更多的真问题、真细节，在此基础上他们这些最强大脑经过思考沉淀输出的观点，值得每个人好好学习。

作为云计算技术行业的观察者，岛主就一直在跟踪学习这些大佬的发言。有些大佬有观点但是不爱表达，有些大佬即便表达也特别理科生，语言系统非常技术流，普通人难以看懂。我认为，Kimi创始人杨植麟能兼顾观点和表达，所以是一个非常好的学习对象。

此前，杨植麟在很多场合都发表过自己的思考。最近OpenAI的最新大模型版本o1炸街出场，杨植麟很快就接受了腾讯科技的专访。o1一出来，很多人说到了慢思考，直到现在很多大佬也都在说这个点，但是杨植麟已经看到了o1给出了当天然数据用完后该怎么办的解题思路。

在这里贴一下杨植麟发言原文：

虽然互联网发展了二十多年，但毕竟数据是有限的，整体积累的数据还不够多。现在大家遇到了一个问题，就是数据墙的问题，没有更多的数据可以去训练了。

我举个例子，假设现在要做一个数学能力很好的AI，我们应该想的问题是我应该有哪些数据会帮助我学习数学能力？现有被数字化的数学题是很少的，可能在互联网上有大部分数据又跟数学没什么关系。

现在好的数据被大家用的差不多了，很难有任何一个人或任何一个公司说，我今天可以找到比互联网大十倍的数据拿来训练，所以会遇到数据墙的问题。

大家都知道，高质量文本数据是大模型赖以学习的核心原料，在很大程度上影响着大模型的能力水平。因此，没有高质量数据，就没有高质量的大模型。

而现在，大模型技术遇到了数据墙的问题。何为数据墙？其实就是，“数据枯竭”。

近日，《经济学人》杂志发布题为《AI 公司很快将耗尽大部分互联网数据》的文章。该篇援引研究公司Epoch AI的预测，到2028年互联网上所有高质量的文本数据都将被使用完毕，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这种现象在业内被称为“数据墙”。

天然的数据已经被穷尽了，这个时候怎么能够加更多的数据？能够让它持续做规模化？杨植麟认为，这里面就会涉及到范式的转移。下一个范式是通过强化学习来做。

为什么要强化学习？就是因为天然数据不够用了。就像这个世界上数学题就这么多，如果要提升数学怎么办呢？可以一直生成更多的题，然后自己做题，有的做对了，有的做错了，然后去学习哪些做对了，哪些做错了，你就可以持续提升。这个本质上就是强化学习的过程。

这种范式转变，说白了就是此前的大模型处于初级阶段，通过天然数据来预测下一个词。而o1在经过初级阶段训练后，已经开始自己给自己出题，然后AI自己生成全新的数据，通过这种方式去创造出来很多数据，最终实现自我学习和进化。

总结一下就是，之前的GPT是用人类积累的数据喂出来的，但这些数据已经用完了，而o系列是人工智能自己在造新数据。

这事儿还挺让人震惊的，因为我们都看到过国内一些大模型连人类数据还没有用好，而第二阶段如果贸然进场，很难想象AI能生成出什么牛鬼蛇神。

国际学术期刊《自然》发表的一篇计算机科学论文指出，用AI生成的数据集训练未来几代机器学习模型可能会污染它们的输出，这个概念称为“模型崩溃”。由于模型是在被污染的数据上训练出来，最终会误解现实。

不过从o1非常能打，比GPT最强版本都强八、九倍这个结果来看，这条路径本身问题不大。而值得期待的是，国产大模型该加把劲跟上来了。

事实上，不仅仅是杨植麟关注o1，在昨天的云栖大会上，阶跃星辰创始人姜大昕以及清华大学人工智能研究院副院长、生数科技首席科学家朱军也都在讨论。

其实，GTP刚出来的时候，国内就炸了，可以说给一众AI厂商指了条明路。现在o1可以说又把新的路子给淌出来了，接下来就该看国产AI大模型的精彩表演了！可以预见，未来2-3年又是一场硬仗。

http://mp.weixin.qq.com/s?__biz=Mzg5Njc3MDAwMQ==&mid=2247484344&idx=1&sn=1ce536699b74685c0074907c313537bf

数字进化岛

洞察科技产业，透视全球真相。

最新文章

百度Q3净利润增长17%超预期，为啥美股港股双双下跌？

强烈建议麦琳和李行亮锁死，谁也别出来祸害别人

胖东来和钟睒睒，请你们大胆说下去

AI让人类去死，是产生了自我意识？别太天真了

不要被钟睒睒给骗了

何同学早就该翻车了

华为云双11强调价值战：华为云是打不起价格战吗？

惊！腾讯混元大模型技术负责人刘威离职，离职潮席卷“大厂”？

OpenAI o1模型炸场两个月后，Kimi对标发布国产最强新模型

刚刚！腾讯低调推出AI搜索产品ima，最大的亮点不是能搜公众号

奉劝百度，不要企图用非共识言论惊爆市场

李开复对AI为何频频指点江山？

美国OpenAI慢了！国产大模型正在海外大杀四方

突发！Kimi创始人被多家前投资方申请仲裁，国产大模型不被资本看好了？

特朗普上台，中美AI走进大爆发前夜

全网老公崩溃？八个瑞士卷怎么分？我问了问国产AI TOP10：这个AI一个都不给老婆分

“男老师造假，毁了女学生，姜萍也是受害者”

中美大模型如何追赶？李开复：缩小中美大模型差距其实很难

禁令落地！刚刚，美国宣布2025年起限制对华AI投资，香港和澳门也不例外

雷军七天骂翻全网？那个让雷军不得不回应的AI配音，究竟是怎么做出来的？

开源世界天塌了！因为美国政府制裁，Linux 内核就“清洗”了11名俄罗斯开发者

美国AI像人一样用电脑，中国AI像人一样用手机：是划时代还是伪需求？

一个美国AI大模型，让14岁男孩决定去死

重大转折！融资千万的AI公司被OPPO收购，95后创始人携核心团队集体入职

最新！美国限制对中国AI投资的规定，将在一周内发布：想要杀死国产大模型？

京东这次翻车，和百度如出一辙

百度为啥不做Sora类的视频生成？李彦宏：10年、20年都可能难以商业化应用

李开复谈中美大模型差距：很多美国朋友都认为中国会远远落后

惊了！损失超千万美元？字节大模型整个GPU集群被实习生病毒攻击，两个月的训练结果都是错的

封死最后合规渠道！微软Azure OpenAI突然终止中国个人服务，国内套壳大模型无路可走？

太蠢了！四川2.15万亿拆迁项目竟然是用 AI 生成的

见证历史！国产大模型首次在公开榜单上超过GPT-4o

百度网盘安全漏洞！女用户隐私照片被泄露，陌生男子：比我还色

烧钱结束？多家国产大模型公司放弃预训练，技术转向不丢人！

一文读懂国庆后股市行情和操作指南

官方确定三只羊录音是 AI 合成，人们为啥不相信？

估值万亿、清除异己！美国最强AI公司成功集权，OpenAI CEO奥特曼成最大赢家

会说中文，讨好中国？预告4个月后，ChatGPT终于上线了语音功能

数字铁幕！美国禁止联网汽车使用中国研发软件，《纽约时报》都看不下去了

ChatGPT 之父罕见发长文说不要怕AI，为什么国内网友反而更害怕了？

当AI学会了自我批评

蚂蚁吞大象？高通被爆将收购英特尔，或成史上最大科技并购

Kimi创始人杨植麟说出行业真相：全球人类数据都已经被AI学完了……

百度AI，骑虎难下？

阿里云新加坡大火烧了30小时，20年后也不能恢复？

突发！阿里云盘 bug 能看别人隐私照片，甚至不知道事故发生了多久…

打脸！美国OpenAI发布最新模型，李彦宏的十年预判现在就错了？

还有15项异常！阿里云电池爆炸机房着火，为啥导致字节跳动服务严重中断？

再升级！美国要求先进AI公司报告模型训练情况：防止中国使用美国最先进技术

阿里云新加坡节点突发火灾，客户业务为什么没有自动迁移？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉