怎么理解Ilya说的“AI放缓了”

文摘 2024-11-13 18:10 上海

梳理下时间线，The Information周日文章说Pre-Train模型的预训练“撞墙”了，昨天ilya接受路透采访，说了同样的话，原文如下：

The Information口碑参差不齐，但ilya也这么说，一石激起千层浪。

实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利，8月份开始流传“LLM语言模型预训练放缓，RL强化学习Post train优先级提高”，但前半句被当成“华人圈小作文”，觉得北美如火如荼，大家都在搞10万卡20万卡，预训练并没有停。这期间扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来，Sam Altman甚至提出预训练scaling+推理scaling，双发动机。

到今天有结论了吗？个人觉得80%的可能Pre-Train预训练已经撞墙了，但并不是原理上，毕竟scaling law是个经验性定律，和摩尔定律一样，没到做出来你也不知道证伪与否，但：

经济上，投入产出比的问题。假如你拿到10万卡，即20-30亿美金的预算，每个月的沉没成本是1亿美金，你会用在哪里？Pre-train、RL post train、inference，还是探索出其他新的scaling方法？假如你在有限资源情况下， research上有新的发现，同样1亿美金/月的成本，能获得模型能力上更大边际提升，自然而然会降低pre-train的投入权重。就比如目前OpenAI在post-train上的算力分配已经超过了一半，这是个重要信号。
工程实践上，难度太大。10万卡的互联就很难，何况20万卡、100万卡，crush多到爆炸...以及的确数据如果搞到几十T，多模态数据边际效用降低等等

但这只是ilya说的前半句，后半句是：现在的关键，是找到在什么地方去scaling。什么意思？预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下，scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”，未来到底去scale什么因子？（显然不止是上面所说的这些）

我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们，是在误导对手，往沟里带。但另一些人，已经透露出了些端倪，比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型，依然只是个“原材料”、“基座”，基于此再去实现更好的智能和应用，还有很多后续配方...

对算力的影响？

scale，本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒，只是去“点”哪里的问题。因此算力还是离不开，只是把算力以什么方式、用在什么地方
超大集群真不一定需要，分布式集群也可以（老黄BG2亲口盖章）。但总量会越来越大
英伟达定义的Rack、超节点、superchip，依然需要。为什么？请参考之前文章英伟达下一个“大杀器”
训练上，GPU依然是最优选择。经过这件事，更加说明目前处于early stage早期阶段，算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高
推理上，GPU的壁垒，说实话我现在看不清，已经来回摇摆过多次。包括端侧，因为搞不清楚未来端侧推理多少比例也会上云（所谓隐私那部分其实很小很小）

对应用的影响？

我倾向于乐观。Ilya既然这么说，说明他的新公司SSI已经找到了方法、方向。不然创什么业啊...而让我乐观的另一个原因，是我认识一位华人AI创业的朋友，之前一直水下非常低调。但他们很早就All in RL（不是传统RL，也不是post train RL），大概1年前就告诉我“自回归这条路已经走到头了”，当时觉得也太激进了...到今天大家才回过神。但从这位朋友公司的进展来说，AI的发展尤其是research根本没有放缓，而是看到了更多可能性。

因此总结来说，乐观一点。自回归不代表AI的全部，OpenAI也不代表AI的全部，老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了。为台积电节省了10亿美金的“计算光刻”、Palantir的AI产品AIP、Applovin的AXON，哪个是现在大火的LLM？都不是，但他们都是AI，且都在买GPU，都在scaling。因此pre train放缓不代表AI停滞了，已经停不下来了...

星球推出新专栏——《AI应用日报》，跟踪扫描AI应用会是以后非常重要且日常的工作。从现在开始慢慢积累。

http://mp.weixin.qq.com/s?__biz=MzkyMTU4OTE2OA==&mid=2247489443&idx=1&sn=62d8a24530f0818904671b899f8f74e2

信息平权

理性客观朴素

最新文章

怎么看长存长鑫

企业AI应用报告

英伟达：Q4 B收入比预想更多

干货：北美CSP专家纪要

Vertiv +14%历史新高

轧空

业绩前的鬼故事

“格局”打开

如何看AI应用？

下周英伟达业绩怎么看

超微快跌没了...

怎么理解Ilya说的“AI放缓了”

AI交易还没完

聊下BTC新高

制裁？送钱

聊聊台积电这件事

都新高了

两天涨40%的票，多还是空？

特朗普当选对市场的几个关键影响

跑光了？好事啊

明年的AI资本开支有多少？

下周最重要的

应该稳了？

一些交易想法

超微电脑爆大雷-30%

谷歌、康宁大超预期

比特币新高和Trump trade

最重要的一周

CPO和OIO的时间表

刚刚发布的AutoGLM原理

为什么涨这么多

特斯拉大超预期+12%

安费诺超预期+5%

一夜之间，都讲Agent

2 件小事

英伟达新高

芯片ETF：中国版的“Gamma Squeeze”

英伟达的CPO是什么

“放手一搏”

台积电毛利率会新高

AI不背锅

ASML带崩

新高 vs 砍单

复盘本轮铜缆暴涨

GPU泡沫破裂了吗？

英伟达下一个“大杀器”

英伟达突破区间新高的可能

高盛成了牛市旗手...

Everything, Everything

如何理解OpenAI o1

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉