AI研究像半导体这种前沿行业,半导体领域有一年做架构、一年做制程的tick-tock研究模式。因此类比之下,AI也应该有1-2年做预训练(pre-train),1-2年做后训练(post-train)的规律。鉴于近期预训练方面没有突破AI的泡沫是不是要破了?
一年过去了,还没见到GPT-5,AI的泡沫是不是要破了?
到现在还没有看到大规模应用,AI的泡沫是不是要破了?
去硅谷问了一圈人,大家都很悲观,好像每家大公司的新模型都不成功,AI的泡沫是不是要破了?
首先要澄清,尽管国内在科创板的带动下,半导体行业受到了很大关注,国家和社会也投入了大量资源在半导体研发上,再加上自媒体经常宣称国产光刻机每周都有突破,可能很多人觉得半导体就是最前沿的研发了。但在国际上,半导体并不算是新兴行业,反而是个相对成熟、甚至可能逐渐夕阳的领域。摩尔定律是1960年代提出的,而tick-tock开发模式是在1990年代由英特尔("牙膏厂")确立的,中间相隔了30多年。对芯片历史感兴趣的同学可以看看《芯片战争》这本书。
回到目前的AI研究,Scaling Law(缩放法则)大约是在2019-2020年提出的,2022年ChatGPT问世后才被广泛认可。整个AI行业目前还处于蓬勃发展的早期阶段。预训练(Pre-train)和后训练(Post-train)并不是彼此独立的过程,而是紧密相连、相辅相成的。因此,认为现在专注于强化学习(RL)就不再做预训练的想法是不成立的。
如果要类比某个大家更熟悉的行业,我认为AI更像生物制药。前沿研究和商业回报高度相关,一旦研究取得突破,可以像创新药一样,带来数十亿甚至上百亿美元的收益。
若要更精确地类比,可以假设生物制药的临床前研究和临床研究可以在几个月甚至几天内完成,并且不需要FDA的审批。在强大算力的支持下,前沿研究的验证速度极快。如果有数万块显卡,反馈甚至可以在小时或分钟内完成并实现商业化。顶尖的天才在算力加持下,其个人能力会被放大数百乃至数千倍(因此建议所有想在AI领域取得突破的研究人员,一定要去拥有充足算力的地方)。然而,像所有研究一样,AI研究本身具有不确定性,仍需要时间积累(尽管算力的提升可以缩短时间)。从GPT-3到GPT-4的迭代用了大约2.5到3年时间,期待GPT-5在一年内推出,本身预期可能过高了。
此外,由于深度学习本质上是个“黑盒”,研究方法在很大程度上是试错的过程,这一点也类似于生物制药。因此,问一圈下来,听到很多失败的消息是很正常的,因为试错过程中失败本来就是不可避免的。
最后,AI本质是一次潜在的工业革命,是moonshot级别的创新。这一点可能也是国内比较难理解的,因为过去几十年国内一直在追赶,在后发,对于曼哈顿计划或者阿波罗计划,或者更早的50-60年代整个半导体早期发展没有直观的概念。按照欧美过去的科技发展经验,是可以接受百亿甚至千亿美金投入研发,来bet一个更大的社会回报。高社会财富可以支持高的研发投入,从而获得更高的回报。
总之,O1 Preview的发布为行业带来了新的方向,我们也会密切关注前沿研究的动向。
我们的新报告《特斯拉Robotaxi与FSD的Scaling Law》正在路演,再过半个月即将迎来特斯拉的10月10日Demo Day,欢迎联系久谦销售获取详细信息,或与我们进行咨询。
我们即将发售一篇报告,其内容是:
特斯拉Robotaxi与FSD的Scaling Law
尚有数篇报告正在调研中,其内容是:
AI客服的进展与影响:NICE、FIVN、NOW
AI咨询行业:PLTR、AI、ACN
ASIC调研与技术趋势
季度调研系列:META、MSFT、AMZN、AAPL、NVDA
在过去的五个月,我们已经发售了九篇报告:
算力需求场景测算
AI与GPU在META中的应用
微软Copilot进展、GenAI售卖场景以及如何影响公有云选择
北美算力租赁厂商近况及供需平衡情况
互联技术以及未来发展趋势
美国数据中心与电力情况
2Q24季度调研:META与MSFT
AI手机
草莓与前沿大模型进展
除了报告外,我们也承接定制化的投研需求。
对报告感兴趣,有定制化投研需求,或者对我们的日常调研纪要(每月超过50篇AI调研纪要)感兴趣的请联系下面的久谦销售同事,或者点击共识粉碎机底栏菜单页的投研服务:
OpenAI o1模型十问十答
NV大涨与RL自己的Scaling Law