前两天,36氪旗下的一个公众号《智能涌现》爆出了一个大消息,整个国产AI圈儿都不淡定了。
据《智能涌现》了解,被称为“AI六小虎”的6家中国大模型独角兽(智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰)中,已经有两家逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用。
当时,《智能涌现》并没有在文章中说明到底是哪两家要放弃预训练模型。后来,有媒体跟进,猜测很可能是百川智能和零一万物。理由也很简单,其他四家最近动作频频,但是百川智能和零一万物在预训练大模型方面没啥更新。
智谱与MiniMax发布了视频模型,月之暗面发布大模型版本更新,阶跃星辰发布了万亿参数大模型。所以,人们怀疑百川智能和零一万物,就是媒体报道的已停止预训练的两家企业。
很快,这两家企业就发声否认了这件事儿。其中,零一万物创始人李开复10月11日晚上在朋友圈发文说,零一万物一直在做预训练,去年和今年发布的Yi-34B、Yi-Large、Yi-Coder、Yi- VL、Yi-Vision都是发布时全球第一梯队,国内领先的预训练模型。
而且零一万物的新预训练模型也即将推出。
其实,在此之前百度也有类似的传闻。9月的时候,有个帖子火了:“百度大概率将放弃通用基础大模型研发,(又是起了个大早赶了个晚集?)李彦宏最近和内部明晰了主要做应用的战略,百度在模型层实在卷不动了。”
随后,百度文心一言的市场部负责人张全文在朋友圈辟谣,“所谓‘放弃通用大模型研发’纯属谣言!文心一言刚完成了功能全面升级。我们将持续加大在通用大模型领域的研发投入。”
行业不会空穴来风。如果只是一个企业,一个消息,那可能就是造谣。但是涉及三家企业,且集中在九月和十月,基本可以判定,大模型这个行业已经走到了一个转折点——所有国产大模型玩家都要重新审视公司战略问题了——要AI大模型,还是要AI应用。
第一,预训练大模型成本太高,现在看已经有人开始烧不动钱了,后续还会有人掉队。
很早之前我就说过,预训练大模型投入成本太高,且即便做出来,也可能因为别人开源导致没有任何竞争力,无法商业化,最终一分钱都回不来。
以GPT-4为例,该模型的训练需要一万块英伟达A100芯片跑上11个月。假设每块A100的成本为10000美元(价格因供应商和购买数量而异),那么一万块A100的总成本约为1亿美元——
那就是7个多亿的人民币。
所以,投资人朱啸虎说过,中国不必在通用人工智能(AGI)上大肆投入资金,因为美国已经为我们试错探索了前行的道路,中国只需在其成功验证后跟进即可。
百度作为大厂确实资金储备方面要强不少。截至2024年6月30日,百度持有的现金、现金等价物、限制性现金和短期投资总值1620亿元。但是,并不是说这一千六百多亿都能完全投入AI,也不是说这些钱都能用。
第二,放弃预训练大模型,实际上就失去了这波AI大赛的主动权。
这么多AI企业为什么要疯狂追预训练大模型这个风口?因为预训练大模型是大模型应用的基础,这是AI核心中的核心,只有把这个核心做好,才能在竞争中拥有真正的话语权。
但是前面我说了,这个预训练大模型虽然是王炸,但是投入成本太高,所以对于很多初创企业来说,更符合商业利益的做法,其实是追AI应用。
在这点上,其实百度李彦宏说过很多次,甚至还在百度世界2023上发表了一篇题为《手把手教你做AI原生应用》的主题演讲。
第三,国外也有企业放弃预训练大模型,未来大模型玩家只有3-5家。
2024年8月,硅谷的明星AI企业、角色扮演类应用的典范Character.AI,宣布放弃预训练,转向与第三方模型合作。他们在官方博客中给出的理由是:这使我们能够投入更多资源进行后训练,并为不断增长的用户群体创造新的产品体验。
国产AI大模型现在其实也就是两条路。第一,继续压住预训练大模型,尤其是紧紧跟随OpenAI o1新模型,进行更有确定性的开发。第二条路,就是放弃预训练,转而AI应用落地,结合行业场景,实现商业闭环。
其实,这样的路径分野非常好。因为只有这样,才能真正实现百花齐放。在岛主看来,放弃预训练不丢人,真正丢人的是忽视自身实际情况,押宝押错了。