2024营销科学大会上,前红杉资本投资人、拾象CEO 李广密 发表题为《寻找 AI 大周期的 Alpha》的演讲。最近一年他全身心投入在大模型领域,时刻关注全球AI大模型策源地—硅谷的最新动态,总结了7个关键判断和2个重点领域,在演讲中与大家分享。
下文为演讲全文实录。
李广密 前红杉资本投资人、拾象CEO
今天我将从硅谷的视角出发,分享一些我认为值得关注的观点和收获。从通用人工智能(AGI)的7个关键判读,以及2个值得关注的领域入手,希望能够帮助大家更好地理解AGI的发展前景,并把握其中机会。
判断一
AGI 是什么?
关于AGI,我们需要先有一个共识——AGI不是一蹴而就,AI能力是一个“渐进式解锁”的过程。
对AGI的理解因人而异,但有一个解读令我印象深刻:未来的AGI将能够在90%的行业中,实现90%的专家所能完成的90%经济价值工作。虽然我们无法精确预测其实现的时间点——无论是两到三年、三到五年还是十年——但具体的时间框架并不是最重要的。重要的是,这代表了人类科学探索的一个明确方向。
在过去的两年中,AI的能力提升速度极为迅猛。随着ChatGPT发布接近两周年,智能模型的进步速度已经远远超过了人类百年的进化。我相信,未来两年的进展速度将比过去更快,甚至可能会持续加速,这是一个我们不能忽视的趋势。
同时,我们也该认识到,智能和AGI不仅是商业议题,也关乎科研探索。长远来看,基于电力和芯片制造的智能体,有潜力创造出数十亿的“新人类”,与拥有碳基生命的人类相比,这些智能体在成长和生产力输出方面有着无限的进步空间,并且能够根据需求进行调整。以往无法解决的问题,现在可以通过智能化手段得到解决,甚至还有科学问题,这是值得我们深思的现象。
AI的商业化道路还在探索中。目前,从投资的视角来看,AI模型的训练成本相当高昂,可能需要数十亿人民币的资金投入。然而,按照用户数量来计算,其带来的收入可能只有数亿人民币,这样的投入产出比并不理想,说明AI的商业模式还未成熟。我们期待未来能够出现一种基于结果付费的商业模式。这种模式的核心在于如何准确衡量AI带来的成果。例如,如果一个智能体在一个月内创造了1万美元的额外价值,我们应该如何准确衡量这笔增量?同样,AI对人类生产力的提升又该如何量化?这些都是我们需要解决的关键问题,以便更好地评估AI的商业价值并推动其发展。
判断二
AI 是未来 15 年全球增长的最强拉动力
在未来15年内,全球GDP预计将实现从100万亿美元到200万亿美元的增长,这一预测被广泛认为是合理的。历史已经证明,科技的进步,如电灯的发明和机械化的实现,极大地推动了社会发展,使得人类能够在夜间工作,并且将90%的农业人口转变为其他职业,从而解决了食物短缺的问题。在许多层面上,科技的发展不仅提高了生产效率,还创造了大量的人力资源。
目前,生成式AI在文案创作方面的能力已经超过了大多数人。全球约有10亿文字和知识工作者,预计AI在未来取代人类工作的可能性非常高。如果AI在生成式AI中的参与度从0.1%逐步增加到90%,这将是一个渐进的过程。这表明,AI将成为未来全球经济增长的关键驱动力。
判断三
LLM(大语言模型)还处于大基建初期
尽管生成式AI的浪潮已经兴起两年,但目前仍然处于基础设施建设的初期阶段。两年前,业界普遍期待应用领域的大规模爆发,然而这一预期至今尚未实现。其中一个主要原因是现有的算法能力有限,未能真正取代人类劳动或显著提高工作效率。
图形处理单元(GPU)的成本仍然高昂,随着训练规模的扩大,相应的成本也在持续增加。
回顾2024年,全球用于GPU计算的资源仅有2亿,这在全球范围内仅相当于2分钟的计算时间。而我们在手机应用和短视频等领域的需求远远超过了这2分钟,GPU的计算资源供给严重不足。因此,尽管目前的商业模式尚未成熟,但仍值得期待其未来的发展潜力。
电商业繁荣是因为公路建设和物流设施的完善,短视频行业发展是因为有4G/5G基站的大规模建设,同理,没有完善的基础设施,AI应用的大规模爆发就很难实现。当前所处的热潮,正吸引各方在算法算力大力投入的阶段,也是大基建的早期阶段。
判断四
AGI基建是工程问题,
通过投入资金和时间可以解决
在讨论模型训练或智能探索时,我们面对的是科学问题,而当我们讨论基础设施时,我们实际上是在处理工程问题。“万卡集群”已然成为这一轮大模型基建竞赛的标配,在多方面都提出了挑战,比如运维挑战,,比如成本问题。目前,一张H100裸卡的价格约为2.5万美元,还需加上数千美元的互联设备费用,并需额外准备20%的备货,以及每年20%的电费。这些成本加起来,远高于我们的预期。以训练GPT-4为例,即使是领先的团队OpenAI,也需要8000张H100卡,每张卡每年的费用为3万美元,总成本高达两到三亿美元,这仍然是一个相对较高的数字。
智能背后可能是算力的支撑,如果投入足够的资金和时间,那这些问题可能都可以解决,从而无限制造智能体,但当某个区域拥有了超级智能,可能会再次引发地区间的不平衡。最近诺贝尔奖的颁发也是一个信号,表明物理和化学的本质是计算。我有预感,当未来的计算资源足够充分时,可能会产生人类的新知识,这是一个非常有意思的事情。
判断五
AGI能力是渐进式解锁的
这一关键判断指出,人工通用智能(AGI)的能力并非一蹴而就,而是需要经历一个逐步发展的过程。我们目前的大基建和科学探索都是为了未来AGI的成熟做准备。我们不禁要思考,五年后的AGI将会达到怎样的水平?
将AGI的发展比喻为攀登山峰的过程,在攀登的过程中我们不断设定并实现一系列的目标。因此,理解模型的能力、技术的边界,并确定哪些应用可以落地,是至关重要的。一位曾参与ChatGPT训练的专家指出,当前模型在信息检索方面的能力尤为突出。这一观点提供了重要的启发。我们最初预期GPT-4能够胜任许多任务,但当前一个特别重要的应用是,它能够帮助我们搜索并总结复杂的信息。
今年还有一个显著的例子。几个月前,AI生成代码的能力仅限于几行,但某编程工具发布后能力提升到了数百行,未来可能进一步扩展到上千行。我认为,这一时间点标志着我们开始考虑强化学习(RL)的概念,它可能很快就会成为现实,尤其是随着OpenAI-o1模型的推出。该模型即使在不知道答案的情况下,也能够进行反复推理和搜索。如果没有可用的工具,它甚至能够自己编写代码。只要能够明确方向,强化学习模型将变得非常有趣。因此,理解模型进步的能力边界,是一件非常有意义的事情。
判断六
RL 下半场:OpenAI的优势如何持续?
在过去的一年中,我一直在思考一个问题:OpenAI的优势是在扩大还是在逐渐被追平?目前,这个问题仍然没有明确的答案,它的答案取决于OpenAI自身的进步速度。如果OpenAI能够持续快速进步,那么其他竞争者将难以追赶。然而,如果科学探索的速度放缓,那么其他竞争者将有机会迎头赶上。目前,主流模型的参数规模在600亿到700亿之间,即使将模型参数扩大到2-3万亿,短期内的收益也并不会显著提高,这表明在短期内,大规模参数模型遇到了一些挑战。
此外,数据问题也日益凸显。一个明确的信号是,互联网上的现有人类数据对模型的提升作用不再明显,因为在许多情况下,模型已经比人类更聪明。目前,一线模型公司能够用于训练的文本数据大约在20万亿字节左右,而新数据的获取有限,很难将数据规模扩大到50-100万亿字节。因此,我们需要新的方法来突破数据瓶颈。在Nvidia B系列GPU被规模化采用之前,计算能力基本上不会有数量级的提升,这是一个不利的信号。
然而,一个新的范式已经出现,即OpenAI提出的强化学习(RL)系列。强化学习(Reinforcement Learning,简称RL)是新的扩展法则。通过自我对弈的方法提升模型的逻辑推理能力,将是未来最重要的范式。在强化学习的路线下,模型在代码和数学能力方面将有大幅度的提升。
判断七
新的 Scaling Law 是什么?
强化学习(RL)的引入意味着模型的转变,从“超级智能”向“超级有用”的方向发展。模型训练的范式正在从依赖大规模数据和计算资源的预训练(Pre-training)转向更加注重后期训练(Post-training)的方法。这本质上是一种将训练时间转换为推理时间(Inference time)的策略。
以考试为例来解释强化学习的概念
以前:
遇到问题,可能会用类似ChatGPT的方式进行即时口算,要求在一分钟内给出答案,这需要长时间的学习和准备。
现在
如果我们有更多的时间,一张草稿纸,甚至未来可能提供教科书,或者更长时间来学习一门新的语言,如西班牙语,并有教师指导,那么我们可以解决的问题类型和数量将大大增加。
这种变化使得我们的解题能力有了显著的提升。过去,为了准备一次考试,可能需要十年的苦读;而现在,我们可以应对更多种类的问题。这是对强化学习以及其对模型能力提升的简单理解,但前提是基础模型必须足够强大,否则探索的空间将非常有限。AI背后的搜索能力仍然是关键,它需要足够广泛和深入,以识别出有效的信号。至于RL系列模型的潜力上限在哪里,我们目前还不清楚,这仍然是一个需要时间探索的科学问题。
接下来讨论两个重点值得关注的赛道。
赛道一
AI Coding:
编程民主化带来的任务引擎 (Task Engine)
AI编程被认为是即将到来的、具有谷歌级别影响力的创新。谷歌作为信息搜索领域的先驱,而我们未来期待的是任务引擎的崛起。想象一下,未来将出现一个任务容器,它能够容纳并组织我们大量的任务,让我们可以方便地调用和执行这些任务。
编程如此重要,是因为它提供了高度的确定性。在过去,企业软件的开发通常由大型团队负责,他们能够明确定义需求。然而,企业和个人还有90%的长尾需求尚未被明确定义。未来,我们可能会拥有一个任务容器,它不仅能够存储我们的所有任务,而且不必立即完成,甚至可以运行一周或一个月。
在这种模式下,我的角色更像是教练,而AI则像运动员一样执行任务。预计在未来两年内,编程领域将取得特别快速的进步。
赛道二
全模态:
理解和生成带来World Simulator
多模态技术目前正处于快速发展阶段,尽管视频生成技术相比文本和图像模型来说成熟度较低,但整体进展和技术路线的融合速度正在加快。在推理环节,GPU的需求甚至超过了训练环节。
最后一个赛道是全模态。在未来的6到12个月内,我们将看到一种基于Transformer模型的全模态进展,它能够处理文本、图像和视频直播。这背后的意义在于,AI的学习效率和理解能力将显著高于今年仅基于文本的模式。对于营销行业来说,这可能带来巨大的助益。视频生成在过去一年中取得了快速进步,OpenAI发布Sora后为行业指明了方向,大家都在这条路上快速发展。尽管目前视频生成的一致性和可控性还有待提高,但可以预期在未来的12到24个月内,进步速度将非常陡峭。有可能在6个月内,我们就能生成10到20分钟的视频,且逻辑性和一致性较好。目前,像Sora这样的模型参数还相对较小,基本上在5到10亿之间,但现在一线公司如谷歌、字节跳动等都在尝试更大参数的模型,可能在15亿到30亿参数之间,这一领域的进步显而易见。
全模态统一架构对人类的意义重大。例如,如果在苹果园里放置一个摄像头,观察苹果凋落一万次,我们可能像牛顿发现万有引力定律一样总结出规律。如果有1亿人佩戴类似Mate眼镜的设备,将会有更多的规律被总结出来。虽然一个摄像头在苹果园里总结出万有引力定律的可能性不大,但还是有机会的。大家对未来两年智能提升和进步速度的预期可能会超出想象。我们应该积极拥抱新的范式,积极拥抱新时代的到来。
更多嘉宾演讲实录持续推送,
敬请期待~
相关阅读
明略科技赵洁:解锁户外媒体价值,形成品牌营销全域共振
蒙牛集团副总裁、首席数智官李琤洁:新质生产力构建的蒙牛经验
分众传媒创始人江南春:存量时代的突围