如果你对人工智能的未来感到好奇,那么Alexander Wang的这场演讲不容错过。作为Scale AI的创始人兼CEO,他不仅梳理了AI技术的过去、现在和未来,还以超前的视角点明了通往超级智能的四大关键挑战。
从2012年AlexNet的诞生,到2024年即将进入的“创新阶段”,Wang清晰地将AI发展划分为三个阶段,并强调了从规模化到创新所需要的技术突破。他指出,算力、数据和算法是推动AI发展的三大支柱,而突破“数据墙”、优化评估体系、打造真正自主的智能体,都是迈向超级智能的关键。
目录
1、AI的三大支柱:算力、数据、算法
2、技术的三个阶段:从研究到创新
3、四大挑战:通往超级智能的障碍
4、未来展望:AI将如何改变世界?
这是我和Nat第二年主持这场峰会了。感谢各位的莅临,特别是再次光临的老朋友们。本次会议的开场,我想简要介绍一下我们目前所处的阶段。我们把这次峰会命名为“暴风雨前的宁静”,因为对许多AI行业内的人来说,我们正处于AGI(通用人工智能)或超级智能(无论你怎么称呼它)的风口浪尖,这一点显而易见。这项技术日新月异,进步神速。因此,我们想借此机会稍作总结,然后再深入探讨各个主题。
我来自洛斯阿拉莫斯,我的父母都是洛斯阿拉莫斯国家实验室的武器科学家。我认为,原子弹项目是上一个与当前这波技术浪潮有着诸多相似之处的重大项目。它代表着非常先进的技术,其可行性在当时也是未知数。在取得最终成功之前,一切都是推测性的。原子弹对国家安全和地缘政治有着极其重要的影响,而且它出现的时期,地缘政治局势也正迅速恶化。它引发了许多关键的伦理问题,坦率地说,也引发了关于人工智能这项技术的许多重大问题。
我回顾了曼哈顿计划的科学家们的一些话,其中奥本海默的两句话让我印象深刻:科学中的深奥之处不在于其有用性,而在于其可发现性。当你看到技术上的绝妙之处时,你会去做,并在取得技术成功后再考虑如何处理它。原子弹就是这样诞生的。
我认为,当我们思考当今的人工智能时,这两句话尤其振聋发聩。我们稍后会讨论这个问题,但如果你回顾现代人工智能的历史,最初的深度神经网络,当时人们并不知道它最终会发展成如此强大的AI系统。
AI的三大支柱
算力、数据、算法
尽管关于AI安全有很多讨论,但我们已经走到今天这一步,我们正处于这项无比强大的技术的风口浪尖,而关于如何正确驾驭它,还有许多悬而未决的问题。为了更好地理解,让我们先回顾一下人工智能这项技术的全貌。虽然在座的很多人都了解,但AI主要由三个支柱构成:算力、数据和算法。这三个支柱共同推动了我们所看到的AI进步。AI技术的一大优势在于,它比其他主要技术(如核聚变等)更不容易遇到瓶颈。这三个支柱中的任何一个取得进展,都会推动AI技术的进步。更多的算力,数据创新,算法创新,都会推动AI发展。我认为GPT-3就是最好的例子。一段时间以来,算力发展相对停滞,但算法的进步带来了模型性能的显著提升。这种三个支柱共同推动技术进步的模式,我认为是AI未来一片光明的原因之一。而且新模型的出现速度也快得惊人,说实话,很难跟上。我们做的部分工作是评估新模型,而要跟上所有语言模型的更新迭代非常困难。
技术的三个阶段
从研究到创新
2012年出现了第一个真正意义上的大规模深度神经网络——AlexNet,它被用于训练ImageNet。以今天的标准来看,2012年到2018年那段日子简直田园牧歌。偶尔会出现一个大型模型,然后大家去参加会议讨论它。现在,两次会议之间就会出现20个模型,各种优秀的开源模型、多模态模型、图像模型、视频模型和推理模型层出不穷。
我喜欢将现代人工智能时代大致分为三个主要阶段。第一个阶段是研究阶段,大致是从2012年到2018年。从第一个深度神经网络AlexNet(主要用于基本的图像识别)开始,到第一个GPT模型出现。在那个时代,AI只能告诉你YouTube视频里有没有猫,但这已经是一个非常强大的功能了。
Transformer和第一个GPT模型由OpenAI的Alec Radford训练,开启了下一个阶段——规模化阶段。因此,前六年(2012年至2018年)是研究阶段,然后2018年至2024年,也就是直到今天,是规模化阶段。在此期间,用于训练这些模型的资源增长了1万多倍。今年,用于训练这些模型的总投入约为2000亿美元,这带来了性能的巨大提升。我们已经从平平无奇的GPT-1发展到在数学和计算机科学方面达到博士水平的GPT-4。
我认为GPT-4开启了我们称之为创新时代的新阶段,它将持续到超级智能出现。我们拭目以待,看看这个阶段是六年还是更短。我认为这里的标志是,我们现在在模型上花费了2000亿美元,我们可能无法再花费更多,比如20万亿美元。所以在数量级上,规模化的空间有限。
因此,我们需要相应的创新来配合。先进的推理和测试时算力是其中之一,我们认为可能还有其他一些创新,它们将带领我们走向超级智能。我认为Scale非常荣幸能够推动许多不可思议的进步。在计算机视觉和图像识别的时代,我们很自豪能与许多大型自动驾驶汽车项目合作,现在Waymo的Alpha自动驾驶汽车已经在旧金山的街道上行驶,这是一个伟大的里程碑。显然,我们也与OpenAI和许多实验室合作,参与了这些模型的整个发展过程,从最初在GPT-2上的RHF实验,一直到今天功能强大的推理模型或生成模型等等。
随着这一切的发生,我们看到另外两个关键趋势。首先是加强对这些模型进行测试和评估的重要性。我们在白宫的支持下,在Defcon对这些模型进行了首次公开的红队测试,我们还继续与国防部密切合作,测试这些模型,并启动了CL来对这些模型进行公开测试。我们也看到企业和政府部门大量采用这些模型,我们将在整个会议期间讨论这个问题。
四大挑战
通往超级智能的障碍
展望未来,更具体地说,我们认为通往超级智能之路面临四大挑战。我们将像BuzzFeed的清单一样逐一介绍。
第一个挑战是数据墙。这在六个月前可能是个热门话题,但它是一个真实的问题。基本上,我们最终会用完所有可公开获得的数据来训练这些模型。Epic AI估计,这个时间点可能是2027年到2030年。如果你和其他人聊聊,他们会说比这更早。那么我们将如何应对呢?好消息是,我们有办法。我们认为有几个主要的解决方案。
我认为,突破数据墙的关键在于前沿数据,这是一个包罗万象的主题,包括各种形式的合成数据以及更高级的数据类型。我们有更高的样本效率来学习更高级的概念,如推理、多模态、智能体数据,具身AI将是一个重要的领域,我们稍后会讨论,以及企业数据。目前,绝大多数数据仍然是私有的和专有的,受到保护。GPT-4的训练数据集大约是半个PB。摩根大通的专有数据集,他们拥有的所有数据超过150PB。这只是众多企业中的一个。还有大量数据尚未用于任何主要的训练。
我们看到的第二个挑战是关于评估。这是AI领域的人经常讨论,但其他人并不真正理解其重要性的问题。评估就像尺子,是衡量这些模型进展的标准。现在,评估既存在过拟合问题,也存在饱和问题。过拟合是指它们有点被“游戏化”了;饱和是指模型在所有评估中都已经表现得非常好,这两个都是大问题。它们可能会导致研究更加漫无目的。因此,建立正确的评估标准至关重要。我们有一项名为GSM 1k的研究成果,我们发现许多模型实际上对一些开源评估存在明显的过拟合。所以这是一个大问题。
如果我们没有这个,就很难衡量进展。另一个问题是基准测试正在饱和。在过去几年里,如果你看一下MLU数学、GPQA,即使是这些模型似乎也停滞不前了。这不是因为模型没有变得更好,而是因为评估不够难。所以我们正处于一个临界点,模型变得非常好,我们需要更难的评估来衡量通往超级智能或更高级智能的道路。
所以在Scale,我们做了两件事。首先,我们与人工智能安全中心(Center for AI Safety)的Dan Hendricks合作,开发了一个名为“人类最后一次考试”(Humanity's Last Exam)的评估。我们正在从各个研究领域收集超级难的研究问题,以创建人类有史以来最难的考试。我们认为,如果这个考试被攻克,如果它也饱和了,我们可能就拥有了AGI。所以,我们可以期待一下。然后我们也构建了所有这些共同评估,即私有的专家评估,以便能够测试这些模型的全部功能。在这个领域,我们明确地希望与在座的各位尽可能多地合作,共同规划如何衡量这些模型的超级高级能力。
第三个挑战是,尽管每个人都在谈论智能体,但它们还没有真正到来,而且不可靠。我们看到这些自主AI智能体与我们在自动驾驶汽车中看到的L1到L5的进展之间存在非常强的相似性,我们认为这实际上非常贴切。L1可能只是一个聊天机器人。L2是一个助手,你可以向它寻求各种帮助。然后我们正在规划这条道路,我认为从L3到L5的自主性是一条有趣的道路。L3智能体自主性可能是指可以用于离散工作流程部分的智能体。所以你可以开始使用它们,就像你可以开始依赖的东西一样。L4自主性可能会颠倒过来,你有自主的智能体,当它们需要人类帮助时,它们会向你寻求帮助。所以它更像是一种远程操作模式。然后L5是,我们都可以去度假,出去玩。这条道路在L3和L5之间更加离散,我们认为区分它们更加重要。
但你知道,这就是他们所走的道路。我们认为在这方面有一些必要的东西,或者说是前进的道路。
首先,就是在各个领域进行推理。我们认为,这些模型的先进推理能力基本上可以在所有领域发挥作用。现在它们在数学和物理方面表现得很好,它们将在所有地方发挥作用。这将是巨大的经济价值的驱动因素。因此,每个领域都将拥有先进的推理能力。
我们认为真正重要的第二件事是智能体脚手架,以及智能体的远程操作基础设施。这是我们在Scale真正关注的事情,那就是,在未来,当你拥有这些可以做大多数事情但会卡住的智能体时,它们将如何与人类互动?它们将如何向上级人类求助?我认为,在未来,我们大多数人将只是AI智能体的远程操作员,而不是其他任何东西,这并不夸张。所以这是技术路径中的一个关键步骤。然后,主要的还是更好的强化学习和新的数据类型,以最终推动智能体作为这些模型的核心能力。
第四个挑战,我真的不是谈论这个问题的最佳人选。我将非常简短地谈谈。显然,芯片和能源是一个很大的瓶颈。我认为,在未来五年内,为这些数据中心提供动力所需的电力保守估计为100吉瓦。我们将有很多人谈论这个问题,所以也许这个数字相差很大。但这大约相当于20个芝加哥的能源消耗,也就是数万亿美元的资本支出。
AI将如何改变世界?
最后,我想谈谈我们对未来的一些展望,或者说只是一些让人兴奋的事情。我认为首先是具身AI和机器人。我认为埃隆的活动很酷。所以我认为,很明显,将有一条通往能够完成世界上许多手动任务的机器人的道路。长远思考,或者更确切地说,就是让这些模型思考很长时间来解决极其困难的问题的能力。模型可以思考几年,然后解决癌症,治愈癌症,或者解决千年难题。这让人非常兴奋。
然后,我认为,我们将通过新的MLE基准评估看到,但可能即将出现的是AI研究员智能体。也就是能够像AI研究员一样工作的模型。谁知道这还有多少年,但这将是我们看到的第一个真正的自我改进形式,这在这些模型的开发生命周期中将是一个很大的进步。所以我们总结一下,未来将出现这些非常令人兴奋的技术里程碑,对人类来说有很多令人兴奋的优势,以及实现这一目标的道路。
关注《森林聊AI商业》公众号
了解 AI 如何塑造商业的未来