深度 | Foundry创始人深入探讨GPU利用率现状和未来,创新提出闲置节点使用率提升新方法

文摘   2024-09-05 08:32   中国  

图片来源:No Priors

Z Highlights

  • Foundry旨在通过Spot GPU使用和先进的监控与弹性工具等创新,使最先进的AI计算资源更加可访问且具成本效益。由于GPU故障和需要预留缓冲区等因素,当前GPU云计算的利用率往往低于最佳水平,即使是大规模模型训练也是如此。继续扩大单一语言模型的规模需要指数级的计算资源,这促使人们探索诸如复合AI系统等替代方法。

  • AI基础设施的未来可能会从大规模互联集群转向更加分布式和可组合的方法,如复合AI系统。这些系统结合了多个模型和方法,有望在可验证的任务上实现高性能,而无需依赖大规模互联集群。Foundry CEO Jared Quincy Davis最近发表的论文探讨了设计复合AI系统的原则,利用问题的可验证性来指导多个模型调用的组合。

  • Foundry专注于提高Spot GPU使用的可用性和便利性,这是他们为改善AI工作负载云经济学提供的一项关键创新。Foundry旨在普及目前仅大型科技公司如OpenAI和DeepMind可用的计算资源和工具。

Foundry的使命和云产品

Sarah Guo: 大家好,欢迎来到No Priors。今天我们邀请到了Foundry的创始人兼CEO Jared Quincy Davis。Jared曾在DeepMind工作,并在斯坦福大学与Matei Zaharia一起攻读博士学位,然后他开始了通过Foundry协调计算资源的使命。我们很高兴能邀请他来谈论GPU和云计算的未来。欢迎你,Jared。

Jared Quincy Davis: 谢谢你,Sarah,很高兴见到你,也非常感谢邀请。

Sarah Guo: Foundry的使命直接与您在最近的研究以及在DeepMind中看到的一些问题有关。您能谈谈这个起源吗?

Jared Quincy Davis: 在我职业生涯中见过的最鼓舞人心的事件之一是AlphaFold 2的发布,还有ChatGPT的发布。AlphaFold 2特别值得注意的一点是,最初它是一个非常小的团队,最开始是3个人,后来大约有18个人。他们解决了一个在生物学领域被认为是多年挑战的问题,这真是非常了不起的事情,毕竟每个大学、每个制药公司都未能解决。而类似的情况也发生在ChatGPT上,当时OpenAI是一个只有400人的小团队,但他们发布了一个真正震撼全球商业格局的系统。这是非常了不起的事情,令人思考的是,怎样才能让这样的事件在世界上变得更加常见。

虽然这些事件非常惊人,特别是因为参与的人数很少,但我认为,它们并不是表面上看起来的那种“以小博大”的故事。比如在OpenAI的例子中,虽然他们只有400人,但他们拥有价值130亿美元的计算资源,这是一种非常庞大的计算规模。而在DeepMind的例子中,虽然团队规模较小,但显然他们在某种意义上是站在了巨人的肩膀上,利用了Google的资源和影响力。所以我们思考的一件事是,如何让目前只属于OpenAI和DeepMind的这种计算资源和工具可以对更广泛的人群开放?

这就是我们在Foundry所做的大部分工作。我们在考虑是否可以为AI工作负载构建一个专门的公共云,并从基础原理出发重新构想云计算的许多组成部分。通过这样做,能否让目前耗资十亿的项目,降到一亿甚至一千万,并随着时间的推移继续降低。这将是一个非常巨大的贡献,我认为它能将像AlphaFold 2这样的事件发生频率增加10倍、100倍,甚至更多。

我们已经开始看到这一现象的早期迹象,但要推进这个议程仍然有很大的空间。这真的很令人兴奋。这算是一个初步的介绍和前言,说明了我们的思考过程。如果需要,我可以进一步追溯这一推理线索,但这就是我们所做的部分工作。

Sarah Guo: Jared,对于那些还没听说过Foundry的人来说,Foundry的产品是什么?

Jared Quincy Davis: Foundry主要是一个专门为AI构建的公共云,我们尝试从基础原理出发,重新设计了支持云计算的所有系统,以适应AI工作负载。现有的主要公共云和一些新的GPU云在AI产品方面并没有真正重新构想这些东西。而通过重新思考这些问题,我们在一些情况下能够将经济效益提高12到20倍,相比低技术GPU云和现有的公共云都有显著提升。

我们今天要讨论的部分产品是基于这些理念开发的,我们也在开发许多新产品,我们认为可以将这种改进进一步推进。因此,我们的主要产品基本上是基础设施即服务(Infrastructure as a Service),客户来找我们是为了获取具有弹性且真正经济实惠的最先进系统的访问权限。我们还提供了许多工具,使这些系统的内存管理变得无缝且简单。我们在可靠性、安全性、弹性以及核心的性价比方面投入了大量精力。

GPU利用率与云计算的历史价值主张

Elad Gil: 现在大多数GPU云的利用率有多低?我认为这里可能有三种情况。一种是在AWS或Azure等超大规模计算平台上的情况,另一种是那些进行大规模模型训练或推理的人为自己运行的大型集群或云,还有一种是像其他一切一样,可能是一个爱好者、研究实验室,或者只是一些正在试验的GPU。我有点好奇,这些不同类型或类别的用户的可能利用率是多少?你认为它还能优化多少?是10%还是50%?我有点担心。

Jared Quincy Davis: 有一种利用率最高的情况,是你在运行端到端的预训练任务。这种情况下,你已经提前做了大量工作,指定了一个时间来运行这个预训练工作负载,并且你真的在尝试最大限度地利用它。但即使在这个阶段,很多公司的利用率也不到80%。为什么呢?

一个原因是,这些GPU,尤其是新款GPU,实际上故障率很高。正如黑客实践者所知道的。因此,这带来的一个后果是,现在很常见的是团队会预留10%到20%的GPU作为缓冲区,以防止故障发生,以便在出现问题时可以插入其他东西来保持训练工作负载的运行。所以,即使是在更复杂的组织中,大规模预训练的利用率也低于80%,有时甚至低于50%,这取决于他们的批次有多糟糕以及他们集群中的故障频率。所以即使在这种情况下,训练工作负载之间也通常会有很大的间隔和中断。

即使这些GPU是专门为某个实体预留的,也存在这种情况。所以即使是在这些最保守的情况下,利用率实际上可能比人们想象的要低得多。我们可以进一步探讨这个情况,因为这实际上是相当反直觉且非常有趣的。

人们对GPU的心理印象与它们实际情况之间存在一个非常根本的脱节。在大多数人的心目中,GPU就是芯片,我们也确实这样称呼它们。但实际上,H-100系统是真正的系统。它们有70到80磅重,包含35000多个单独的组件。在某种意义上,它们真的是一种怪物。而Nvidia的Jensen所做的了不起的事情之一是他们基本上将一个数据中心规模的基础设施压缩成了一个单一的盒子,从这个角度来看,70磅重就不是那么令人惊讶了。这些系统真的很复杂。而当你将这些单独的系统,如DGX或HGX,组合成大型超级计算机时,你实际上是在互联数千、数万、甚至数十万个这样的系统。因此,故障概率会成倍增加。由于这个超级计算机中可能有数百万个单独的组件,它能够连续运行几周的概率基本上为零。事实上,这几乎是从Jensen的主题演讲中逐字引用的,这确实是一个挑战。AI基础设施世界仍然有点不完善,缺乏应对这些情况的完美工具。所以人们采取的一些补偿性措施之一是保留这种缓冲区。例如,这种脱节可能有助于解释为什么这些东西会失败,而且有趣的是,新的、更先进的系统实际上比历史上在某些方面较差的系统故障率更高。

Elad Gil: 你认为这只是系统的质量和质量控制问题,还是由于组件的复杂性增加,导致每个组件的故障率上升?你认为背后的驱动因素是什么?

Jared Quincy Davis: 我认为更多的是复杂性增加了,对吧?我们现在处在一个不同的阶段。我认为可以这样说。或许再回到定义上来说,我们在生态系统中经常使用“大”这个词。我想其中一个问题是,“大”到底意味着什么?我认为一个有用的定义是,当人们提到“大”时,通常指的是一个大型语言模型。

当模型权重所需的计算量开始超出即使是最先进的单个GPU或单个节点的容量时,你就进入了“大”的范畴。我认为,当你需要多个最先进的服务器来容纳模型或进行训练时,已经可以说你处在“大”的范畴了。尤其是仅仅容纳模型就需要多个服务器时,这肯定是大型模型的标志。

“大”范畴的关键特征是,你必须协调多个GPU集群来执行单一的同步计算。所以这有点像一个分布式系统问题,我认为这是描述“大”范畴的一种方式。其结果是,你有许多组件都在协作完成一个任务,因此其中任何一个组件的故障都有可能导致某种降级或问题,进而停止整个工作负载的运行。

你可能听过很多人谈论Infiniband,以及Nvidia的部分优势来自于他们确实构建了在网络方面也是最先进的系统。他们收购Mellanox被认为是最成功的收购之一,至少从市值创造的角度来看是这样的。他们这样做的原因是,他们意识到将许多机器连接成一个几乎连续的超级计算机,并且几乎可以像一个单元一样运行,是非常有价值的。虽然展示了这一点,但同时也意味着现在有更多的组件和更多的故障点,这些故障点会相互影响并乘积增加。

Sarah Guo: 换句话说,你暗示GPU是一种独特的资产,更像是资本支出(CapEx)而不是运营支出(OpEx),而像亚马逊这样的超大规模计算公司则对其折旧周期做出了一定的假设。你认为Foundry的假设与这些超大规模计算公司,或者例如CoreWeave,有什么不同?

Jared Quincy Davis: 这引发了一个非常有趣的讨论,即云计算到底是什么。我认为我们在当前的环境中有些忘记了云计算最初应该是什么,最初的价值主张是什么。当前的AI云计算绝对不是原本意义上的云计算,现在它基本上是托管服务,不是真正的云计算。我觉得,确实值得深入探讨一下。

Elad Gil: 是的,你可以为我们的听众详细解释一下你认为两者的区别吗?

Jared Quincy Davis: 首先,我为大家提供一些背景信息,目前我们所知的云计算无疑是世界上最重要的商业类别之一。我认为,这一点非常清楚,世界上最大的公司要么是云服务提供商,如Azure、AWS和GCP,要么是向云服务提供商销售产品的公司,如Nvidia。所以这显然是一个重要的类别。如果你把AWS从亚马逊分离出来,它的市值可以达到一万亿美元以上。相对较近的一段时间内,AWS贡献了亚马逊的全部利润甚至更多,因此至少可以说这是一个非常重要的类别。

我们今天所知的云计算实际上始于2003年,当时亚马逊雇佣了大约50个人,我相信他们开始开发AWS,他们在这上面工作了三年,亚马逊在2006年3月推出了S3。同年9月,他们推出了EC2,这可以说是云计算的开始。

这种模式花了相当长的时间才被广泛接受,人们甚至直到不久前都不太清楚为什么它会有用。因此在2009年或2010年,你提到的Sarah与她在伯克利的合作伙伴写了一篇名为Above the Clouds的论文,讨论了为什么云计算将会成为一个重要的领域。我认为那时人们并没有真正理解他们所提出的观点,至少可以说,这些观点在当时是正确的,但人们并不清楚,甚至在几年后,Bezos在2015年表示AWS在市场规模上是没有限制的。许多人当时都嘲笑他,这一观点并不被认为是合理的。但时至今日,没有人再笑了。我还记得在2019年时,人们还在说不清楚云计算是否会成为一个大趋势,当时像Snowflake这样的公司还没有扩展规模,DataWorks也没有扩展规模。

Elad Gil: 我想可能值得在这些事情上做出区分,因为我同意你所说的部分内容,但你知道,我当时正在创办初创公司,那时有一种相当强烈的信念,即至少对于初创公司来说,这些云计算服务非常有用,因为过去你得花费大量金钱和精力来设置你的服务器机架并将所有设备连接起来,而随着AWS这样的服务的出现,突然之间,这种负担被减轻了。没有人预料到亚马逊会做这件事,对吧?它基本上是一个电子商务市场公司,但他们突然开始构建基础设施并提供服务。对于像谷歌这样的公司来说,提供这类服务似乎非常自然。但我认为对于初创公司来说,尤其是在2007年创办初创公司的时候,这一切简直就是魔法。因为突然之间,虽然不是所有的服务都在那里,但你不再需要处理所有的基础设施问题。

有许多公司在AWS之前创立,例如Twitter等,仍然不得不继续构建和维护自己的云计算服务,这真的很残酷。然后,正如你所说的,我认为最大的转变在于企业的采用,尤其是那些受监管的服务或金融行业,最初对其进行抗拒,但后来他们也开始采用它。所以我同意你所说的很多内容,但我不会说这是人们不相信的事情,实际上我认为很多人都对其抱有信心。

Jared Quincy Davis: 采用云计算的确不是没有人,很多开发者和初创公司社区中的许多人早期就看到了它的价值,尤其是在2009年之前。我认为伯克利的一些研究人员非常早就理解了这一点,到2015年,AWS的年收入已经达到约30亿美元。所以它并不小,虽然远不及今天的规模,但它绝对不小。虽然他们当时还没有将其分拆,但它绝对是一个有意义的事情。我认为,人们并没有意识到它会发展成今天这样的规模,许多人仍然不清楚其价值主张。

你可能还记得,Dropbox曾经高调地退出了云计算,回到了本地部署。他们发表了为什么这么做以及其经济学的文章,这引起了很多关注。人们开始质疑云计算是否仍然有意义等等。我认为人们已经失去了对这些问题的关注。早期一些云计算系统公司,如Databricks等,识别到云计算的一个重要价值主张是非常特别的。

我将引用Michael Saunders(ZP注:世界知名的机器学习算法优化专家,斯坦福大学管理科学和工程系教授)的一个说法来说明这个问题,他们在思考云计算的独特之处,云计算可以做哪些其他地方无法做到的事情。他们得出的杀手级想法是,云计算使“快速”变得“免费”,这是云计算的一个根本优势。所以他们明确地说,如果你有一个设计为在10台机器上运行10天的工作负载,理论上你可以在1天内在100台机器上运行,或者在15分钟内在10000台机器上运行,而成本是完全相同的。所以你可以以相同的成本将运行速度提高1000倍,这真的是一个大问题,对吧?你可以以相同的成本将某些东西运行快1000倍,然后将计算资源释放出来。然而,要真正实现这一点,需要做许多工作,其中之一是你必须能够将一个设计为在10台机器上运行的工作负载重构为可以在10000台机器上运行,这并非易事。

Jared Quincy Davis: 另一个问题是,你实际上必须在云中拥有足够的1万台机器的容量,并确保它被充分利用,以便使经济效益合理化。如果你能做到这两点,那将是一个非常大的突破。这也是云计算的关键理念之一,即弹性。

我认为这正是当前AI云计算中真正缺失的东西。在今天的AI云计算中,你往往被迫进行长期预订,通常是三年固定的容量。没有人真的想要连续三年使用64个GPU或者1000个GPU。你可能只需要1万个GPU使用几个月,之后可能一段时间不需要。或者你可能不知道需要多少,因为你刚推出一款新产品,还不确定它的需求量有多大,以及需要多少推理容量。如果你必须提前预定所有可能需要的总容量,并且持续很长时间,这将非常具有挑战性。

Foundry的闲置节点可用性提升方法

Sarah Guo: 我想回到这个话题上,对于许多工程团队,尤其是年轻的团队来说,很难想象没有云计算的世界,因为他们的经验就是在Amazon上使用虚拟机,它们几乎是无限的。也许是无服务器架构,如果回到Elad所说的,您给我们提供了一个很好的历史视角。但如果从功能角度看,比如我过去有自己的服务器,在本地部署对吧?然后我有托管服务,这意味着我仍然控制和管理自己的服务器,但它们物理上位于他人的数据中心,那里提供像土地、冷却和电力等服务。然后你有了托管服务,即在数据中心购买机器,长期预订基本上是机器的生命周期。接着出现了虚拟化和容器化,以及从中衍生出来的云服务,如调度、编排等高层次功能,无服务器架构就是我只需要编写逻辑,而你来处理它并执行任务。显然,我们在非AI计算领域尚未达到终点,但我觉得工程领域已经非常习惯于这种方式,而AI硬件资源领域仍然停留在托管服务和托管之间的某个位置。

Jared Quincy Davis: 没错,对。这是一个挑战,这意味着你必须提前筹集可能需要的所有资金。这意味着这是一个具有挑战性的模式,也意味着你不能随着需求和兴趣的增长,灵活地扩展产品。

从某种程度上来说,供应链成为了瓶颈,而开发者已经很久没有遇到这种情况了。因此,我认为这是一个非常具有挑战性的局面,对于这些公司来说,从风险管理的角度来看也是非常具有挑战性的,因为他们在做出这些重大承诺时,可能会面临巨大的风险,如果事情不顺利,可能会对他们的硬件产生灾难性的影响,尤其是需要提前支付所有费用,签订长期合同等,这确实是一个非常具有挑战性的事情。

目前还没有对应的解决方案。市场还不够成熟,没有类似于其他领域(如小麦、石油等)的工具市场,在这些市场中,你可以购买期权、期货,并进行对冲和回售等操作。从市场的角度来看,我们仍然处于相对不成熟的状态。我认为这导致了一个具有挑战性的局面,可能会继续给人们带来很多痛苦。因此,我认为我们已经采用了几种方式来更好地应对这一挑战,有些是混合的商业模式创新和技术创新。

但我认为我们在这个领域已经取得了相当大的进展,并且在经济上对我们来说也是非常可行的。我们不会去冒过大的风险购买所有GPU。因此,我们正在努力做的是,能否找到一些杠杆点来解决这个问题?

Sarah Guo: 我记得你们在一两天前发布了一些新产品,你能描述一下Foundry最近推出的内容吗?

Jared Quincy Davis: 现在的AI云计算业务非常像停车场业务。这听起来很有趣,因为云计算应该是高科技的,但你几乎想象不到比停车场更不复杂的业务了。那么我指的是什么呢?实际上,停车场业务有两种基本模式。一种是按使用付费,但这种情况下,你可能会找到车位,也可能找不到。我相信我们很多人都有在旧金山开车兜圈子找停车位的经历,不断看到停车场的“已满”标志。

如果你找到了车位,你可能会按小时付费,比如12美元每小时。这与AWS的按需服务费率相似。另一方面,如果你想确保有车位并且享有更优惠的费率,你可以预定一个车位。这样你可以在大楼里拥有一个专属停车位,也许你支付每小时4美元的费用,尽管你获得了大幅折扣,但每月仍然要付3000美元。这其实是一笔不小的开销。而如果你每周只在办公室工作40小时,这实际上可能相当于每小时16美元,而不是12美元。因此这实际上反而更糟糕。

所以我们想做的一件事情就是,让一些产品能够实现类似于让人们在他人的预定车位上按使用付费。这听起来有些搞笑,但你可以想象,这实际上是一个有趣的概念。如果你能做到这一点,那么根据通常预定的车位比例,可能会将有效容量提高10倍。与此同时,按使用付费的人不再支付12美元,而是支付更低的价格,比如7美元。预定车位的人也能从中获益,可能相当于赚到了5美元,而停车场也可以赚到一些钱。因此,这对每个人来说都是双赢的局面。

你可以深入探讨这个问题,这样做非常高效。不过,这个模式的问题在于,如果你到达预定的车位时发现有人已经停在那里,这可能会让人有些恼火。如果你必须提前两小时打电话通知说你要来了,而停在你车位上的那个人不得不离开餐馆去挪车,那就更糟了。这显然不是一个理想的模式。

因此,我们需要创建一个类似系统来使这一切变得更加方便。也许系统的第一个版本是你进入停车场,传感器会触发,通知你到达了预定车位,然后有个泊车员会跑过去把那辆车移到另一个车位,也许从二楼移到十楼。然后先前停在那里的人来到柜台,问泊车员他们的车在哪里,然后得到一张票,上面写着车在十楼,但没有电梯,所以他们得爬楼梯去取车。我知道这个比喻有点夸张,但你明白这可能会很不方便。

所以我们做的一部分工作是增加了更多的便利功能,我们可能称之为“Spot Usability”(ZP注:按需车位可用性,对应算力领域指闲置节点可用性)。我们需要增加很多这样的功能。现在的情形是,你让别人使用你的车位,传感器检测到你来了,然后你的车自动通过传送带移到另一个车位,我们负责管理这些车位,以确保能够找到地方停放。当你来取车时,车会被自动送到你身边。这样就非常方便,对每个参与者来说都是无缝衔接的,同时也创造了更多的有效空间,使我们能够获得更好的经济效益,并对公司非常有帮助。

这是我们做的一件非常有力的事情,这也是我们在Spot产品中推出的一项功能。我认为大家在典型的云计算背景中对Spot使用有所了解,但在GPU方面实现这一点更具挑战性,因为有几个不同的原因,这就是为什么目前很少有GPU可用于Spot,尤其是在规模上和互联性上。因此,我们的目标之一就是实现这一点,这使得很多其他事情成为可能。我们在多个不同的方面使用了这一机制。这是我们所做的一个重要内容,我会用更多的比喻来解释为什么它如此强大。我们发现,很多公司广泛使用这种机制来进行训练,训练通常被认为是Spot难以处理的工作负载,特别是对于推理,尤其是批处理推理。这实际上又引发了关于不同类别工作负载及其需求的有趣讨论,以及这些需求可能如何随着时间的推移而演变。这实际上与复合AI系统的概念有些联系。这也与Llama 3.1的发布有一些间接的关联。但这就是我们在Foundry云平台上围绕Spot产品推出的一个比喻。

Sarah Guo: 是的,我认为Spot Usability的不断深化、灵活性和自动化是一种非常强大的原语。

GPU容量的现状及市场动态

Sarah Guo: 我想换个话题聊聊整个行业,特别是科技行业非常感兴趣的一些内容。我们曾经一起做了一些工作,一段时间前我们一起探讨了当今世界上的GPU容量状况,对吧?各种不同类型的GPU容量有多少?或者说它们有多集中?显然,这与你们的业务密切相关。你能描述一下你认为目前的状况是什么样的,以及是什么导致了去年的短缺吗?

Jared Quincy Davis: 有一个有趣的小知识,我曾问过一些人,我认为这揭示了我们许多先验知识的偏差,即世界上有多少百分比的CPU或GPU计算能力是由主要的公共云服务商拥有的?我问了很多人,他们通常会猜测这个比例很高,达到几十个百分点。唯一一次我得到较低的猜测是来自微软的Sachi,他猜测是基点,这实际上是正确的,实际比例非常小。举个例子,也许可以说明几年前的情况,虽然现在情况有所变化,但我们可以回顾一下。例如,GPT-3的训练是一个有趣的例子。

这个例子有点过时了,但我还是用它来说明,因为这些机器的类型和数量是公开的,而其他系统的数据并不公开。GPT-3是在Azure的一个互联集群中用10000个V100 GPU进行训练的,持续了约14.6天。那时,它是一个最先进的系统,很多估计表明当时单次运行的成本达到八位数,所以这对OpenAI来说是一个相当大的投资。这告诉我们,连续运行10000个V100 GPU 40%的时间是非常巨大的计算量。

有一个问题是,按照浮点运算次数来标准化计算,Ethereum网络在其巅峰时期相当于多少个GPU?虽然这些GPU并没有完全互联,但这仍然是一个有趣的处理能力衡量标准。我经常问人们这个问题,很有趣。Elad,你可以猜一下吗?其实我们已经谈过这个问题,所以你可能知道答案了。Elad,你对Ethereum有印象吗?对Ethereum,你不需要太费心思,只要随便猜一下。

Elad Gil: 我猜可能是几十万。

Jared Quincy Davis: 这个猜测很大胆,但你其实非常接近,实际数量大约是1000万到2000万个GPU。这是相当大的规模。你可以很容易地通过查看Ethereum的哈希能力来估算这一点,巅峰时期大约是每秒900太哈希,或者每秒一拍哈希。所以这是非常大的计算能力。而一个典型的V100 GPU每秒可以提供大约45到120兆哈希,如果你非常熟练的话。因此这是一个很好的猜测。

Elad Gil: 数量是数千万个GPU。是的,这很有趣。我记得几年前,比特币使用的所有CPU已经超过了谷歌数据中心的总量。

Jared Quincy Davis: 比特币主要使用的是ASIC,而Ethereum实际上使用GPU的比例更高。Ethereum的较大矿工,如Hive,占全球哈希能力的不到1%。因此你可以开始推测,他们拥有的GPU可能有成千上万的Nvidia GPU。这开始给你一个规模的概念,所有这些采矿设备的哈希能力还不到总哈希能力的1%,大约是0.1%,所以Ethereum有相当大的哈希能力。我认为这是一个代表性的数据。此外,还有一个有趣的例子,iPhone 15 Pro现在的计算能力实际上比V100 GPU还要强,它的计算能力大约是35太浮点运算,而V100 GPU大约是30太浮点运算。

所以实际上,世界上有相当多的计算能力,总体来说。然而,这些计算能力并不是都可以用的,它们并不是全部互联的,也不是全部可以访问的,也不是全部安全的,但这说明了世界上有大量的计算能力,甚至是高端GPU的计算能力,远远超出人们的想象。根据许多衡量标准,即使是最先进的H-100系统,它们的利用率也只有40%、25%甚至更低。根据我从一些可靠来源看到的数据,这种情况确实存在。利用率相当低,正如我提到的,即使在这些预训练阶段,由于需要缓冲,利用率往往低于80%。这实际上与我们推出的另一个产品有关,这个产品我们主要是为自己开发的,叫做Mars。

这个名字有点滑稽,但它代表了监控、警报、弹性和安全性。这是一个我们投入了大量知识产权的工具套件,旨在大幅提升和放大我们自己的平台上GPU的可用性和正常运行时间。实际上,我们计划让其他人也可以使用这个系统,用于他们自己的集群。

我们投资Spot的一个原因是我们为自己保留了非常积极的恢复缓冲区,这样如果GPU出现故障,我们可以自动更换另一个GPU,用户不会感知到中断。因此,我们保留了这个缓冲区。实际上,能够使用可抢占的节点来填充这个缓冲区是非常有用的。但现在我们允许其他人也这么做,包括那些希望将他们的恢复缓冲区提供给他人的第三方合作伙伴。他们发现这在经济上对他们的集群成本有很大帮助。这是一个非常强大的功能。因此,通过Mars和Spot,你可以看到这些东西是如何相互关联的,并且非常有效。

但是,是的,实际上可用的GPU数量非常多。特别是如果你从整体AI计算能力的角度来看,可访问的、可用的和已使用的比例是整个总量中的一个非常微不足道的部分。

复合AI系统的兴起与分布式计算

Sarah Guo: GPU市场的动态以及你对它们的预测是如何影响Foundry未来战略的?特别是对于那些进行大规模训练任务的公司来说,显然在这一领域的竞争非常激烈。获取B100S及更高端设备的访问权限非常昂贵,获得足够电力的最大互联集群也是一场争夺战。现在听起来你对机会的看法有所不同,或者你觉得有一些资源可以利用,而不需要仅仅依赖建立自己的数据中心?

Jared Quincy Davis: 我认为答案是以上所有因素的综合,情况确实如此。在很多工作负载和使用场景中,拥有最先进的超大互联集群确实非常有价值。然而,我们也注意到并尝试推广一些不需要这些集群的模式。这就是为什么我说我们同时处理了两件事情。因此,我认为现在对于超大集群来说,电力、空间和互联能力都非常短缺。

实际上,要构建或找到一个真正大型的互联集群非常困难。随着集群规模的增大,这种情况变得愈加明显。1000节点的集群比10000节点的集群多,而20000节点的集群就更少了。并且这种情况会越来越难以继续扩大规模。一个问题是我们如何继续推动扩展定律的发展。你知道,扩展定律的一个事实是它们都绘制在对数图上,事物的表现会可预测地变好,但这需要持续的2倍或10倍扩展才能获得下一次性能提升。但要实现下一次性能提升变得越来越困难,因此很快就会变得难以处理。

因此,这已经促使了许多创新。例如,谷歌正在跨设施进行训练,例如跨数据中心互联来训练像PaLM2这样的模型,这是以前难以想象的事情,或者像DiPaCo (ZP注:一个由谷歌发布的新型机器学习架构和训练方法1。其核心思想是将大型神经网络模型分解为多个模块,这些模块可以通过路径进行分布式计算)这样的模型。这些模型在跨设施训练时被发布。这是一种创新,但我认为其实有一种更为激进的变化,我们开始看到向一种截然不同的模式转变。

我和我的一些合作者,比如Matte以及其他人,将这种模式称为复合AI系统。在最近发布的模型中,你可以看到这一趋势,例如Alpha Geometry、Alpha Code和Llama 3.1。这其实指出了未来AI基础设施可能的样子,它看起来不再是所有事情都需要大集群的样子,而是更加有趣。也许我可以用Phi-3为例。微软使用Phi-3采用了一种不同的方法,他们在高质量数据上训练了一个非常高质量的小模型,而这个小模型不需要大型互联集群。你可以在一个相对较小的集群上进行训练。然而,这仍然是一项不小的工作,因为他们必须收集和获取这种高质量的数据。

我认为你可以看到的是,这些模型,例如Llama 3.1的405B,他们将这个更大的模型蒸馏成70B和8B变体,这些模型虽然很小,但非常智能。它们比以前的系统更智能,比如OpenAI之前的一代。而他们训练Llama 8B和70B的方式有些不同。他们生成了大量合成数据,似乎使用了Llama 3.1 405B,然后将这个更大的模型蒸馏成70B和8B变体。因此,他们获得了非常高质量的小变体。

另一个例子是Alpha Code 2,它在使用非常小的语言模型的情况下,在编码比赛中获得了极高的编码能力。他们的方法是对每个问题调用这个模型一百万次。这是一个极端可并行化的工作负载,你可以无限水平扩展它。他们对每个查询调用一百万次,然后使用一个优雅的机制过滤出前10个响应,然后逐一尝试。因此,他们基本上是生成了一百万个候选响应,然后过滤出最佳的一个来解决编码问题。这种类型的模式越来越多地出现。

同样,Alpha Geometry也是一个非常强大的系统,最近刚刚发布。它在IMO比赛中获得了银牌,不仅仅是几何学问题,而是更广泛类别的问题。这些都是复合系统,主要依赖于合成数据生成部分。因此,你会看到人们在调整计算方式,在训练和推理之间进行插值,以便更好地利用他们拥有的推理能力。这实际上是一种对扩展定律的有趣重新框定。我认为DeepMind发现的Chinchilla扩展定律推动了所有的扩展努力,但实际上,如果你想让一个单一模型尽可能智能,那么在分配参数、计算和迭代次数时有一种理想的方式。

有些人实际上选择了低效地训练一个小模型,使其比应有的更聪明,虽然浪费了钱,但这个小模型实际上非常便宜,因为它很小,而且它的智能程度远超应有的水平。因此,我认为人们越来越倾向于从生命周期的角度思考成本,这实际上导致工作负载从大规模预训练逐渐转向批处理推理,这实际上是一个非常水平可扩展的工作流,你可以并行化它。

你不需要以同样的方式进行互联,也不需要以同样的方式保存它们的系统。我认为这种类型的工作负载可能会越来越重要。再给一个例子,人们有时会做的事情是多次展开当前最先进的模型,基本上是在当前最先进的模型上进行思维链,然后将以前需要6个步骤完成的内容作为下一代最先进模型的训练数据。这种生成数据的方式,然后过滤出高质量的例子,再在此基础上训练模型,这与仅仅将更多质量较差的数据输入到一个巨大的超级计算机中以获得下一代模型的方式非常不同。

Elad Gil: 是的,似乎这种引导方式实际上并未被充分讨论到,一旦达到某个模型阈值,增加下一个模型的速度就会加快。

设计复合AI系统并改进开放式任务

Elad Gil: 还有一件事很值得一提,你最近发表了一篇关于复合AI系统设计的论文,我觉得这篇论文非常有趣,涉及了一些相关主题。你能给我们介绍一下这篇论文及其内容吗?

Jared Quincy Davis: 我认为我们刚才讨论的这个范畴,更多地涉及到超越当前最先进模型的能力,像GPT-5或GPT-6的早期应用者已经开始做这些事情,通常是在隐含情况下,他们会多次调用当前最先进的模型。有很多场景中,你可能愿意花费更高的预算,也许是编写代码或者其他任务。如果我告诉你可以给你一个提升10%的模型,对于开发者来说,可能愿意为此支付10倍的费用。例如,每月20美元的订阅费,他们可能很愿意支付200美元,原因显而易见。因此,在这种情况下,你可以通过多次调用模型,将这些调用组合成几乎是一个网络的网络调用。

其中一个问题是,如何构建这些网络的网络,或者说应该由哪些原则来指导它们的架构?我们大致知道如何构建神经网络,但我们还没有明确如何构建网络的网络,或者说这些复合系统的原则,这些系统可能包含许多调用和外部组件。因此,我们开始探索的一个原则是,你可以通过验证问题的可验证性来确定如何组合这些调用,或者组合多次调用是否有帮助。

如果问题是可验证的,你实际上可以通过这种方式达到非常高的性能。那么这意味着什么呢?“可验证”意味着检查一个答案比生成一个答案要容易。在很多情况下,这种情况是成立的。

大多数软件工程和计算任务都具备这种特性。我们查看了素数分解和许多数学任务。这些任务中,可能需要几年时间才能完成一个证明,而你可能只需几个小时就能阅读这个证明。我想我们都有过类似的经历。所以有很多这样的例子。你可以做的一件事是,你可以让模型进行大规模并行处理,生成许多候选响应,然后相对便宜地检查这些候选响应,并采用最佳选择的方法。事实证明,选择最佳候选响应的验证模型可能在选出最佳候选响应方面具有更高的准确性。

你可以重复这个过程,实际上在许多情况下,通过这种方法实现非常高的性能。我们在这里进行了一些初步研究。在素数分解的一个案例中,我们将性能提高了10倍,从3.7%提高到36.6%。这在素数分解中是非常困难的。我们还研究了MLU中的主题,发现对于我们预期的数学、物理、电子工程等学科,这种方法非常有帮助。我们使用了语言模型,但它不一定是语言模型,它也可以是模拟器,验证器可以是单元测试等。但我们认为这种方法可能指向一种完全不同的提升性能的范式,而不是仅仅扩展模型并从头开始重新训练。MLU的性能提升大约为3%。

为了让你更好地理解,这个差距很大。例如,Jim和Lath之间的性能差距往往不到1%,所以2.8%或3%的提升实际上是一个相当大的差距。所以这是非常有趣的。我希望很多从业者会更多地探索这种方法。

Sarah Guo: 这篇论文非常酷,你有没有一些创造性的想法,如何将这里的一些理念应用于更开放式任务的性能提升?

Jared Quincy Davis: 在很多方面,我们并不是这些理念的原创者。我认为其中一些理念已经大量融入到像AlphaCode、AlphaGeometry这样的系统中。最近看到AlphaGeometry的结果也让我很受启发。是的,我认为我们将会看到人们开始组合这些东西。这听起来有点滑稽,但将会出现大量的网络,其中网络的每个阶段可能都会是一些最佳K值组件,进行许多不同语言模型的调用。比如调用Claude、Gemini、GPT-4等,每个都有各自的能力峰值。你会在很多情况下向多个模型抛出问题,然后选择最佳的响应。你也可能将其与其他组件组合在一起,比如基于经典启发式的方法、模拟器等,并组合成一个庞大的网络,这个网络可能会进行数百万次调用来回答一个问题。

我认为这种方法目前听起来有点荒谬,但我觉得很快这会变得非常常识化。我们认为这与一种方法相关,我们已经看到了很多有趣的证据,关于代码生成和代码领域中的任务,比如设计、芯片设计、神经网络设计或网络的网络设计,甚至以递归的方式进行。事实证明,我们关心的许多问题都具有可验证性,你可以组合这些系统,并通过引导的方式达到比人们预想的更高的性能。因此,这似乎在下游有很大的应用前景,但仍然有许多未解的问题,首先要做大量的工作。我们的一种希望是社区能够更多地探索这一点,这些具有更多并行性工作的工作负载将变得越来越普遍,会有更多的批处理推理,更多的合成数据生成,你不一定需要像OpenAI那样的大规模互联集群,也可以在未来从事前沿工作。

Sarah Guo: 这是一组非常酷的想法,整体上也是一次非常棒的对话。非常感谢你参与这次讨论,Jared。

Jared Quincy Davis: 不,应该感谢你,Sarah,也感谢你,Elad,很高兴见到你们。

Elad Gil: 很高兴参与其中。

原文:No Priors Ep. 77 | With Foundry CEO and Founder Jared Quincy Davis

https://www.youtube.com/watch?v=NoX1fGHPfCM

编译:Yudan Mao

-----------END-----------

🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials


Z Potentials
我们与Z Potentials同频共振
 最新文章