亚马逊芯片帝国背后的功臣

科技   2024-12-07 18:43   北京  

文章转载自公众号:半导体行业观察。本文只做学术/技术分享,如有侵权,联系删文。


在一个以匿名公司办公塔为主导的平淡的北奥斯汀北部社区中,Amazon工程师正在技术行业最雄心勃勃的月球界(moonshots)之一:打破NVIDIA在人工智能市场上的1000亿美元市场的掌握筹码。

亚马逊的功利工程实验室里有一排长长的长凳,俯瞰德克萨斯首都蘑菇郊区。这个地方有点混乱。印刷电路板,冷却风扇,电缆和网络设备都散布在各种组装状态的工作站周围,有些用用于将芯片连接到使它们过度热过热的组件的热糊中混在一起。您期望在一家公司的创业公司而不是市值超过2万亿美元的公司中看到的自举氛围。

在这里工作的工程师没有想到跑到家得宝上进行钻孔,并且很乐意在他们的专业领域以外学习科目,如果这样做会加快事情的速度。几年来,他们从头开始创建机器学习芯片,他们发现自己在钩子上,尽可能快地推出Nvidia Fighter。这与原始马力无关。这是关于构建一个简单,可靠的系统,该系统可以迅速将亚马逊数据中心变成巨大的AI机器。
拉米·辛诺(Rami Sinno)是一位属于黎巴嫩黎巴嫩的工程师,在芯片行业工作了数十年,负责芯片设计和测试。他帮助创建了前两代Amazon AI半导体,现在正急于获得最新的Iteration Trainium2,到今年年底在数据中心可靠地运行。辛诺说:“让我在晚上起床的是,我如何尽快到达那里。”

在过去的两年中,Nvidia已从利基碎片制造商转变为硬件的主要供应商,该硬件能够使生成AI,这使该公司成为全球最大的市场价值。NVIDIA处理器的价格为数万美元,由于需求压倒性,很难掌握。上周,在报告收入后,芯片制造商告诉投资者,对其最新硬件的需求将超过多个季度的供应,从而加深了紧缩。

NVIDIA的最大客户 - 像亚马逊网络服务,Microsoft Corp.的Azure and Alphabet Inc.这样的云提供商,渴望减少其对NVIDIA芯片的依赖(如果不取代)。这三个人都在烹饪自己的硅,但是迄今为止,最大的租用计算能力卖家亚马逊已经部署了最多的芯片。

在许多方面,亚马逊都位于AI芯片中的力量。十五年前,该公司发明了云计算业务,然后随着时间的流逝,开始建立维持它的基础架构。亚马逊降低了其对一个现任的依赖,包括英特尔公司,将其数据中心的许多服务器和网络交换机撕下来,并用自定义的硬件代替了它们。然后,十年前,詹姆斯·汉密尔顿(James Hamilton)是高级副总裁兼杰出工程师,具有令人难以置信的时机意识,他交谈了杰夫·贝佐斯(Jeff Bezos)制作筹码。

两年前,当OpenAI的Chatgpt启动了Generative AI时代时,亚马逊被广泛认为同时也被视为统一的脚步,努力追赶。它尚未制作自己的大型语言模型,该模型与Chatgpt或Claude之类的人被视为竞争,由Anthropic构建,亚马逊已经投资了80亿美元。但是,亚马逊云机械已经建造了:自定义服务器,交换机,芯片 - 他们已将首席执行官安迪·贾西(Andy Jassy)定位为开设一家AI超市,为想要使用其他型号的企业出售工具AI服务。

经过将近四十年的业务,汉密尔顿知道将亚马逊的芯片野心提升到一个新的水平并不容易。设计可靠的AI硬件很难。甚至更难的是编写能够使芯片对众多客户有用的软件。NVIDIA齿轮几乎可以顺利处理任何人工智能任务。该公司将其下一代芯片运送给包括亚马逊在内的客户,并开始讨论从现在起一年后将其成功的产品。行业观察家说,亚马逊不太可能很快就会驱逐NVIDIA。



尽管如此,汉密尔顿和亚马逊工程师团队一次又一次地证明了他们在预算紧张的情况下解决大型技术问题的能力。汉密尔顿说:“ NVIDIA是一家非常非常有能力的公司,从事出色的工作,因此很长一段时间以来,他们将为许多客户提供一个很好的解决方案。” “我们强烈认为,我们可以生产与他们进行toe to toe竞争的产品。”

汉密尔顿在国际商业机器公司和微软任职后加入了亚马逊2009年。一个行业偶像汉密尔顿(Hamilton)开始在他的祖国加拿大修理豪华汽车,并从54英尺的船上工作,在一个吉祥的时间签下了豪华汽车。亚马逊Web服务已经在三年前首次亮相,单手创建了一个行业,以称为云计算服务。AWS很快就会开始扔掉现金,使亚马逊能够进行一些大赌注。

当时,亚马逊建立了自己的数据中心,但为他们配备了其他公司制造的服务器和网络交换机。汉密尔顿(Hamilton)率先努力用服务器替换自定义硬件。由于亚马逊将购买数百万美元,汉密尔顿认为他可以通过为不断增长的数据中心量身定制设备并遗漏AWS不需要的功能,从而降低成本并提高效率。

这项努力足够成功,以至于Jassy(然后是AWS)询问公司可能在内部设计什么。汉密尔顿建议芯片,这些芯片正在吞噬越来越多的其他组件处理的任务。他还建议亚马逊使用为智能手机提供动力的节能Arm架构,押注该技术的无处不在以及开发商对此的熟悉程度越来越大,可以帮助亚马逊取代全球范围内长期使用的英特尔芯片。

他在2013年8月向贝佐斯提出的一份提案中写道:“所有的道路都导致我们拥有一个半导体设计团队。在西雅图的弗吉尼亚旅馆酒吧喝酒。(“All paths lead to us having a semiconductor design team” )

Bshara是2000年代初期搬迁到旧金山湾地区的以色列芯片行业资深人士,与他人共同创立了Annapurna Labs,他以尼泊尔山峰命名。(BSHARA和一个联合创始人打算在创立初创公司之前先将这座山登顶。但是投资者渴望他们上班,而且他们从未进行过旅行。)

这家隐秘的初创公司着手为数据中心建造芯片,当时大多数行业都固定在手机上。亚马逊委托安纳布尔纳(Annapurna)的处理器,两年后,以3.5亿美元的价格收购了这家初创公司。这是一个有先见之明的举动。


Bshara和Hamilton很小,反映了他们对功利工程的共同感谢。当时,每个数据中心服务器都保留了一部分马力,以运行控制,安全性和网络功能。Annapurna和Amazon Engineers开发了一张名为Nitro的卡,该卡完全从服务器上吸尘了这些功能,从而使客户可以访问其全部功能。

后来,安纳布尔纳(Annapurna)将汉密尔顿(Hamilton)的Arm通用处理器带入了生活。该产品被称为Graviton,比竞争对手Intel Gear更便宜,并使亚马逊成为台湾半导体制造公司的10个最大客户之一,该公司为整个行业生产芯片。

当时,亚马逊也对安纳布尔纳(Annapurna)甚至在陌生地区也可以表现出色充满信心。Bshara说:“您会发现很多公司在CPU中非常出色,或者在网络上非常好。” “很少有在两个或三个或四个不同领域中良好的团队。”

当Graviton正在开发时,Jassy问汉密尔顿亚马逊可能会做些什么。2016年底,安纳布尔纳(Annapurna)代表了四名工程师,以探索制造机器学习芯片。这是另一个及时的赌注:几个月后,一群Google研究人员发表了一份开创性的论文,提出了一个可以使生成性AI成为可能的过程。

该论文标题为“Attention is All You Need”,引入了Transformers,这是一种软件设计原则,可帮助人工智能系统识别最重要的培训数据。它成为系统背后的基本方法,可以对单词之间的关系和从头开始创建文本之间有良好的猜测。

大约在这个时候,拉米·辛诺(Rami Sinno)正在奥斯汀(Austin)为Arm Holdings Plc工作,并通过机器人比赛指导他的学龄儿子。该团队构建了一个使用机器学习算法的应用程序来孔孔盖照片,并检测到夏天定期犯规奥斯汀湖泊的藻类开花。辛诺(Sinno)意识到一场革命即将到来,孩子们对孩子所能做的事情印象深刻。他于2019年加入亚马逊,帮助领导其AI芯片制作工作。

该单元的第一个芯片旨在为称为推理的东西提供动力——当经过识别数据模式的计算机做出预测时,例如一封电子邮件是否是垃圾邮件。该组件称为推理,在2019年12月之前推出了亚马逊的数据中心,后来被用来帮助Alexa语音助手答案命令。亚马逊的第二个AI芯片Trainium1针对希望培训机器学习模型的公司。工程师还用组件重新包装了芯片,使其更适合推断,作为推论。

一开始对亚马逊AI芯片的需求很慢,这意味着客户可以立即访问它们,而不是等待数周的大批NVIDIA硬件。希望快速加入AI革命的日本公司利用了这种情况。例如,电子制造商Ricoh Co.获得了帮助,将接受英语数据训练的大型语言模型转换为日语。

Annapurna的早期雇员Gadi Hutt表示,此后的需求已得到满足。他说:“我没有任何过多的火车坐在那里等待客户。” “全部都被使用了。”

Trainium2是该公司第三代人工智能芯片。根据行业的估计,这是一个或破坏的时刻。第三次尝试销售足够的数量以使投资值得,或者它失败了,该公司找到了一条新的道路。筹码行业的老将Naveen Rao说:“从字面上看,我从未见过与三代规则相偏离的产品。”

Databricks在10月同意将Trainium作为与AWS达成广泛协议的一部分。目前,该公司的AI工具主要在NVIDIA上运行。Rao称,该计划是取代与Trainium一起使用的一些工作,亚马逊表示,价格可以为价格提高30%。Rao说:“这取决于经济和可用性。” “这就是战场的所在。”

Trainium1由八个芯片组成,并排在一个深钢盒中,可为他们的热量散发出足够的空间。AWS向客户租用的完整包由其中两个阵列组成。每种情况都充满电线,整齐地包装在网状包装中。
对于Trainium2,Amazon说其性能是上一代产品的四倍,存储是上一代的三倍,工程师取消了大多数电缆,而是通过印刷电路板将电信号取代。亚马逊将每个盒子的芯片数量减少到两个,以便在一个单元上执行维护的工程师减少了其他组件。Sinno已将数据中心视为一台巨型计算机,Nvidia老板Jensen Huang鼓励了该行业的其余部分采用。Sinno说:“在那里简化至关重要,这也使我们肯定可以更快地走。”

在开始测试新设计的工作原理之前,亚马逊没有等待TSMC生产Trainium2的工作版本。取而代之的是,工程师将两个先前一代的芯片固定在板上,使他们有时间处理控制软件并测试电气干扰。这是半导体行业,相当于飞机飞行时建造飞机。

亚马逊已经开始出货Trainium2,该Trainium 2的目的是将多达100,000芯片的群集组合到俄亥俄州和其他地方的数据中心。亚马逊的主要数据中心hub即将推出更广泛的推出。

该公司的目标是每18个月大约每18个月将新的芯片推向市场,部分原因是减少必须向外部供应商制造发送的硬件数量。在整个实验室中,钻机(drill)是亚马逊用于测试烧伤连接器或设计缺陷的一组示波器。Sinno暗示了未来版本已经进行的工作:在另一个实验室中,在那里,散布风扇酷测试单元,四对管道从天花板上悬挂。他们现在被封顶,但已经准备好了未来AWS芯片产生过多热量以至于球迷们冷却的日子。

其他公司也在推动限制。NVIDIA将其芯片的需求描述为“疯狂”,他正在推动每年将新的芯片推向市场,这是一种循环,导致其即将到来的Blackwell产品引起生产问题,但会给业内其他地区带来更大的压力向上。同时,亚马逊的两个最大的云竞争对手正在加速自己的芯片计划。

Google大约在10年前开始建立AI芯片,以加快其搜索产品背后的机器学习工作。后来,该公司向云客户提供了该产品,包括Anthropic,Cohere和Midjourney等AI初创公司。最新版的芯片预计将在明年广泛使用。4月,Google推出了其第一个CPU,类似于亚马逊的Graviton。Google副总裁Amin Vahdat说:“通用计算是一个非常大的机会。”他说,最终目标是使AI和一般计算芯片无缝地工作。
微软比AWS和Google晚了数据中心芯片游戏,他们今年宣布了一个名为Maia的AI加速器和一个名为Cobalt的CPU。像亚马逊一样,该公司已经意识到,它可以通过针对数据中心量身定制的硬件为客户提供更好的性能。

作为微软的VP,拉尼·博卡(Rani Borkar)在英特尔(Intel)呆了近三十年,他领导了这项工作。本月早些时候,她的团队向微软的投资组合中添加了两种产品:安全芯片和一个数据处理单元,可加快CPU和图形处理单元或GPU之间的数据流。Nvidia销售类似的产品。微软一直在内部测试AI芯片,并刚刚开始将其与NVIDIA芯片机队一起使用,以便客户可以使用OpenAI模型来创建应用程序。

虽然微软的努力被认为落后亚马逊几代,但博尔卡说,该公司对结果感到满意,并正在研究其芯片的更新版本。她说:“人们从哪里开始都没关系。” “我的重点是:客户需要什么?因为您可能会领先,但是如果您正在建造客户不想要的错误产品,那么硅的投资是如此巨大,以至于我不想成为那本书的一章。”

尽管他们竞争激烈,但所有三个云巨人都会在新芯片(如布莱克韦尔(Blackwell))上市时盛赞Nvidia。

如果亚马逊的Trainium2与Big AWS客户偶尔的项目一起进行了更多的内部AI工作,则可能会被认为是成功的。这将有助于释放亚马逊为专门的AI outfits提供宝贵的高端NVIDIA芯片供应。为了使Trainium2成为unqualified hit,工程师将不得不正确完成该软件 - 这是不小的壮举。NVIDIA从其整套工具的全面性中获得了很大的优势,该工具的全面性使客户几乎没有定制就可以在线获得机器学习项目。相比之下,亚马逊的软件称为Neuron SDK,还处于起步阶段。

一位亚马逊和芯片行业的老兵说,即使公司可以将项目移植到亚马逊,但检查切换没有破坏任何东西都可以消耗数百个小时的工程师的时间。AWS合作伙伴的一名高管帮助客户进行AI项目(也要求匿名的客户)说,尽管Amazon成功地使其通用的Graviton芯片易于使用,但AI硬件的潜在用户仍然会增加复杂性。

Gartner Inc.的副总裁Chirag Dekate说:“ NVIDIA主导了Nvidia的原因。” “您不必担心这些细节。”

因此,亚马逊寻求帮助 - 鼓励大客户和合作伙伴在与AWS达成新的或更新的交易时使用其芯片。这个想法是要让尖端的团队运行其芯片并找到改进的区域。

这些公司之一是Databricks,该公司预计花费数周或几个月的时间启动和运行,但愿意付出努力,希望承诺节省成本能够实现。AI初创公司和OpenAI竞争对手人类,去年接受了40亿美元的亚马逊资金后,同意将Trainium 芯片用于未来的开发,尽管它也使用了Nvidia和Google产品。周五,Anthropic宣布了亚马逊的另外40亿美元的注入,并加深了合作伙伴关系。

“亚马逊Trainium 芯片的价格绩效给我们留下了深刻的印象,” Anthropic首席计算官汤姆·布朗(Tom Brown)说。“我们一直在稳步扩大它们在日益广泛的工作量中的使用。”

汉密尔顿说,拟人化正在帮助亚马逊迅速改善。但是他对挑战清醒了眼睛,称创建出色的软件是“强制性的”,使客户可以轻松使用AWS芯片。他说:“如果您不弥合复杂性差距,您将失败。”
参考链接
https://www.bloomberg.com/news/features/2024-11-24/amazon-plans-to-rival-nvidia-with-its-own-ai-chips?srnd=phx-technology

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章