甲骨文的ZettaFLOPS计算蓝图:超越现有的AI平台

科技   科技   2024-09-16 08:40   上海  
芝能智芯出品

在全球人工智能(AI)计算竞争中,甲骨文(Oracle)与英伟达联手,希望在2025年达成一个前所未有的计算能力目标——实现多ZettaFLOPS(即每秒进行千万亿次浮点运算)的计算性能。


不仅超越了市场上现有的任何AI计算平台,也标志着云计算与AI技术发展的巨大进步,甲骨文的这一计算蓝图,从硬件部署、网络架构、冷却技术和能源供给等方面,分析其面临的挑战与未来的可能性。




Part 1

甲骨文的AI算力目标



甲骨文计划在2025年实现多ZettaFLOPS的计算能力。这一目标将通过其Oracle Cloud Infrastructure(OCI)超级集群来实现。


以下是计划的关键部分:


● OCI超级集群将使用H100 GPU,扩展至16,384个GPU,实现约65 ExaFLOPS的性能。


● 配备H200 GPU的超级集群将进一步扩展到65,536个GPU,性能将提升至260 ExaFLOPS。


 OCI正在接受订购,提供配备最多131,072个NVIDIA Blackwell GPU的AI超级计算机,预计峰值性能将达到2.4 ZettaFLOPS。


 利用NVIDIA的GB200 NVL72液冷裸机实例,OCI超级集群将通过NVLink和NVLink Switch实现高达129.6 TB/s的通信带宽。


甲骨文的目标是超越现有的超级计算机,并通过创新的技术在网络架构和扩展策略方面领先,力争成为AI计算领域的领军者。



Part 2

高密度GPU部署与网络架构


甲骨文计划在其超级集群中使用NVIDIA Blackwell GPU作为核心组件。相比于之前的NVIDIA HGX B200平台,NVIDIA GB200 NVL72拥有更强的推理计算能力和改进的冷却设计,支持更密集的部署。


为了保证GPU集群间的数据交换快速高效,甲骨文采用NVIDIA Quantum-2、RoCEv2网络协议,以及NVIDIA ConnectX-7和ConnectX-8 SuperNIC网络适配器。


这种高带宽、低延迟的网络架构是实现多ZettaFLOPS计算目标的关键。



在大规模GPU部署中,冷却和能源管理至关重要。


甲骨文计划使用液冷技术来提高冷却效率,降低能耗,从而使数据中心更加环保和可持续。甲骨文还在考虑使用小型核反应堆为数据中心供电的可能性。


随着计算能力的增长,传统的电力供应可能无法满足需求。小型核反应堆可以提供稳定高效的能源,但在实施过程中还需克服监管障碍。


实现ZettaFLOPS级别的计算能力将促进更复杂的深度学习模型开发,提高AI推理能力,并支持更大的实时数据处理需求。这将有助于加快AI模型的训练,推动自动驾驶、自然语言处理、医疗健康等领域的进步。


甲骨文将能够在AI云服务市场中占据有利位置,为用户提供更多选择和灵活的部署选项,帮助他们在数字化转型中取得成功。


甲骨文的计划更为激进,不仅追求单节点的计算能力,还通过集群化提升整体计算水平。甲骨文能否按期实现目标,取决于其在硬件采购、网络设计、能源供应等方面的协调与创新。



小结


甲骨文与英伟达的合作正在将AI计算推向新高度,AI算力的基础设施还在继续投入。


芝能智芯
在这个数字时代,芯片及其基于的软件已经成为现代社会不可或缺的一部分。深入跟踪和分析这些技术的发展趋势变得愈发重要。而位于中国的上海,被誉为中国的芯片硅谷,将有着更多的机会为我们提供深入了解半导体行业以及中国芯片产业链发展的平台。
 最新文章