作为美国科技七巨头之一的Meta在构建AI集群上一直以来都很努力。除了大家熟知的Meta 大模型 Llama Meta外,随着AI火热加剧,Meta也在推动基础设施的发展,以支持它不断发展的人工智能工作负载。在今年的OCP 全球峰会上,Meta推出了一系列的开放式 AI创新 硬件,包括:Catalina,专为 AI 工作负载设计的全新高性能机架;Grand Teton 的扩展,尖端 AI 平台;以及新的高性能网络解决方案。
Catalina :面向 AI 基础设施的开放式架构
构建 AI 集群需要的不仅仅是 GPU。网络和带宽在确保集群性能方面发挥着重要作用。Meta的系统由紧密集成的 HPC 计算系统和独立的高带宽计算网络组成,该网络连接Meta所有的 GPU 和特定领域的加速器。
在未来几年中,Meta预计每个加速器的注入带宽将达到每秒 1TB 的数量级,同时具有相同的标准化二分带宽。与今天的网络相比,这代表着一个数量级以上的增长!为了支持这一增长,这就需要一种高性能、多层、无阻塞的网络结构,该结构可以利用现代拥塞控制在重负载下可预测地运行。这将充分利用Meta的 AI 集群的强大功能,并确保它们在突破 AI 的极限时继续发挥最佳性能。
OCP 全球峰会上发布的Catalina,是专为 AI 工作负载设计的全新高功率机架。Catalina 基于 NVIDIA Blackwell 平台全机架解决方案,重点关注模块化和灵活性。它旨在支持最新的NVIDIA GB200 Grace Blackwell 超级芯片,确保满足现代 AI 基础设施日益增长的需求。
GPU 不断增长的功率需求意味着开放式机架解决方案需要支持更高的功率能力。通过Catalina,Meta推出了 Orv3,这是一款能够支持高达 140kW 的高功率机架 (HPR)。完整的解决方案采用液体冷却,由一个电源架组成,该电源架支持计算托盘、交换机托盘、Orv3 HPR、Wedge 400 结构交换机、管理交换机、电池备用单元和机架管理控制器。
通过Catalina 的模块化设计让其他人能够定制机架以满足他们特定的 AI 工作负载,同时利用现有和新兴的行业标准。
支持 AMD 加速器的Grand Teton 平台
2022 年,Meta发布了下一代 AI 平台 Grand Teton(Zion-EX 平台的后续产品)。Grand Teton 的计算能力设计可满足内存带宽受限型工作负载(例如 Meta 的深度学习推荐模型 (DLRM))以及计算受限型工作负载(例如内容理解)的需求。现在,Meta扩展了 Grand Teton 平台以支持 AMD Instinct MI300X,并将向 OCP 贡献此新版本。与前代产品一样,此新版 Grand Teton 采用单一单片系统设计,具有完全集成的电源、控制、计算和结构接口。这种高水平的集成简化了系统部署,可实现快速扩展,并提高大规模 AI 推理工作负载的可靠性。
除了支持一系列加速器设计(现在包括 AMD Instinct MI300x)外,Grand Teton 还提供显著更大的计算能力,允许在更大的权重集上更快地收敛。此外,还可通过扩展内存来在本地存储和运行更大的模型,并增加网络带宽以有效扩大训练集群规模。
开放式分解调度结构
Meta为下一代 AI 集群提供的新型分解式调度结构 (DSF) 比现有的交换机具有多项优势。通过开放Meta的网络结构,可以克服规模、组件供应选项和功率密度方面的限制。DSF 由开放的 OCP-SAI 标准和 FBOSS(Meta 自己的用于控制网络交换机的网络操作系统)提供支持。它还支持开放且标准的基于以太网的 RoCE 接口,可连接到来自多个不同供应商(包括合作伙伴NVIDIA、Broadcom和 AMD)的多个 GPU 和 NICS 上的端点和加速器。
除了 DSF,Meta还开发并构建了基于 Broadcom 和 Cisco ASIC 的新型 51T 结构交换机Minipack3和Cisco8501. Meta 第三代 Minipack 交换机基于 Broadcom Tomahawk5 ASIC。 而Cisco 8501是基于Cisco Silicon One G200 ASIC 设计,具有 64 个 OSFP 端口、128 个 400GE 无阻塞容量,向后兼容 200GE 和 100GE 标准,配备 Meta 2x400G-FR4 OSFP 光学模块。
Meta 与微软:共同推动开放式创新
Meta 和Microsoft 在 OCP 中建立了长期合作伙伴关系,始于 2018 年为数据中心开发交换机抽象接口 (SAI)。多年来,两者共同为开放加速器模块 (OAM) 标准和 SSD 标准化等关键计划做出了贡献,目前的合作重点是 Mount Diablo,这是一种新型分解式电源机架,一款尖端解决方案,具有可扩展的 400 VDC 单元,可提高效率和可扩展性。这种创新设计允许每个 IT 机架安装更多 AI 加速器,从而显著推进 AI 基础设施。
不过这边前脚刚说完长期合作,后脚就有点挂不住。据《信息报》周一报道,Meta Platforms 正在开发一款基于人工智能的搜索引擎,希望减少对Alphabet谷歌和微软必应的依赖。
人工智能搜索引擎领域正在升温,ChatGPT制造商 OpenAI、谷歌和微软都在争夺这个快速发展的市场的主导地位。
据该报道援引一位参与该战略的人士的话称,Meta 的网络爬虫将为用户提供有关 Meta AI 上时事的对话式答案,Meta AI 是该公司在 WhatsApp、Instagram 和 Facebook 上的聊天机器人。