揭秘!世界第一个采用CXL 3.1交换机的AI集群

科技   2024-12-12 16:39   北京  

公开课预告

12月13日19:30,# 智猩猩智算集群公开课 开讲!阿里云智能集团智算集群产品专家陈祎将以《大模型时代的智算GPU集群》为主题进行直播讲解,欢迎扫码报名~ 


2024 OCP全球峰会上,开发CXL交换机SoCCXL IP的韩国无晶圆厂初创公司Panmnesia展示了第一个支持CXLAI集群,该集群采用CXL 3.1交换机。


OCP全球峰会由世界上最大的数据中心硬件开发委员会OCP主办。在活动期间,全球相关公司将讨论如何构建具有成本效益和可持续性的数据中心IT基础设施的解决方案。在今年特别关注AI相关主题的活动中,Panmnesia展示了其支持CXL的AI集群,以加速用于ChatGPT等服务的下一代人工智能应用RAG,扩大其全球客户群。


01 AI竞争的加剧凸显了CXL的必要性


鉴于AI服务的重要性日益增加,企业正在努力提高其AI服务的质量。近年来,人们不断尝试提高准确率,特别是通过增加AI模型的规模或利用更多的数据。这导致企业对内存的需求增加。为了增加内存容量,企业通常会增加更多的服务器。但是,增加更多的服务器会给公司带来不必要的支出,因为它们需要购买内存本身之外的一系列服务器组件。

这就是下一代连接技术CXL发挥作用的地方。与前一种方法相比,CXL提供了一种扩展内存的新方法。使用CXL,公司只需要购买内存和CXL设备,而不需要花钱购买额外的服务器组件。因此,CXL吸引了一些大型IT公司的兴趣,这些公司一直遭受着与低效内存扩展相关的成本困扰。


02 AI的CXL解决方案


在CXL获得全球关注的同时,Panmnesia也因其在CXL技术开发方面的领导地位而吸引了业界的兴趣。该公司首次在2022年USENIX年度技术会议上推出了世界上第一个带有CXL 2.0交换机的完整系统框架“DirectCXL”,引起了人们的关注。该公司在2023超级计算展览会上推出了世界上第一个包含所有类型CXL 3.0/3.1组件的系统,进一步巩固了其在CXL技术方面的领先地位。此外,该公司还宣布了CXL解决方案,以加速AI,响应行业需求。


在2023年闪存峰会(CES)上,该公司在其CXL 3.0/3.1框架上展示了推荐系统(商业上使用最多的AI应用之一)的加速。随后,在CES 2024上,Panmnesia宣布了一款支持CXL的AI加速器,通过处理接近内存的数据来减少数据移动开销,从而获得了CES创新奖。在今年的OCP/OpenInfra峰会上,该公司推出了通过CXL技术扩展GPU系统内存的解决方案CXL-GPU,进一步巩固了Panmnesia作为AI CXL解决方案领导者的地位。


03 启用了CXL的AI集群


在2024年OCP全球峰会上,Panmnesia展示了支持CXL的AI集群,它代表了该公司以AI为重点的CXL技术前沿。


支持CXL的AI集群包括一个配备CXL内存扩展器的“CXL-Memory节点”和一个配备CXL GPU的“CXL-GPU节点”。CXL-Memory节点通过多个CXL内存扩展器提供大容量内存,而CXL-GPU节点通过多个CXL- GPU加速AI模型推理/训练。


为了构建这个AI集群,Panmnesia使用了它的两个主要产品:CXL IP和CXL交换机。首先,该公司的CXL IP嵌入到每个系统设备中,以启用CXL功能。由于CXL IP优化了设备之间的通信过程,因此它允许在不牺牲性能的情况下扩展内存,同时保持成本效益。接下来,使用Panmnesia的CXL 3.1交换机来互连上述各种类型的设备。


请注意,这不仅仅涉及物理连接。具体来说,CXL将GPU等加速器归类为第2类设备,将内存扩展器归类为第3类设备。为了将这些不同类型的设备互连在一起,交换机必须支持每种类型的设备所需的功能。由于该公司的CXL 3.1交换机满足这些要求,因此能够配置由不同类型设备组成的支持CXL的AI集群。此外,该公司的CXL 3.1交换机在增强跨多个节点(服务器)的可扩展性方面发挥着至关重要的作用。这是通过支持为高可扩展性而设计的CXL 3.1特性来实现的,例如多级交换和基于port的路由。


该公司表示:“这是世界上第一个采用CXL 3.1交换机的AI集群,也是世界上第一个采用CXL驱动的AI加速解决方案CXL- GPU的完整系统。”


CXL 3.1开关芯片也将在25年下半年提供给客户。



04 OCP全球峰会演示:

在支持CXL的AI集群上加速前沿AI模型RAG


在OCP全球峰会上,Panmnesia在其支持CXL的AI集群上展示了全球首个RAG加速演示。RAG是下一代LLM(大规模语言模型),目前正在开发中,并被OpenAI和微软等公司使用。它可以成为当今行业的主要应用,因为它解决了现有LLM的固有局限性,即幻觉现象。


简单解释一下RAG的概念,它在包含大量数据的数据库中搜索与用户输入相关的信息,并使用搜索结果来提高LLM响应的准确性。


Panmnesia的一位代表表示:“我们的演示将显示,通过利用各种类型的CXL设备,Panmnesia的支持CXL的AI集群可以加速RAG应用程序的所有阶段。”



据该公司透露,通过CXL扩展的大内存可以有效地加速搜索过程,而CXL-GPU则可以加速LLM。


Panmensia相关人士表示:“通过CXL 3.1交换器和高性能CXL IP,可以连接数十台甚至100台设备,可以在数据中心层面有效地加速RAG等最新AI应用。通过参与OCP全球峰会,我们的目标是加强我们现有的全球合作伙伴关系,扩大我们的客户群。”
原文链接:
https://www.storagenewsletter.com/2024/10/21/ocp-global-summit-2024-panmnesia-cxl-enabled-ai-cluster-including-cxl-3-1-switches/

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章