导读 2024 年 10 月 26 日,GMI Cloud 亚太区总裁 King Cui 在 Datafun 主办的“ DA 数智大会 2024·深圳站”进行了公开演讲,演讲主题为《GMI Cloud:基于高稳定性 GPU 集群的 AI 应用研发提效探索》。该演讲聚焦于 AI 企业在全球发展的趋势与挑战,以及 GMI Cloud 如何通过其高稳定性 GPU 集群技术,助力 AI 企业在全球市场上的扩张和成功。
分享嘉宾|King.Cui GMI Cloud 亚太区总裁
出品社区|DataFun
Cloud 1.0(2010-2015):Cloud Base,企业开始将传统的 IDC 业务迁移到云端,这一时期的云服务主要以裸金属形态存在,企业开始尝试和适应云的新模式。
Cloud 2.0(2016-2022):Cloud Native,用户和企业从简单的云上云转变为深度用云,PaaS 产品从裸金属 base 转变为 VM 及 Container Base,客户开始更多地使用云厂商提供的 PaaS 产品,专注于自身业务的研发提效。
Cloud 3.0(2022 年至今):Cloud 3.0 标志着 AI Native Cloud 时代的到来,以 OpenAI 发布 GPT 为起点,AI 浪潮席卷全球。这一阶段的云产品形态与前两个阶段有显著不同,计算、存储和网络产品都发生了重大变化,如从 CPU 计算转向 GPU 计算,存储需求也从传统的文件存储、对象存储转变为需要更高速的存储,如 GBFS,网络也同样需要适应 GPU 集群的高速网络需求。
从 Cluster Engine 层面,GMI Cloud 的 Cluster Engine 是一个端到端的全栈 AI 应用平台,从底层 GPU 硬件架构层到应用层,提供统一的资源管理和调度。GMI Cloud 通过 Kubernetes 和 HPC Slurm 两种方式开展工作。Kubernetes 更多用于长期软件调度,在容器化领域发挥作用,而 HPC Slurm 更多用于 job 层调度。GMI Cloud 将 Slurm 应用到容器化中,实现硬件资源(尤其是 GPU 资源)像任务一样灵活调度和分配,并由云集群引擎统一管理,满足 AI 和 HPC 的资源需求。
从万卡集群组网架构层面,在网络层面,GMI Cloud 构建了万卡集群,目前在中国能做到万卡集群的还是很少的。GMI Cloud 采用三层网络架构,从 leaf 层到 spine 层再到 core 层,确保每张 GPU 卡都能达到 400G 的网络带宽。
最底层是服务器节点,256*5=1280 台 GPU Server,每张 GPU 有 8 张 GPU 卡,共计1280*8 = 10240 张卡。网络架构为三层,最底层是 leaf 层,图中 8 个组为例,每组 8 个交换机,每个交换机有 64 个口,其中 32 个口向下连接 GPU 机器(共 32 台机器,确保每台机器跟 leaf 交换机相连),32 个口网卡向上连接第二层的 spine 交换机,spine 交换机再向上与核心交换机相连。例如,第一组的 8 个 leaf 交换机分别与对应的所有节点相连,每个 leaf 交换机与上层 spine 交换机两两互联,保证向上 1:1 收敛。每个 spine 层的第一个交换机与第一组的每台核心交换机相连。
通过这种三层网络架构,能确保底层 GPU 节点每张卡都有 400G 的网络带宽(理论上可打满),不会因网络收敛降低带宽。通过 leaf 和 spine 层交换机,实现每组 32 台 GPU 共 256 张卡相互通信,通过核心交换机,实现 1280 台节点的每张卡都能相互通信,从而构建了整个 IB 万卡集群。
从 IB 网络虚拟化层面,GMI Cloud 通过 IB 虚拟化技术,提高了 IB 网络的效率,降低了成本。
从存储分层方面,存储设置与数据完全紧密相关,GMI Cloud 根据不同的使用场景和成本模型,提供了多种存储解决方案。从低成本的数据备份存储到高 I/O 吞吐的 NVME 磁盘,满足不同场景的需求。其特点在于,越往底层,整个存储容量会更大;而越往上层,存储的 I/O 延时就会越低。比如在一些场景中,如果只是为了完成数据的备份任务,其实就能够使用低成本的 SAS/SATA 的磁盘来开展数据的备份和存储工作。
从主动监控层面,GMI Cloud 提供主动监控功能,主要包括“端到端检测”、“实时仪表盘”、“告警和通知”、“监控数据历史记录”四项,可以帮助企业及时发现并解决问题,确保集群的稳定性。“端到端检测”可以监控整个数据流从输入到输出的每个环节,确保数据的完整性和准确性;“实时仪表盘”提供了集群的实时状态视图,使技术人员能够快速了解集群的健康状况;“告警通知系统”可以在检测到异常时立即通知技术人员,以便及时采取措施;“监控数据历史功能”则帮助技术人员进行事后分析和故障排除,以改进系统的性能和可靠性。
此外,GMI Cloud 作为 Nvidia 认证的合作伙伴,拥有严格的验证体系,包括硬件测试、系统配置测试、网络和存储测试以及整体压测。此外,GMI Cloud 实施了 IDC 规划和快速更换策略,确保故障的及时发现和恢复:
GPU 集群架构设计:Nvidia 会对 GMI Cloud 的 GPU 集群架构设计进行审核,确保硬件兼容性。
集群功能验证:Nvidia 会验证集群的功能完整性和性能吞吐,确保满足 AI 和 HPC 的计算需求。
架构审核:Nvidia 会通过多重手段审核 GMI Cloud 的 GPU 集群架构设计,包括硬件选择、网络布局和系统配置。这样的审核过程确保了集群的每个组件都能在最佳状态下工作,并且与其他组件兼容。
功能验证:Nvidia 通过多重手段验证集群的功能完整性和性能吞吐,包括运行一系列的基准测试和实际工作负载测试。这些测试确保了集群能够满足 AI 和高性能计算(HPC)的严格要求。
为了保证稳定性,GMI Cloud 还制定了详细的故障预防策略,GMI Cloud 还与 IDC 厂商和ODM服务器厂商制定前期规划,包括机柜的能耗管理、散热方案和服务器的备件策略,确保数据中心的高效运行,在硬件故障时能够快速更换。在备件更换层面,GMI Cloud 会通过主动监控系统诊断问题,并在当地进行备件更换,以确保故障的快速恢复。
在演讲的最后,King 为 AI 企业在基础设施的选型提出了恳切建议——企业在选择 AI Infra 时,需要基于业务需求、成本效益和技术发展等多个维度进行综合考量。他强调了两种主要的选型策略,即长期稳定的负载和短期临时需求。对于需要长期稳定运行的 AI 工作负载,King 建议企业选择私有云(Private Cloud)或公有云专区。这种模式能够提供更高的性能、安全性和定制化服务,适合对数据处理和存储有严格要求的企业。而对于短期项目或临时需求,如模型测试和开发,King 推荐使用按需服务(On-Demand Service)。这种灵活的服务模式可以根据实际使用情况快速扩展或缩减资源,有效降低成本。
分享嘉宾
INTRODUCTION
King.Cui
GMI Cloud亚太区总裁
14+ 年云计算经验,前阿里云资深总监,中国云计算早期开拓者,前百度云创始团队成员。如今在职的 GMI Cloud 是一家领先的 AI Native Cloud 服务提供商,拥有遍布全球的数据中心网络,为 AI 和机器学习工作负载提供最新、最优的 GPU 资源,致力于为拓展全球业务的新创公司、研究机构以及大型企业提供安全、高效且具成本效益的 AI 基础架构解决方案。
往期推荐
货拉拉利用大模型打造多场景个人、办公助理实践
DataOps for LLM 的数据工程技术架构实践
腾讯云助力出海企业高效构建全球大数据基础设施
腾讯分析型 BI+AI 产品 OlaChat 创新探索
ChatDBA: 数据库根因分析智能助手的实践与应用
AIGC 在蚂蚁保保险领域的应用探索
腾讯大数据实时湖仓智能优化实践
百川智能:深度学习大模型推理性能优化策略
统一元数据管理 - Gravitino 在 B 站的最佳实践
大模型与行业融合:推动钢铁、医疗、教育领域的智能化变革
点个在看你最好看
SPRING HAS ARRIVED