GMI Cloud:基于高稳定性 GPU 集群的 AI 出海应用高效业务开发探索

文摘   2024-11-15 18:01   北京  

导读 2024 年 10 月 26 日,GMI Cloud 亚太区总裁 King Cui 在 Datafun 主办的“ DA 数智大会 2024·深圳站”进行了公开演讲,演讲主题为《GMI Cloud:基于高稳定性 GPU 集群的 AI 应用研发提效探索》。该演讲聚焦于 AI 企业在全球发展的趋势与挑战,以及 GMI Cloud 如何通过其高稳定性 GPU 集群技术,助力 AI 企业在全球市场上的扩张和成功。

分享嘉宾|King.Cui   GMI Cloud 亚太区总裁 

出品社区|DataFun


在这场演讲中,King 分享了 GMI Cloud 对于 AI 企业全球化发展的深刻洞察,并详细介绍了公司如何通过其先进的 GPU 云服务,支持 AI 企业在海外市场的技术研发和业务扩展。GMI Cloud 的目标是“打造一个 AI Cloud 时代的台积电”,为全球企业提供中立、独立的 AI cloud 服务,专注于底层 cloud 产品和形态的创新,而不涉足 PaaS 或 SaaS,确保客户数据的安全性和中立性。

King 表示,“随着 AI 技术的快速发展,AI 企业正面临着前所未有的全球化机遇。GMI Cloud 致力于通过其在亚太区的 GPU 优先分配权和 Nvidia Cloud Partner 地位,为 AI 企业提供强大的算力支持。GMI Cloud 的技术团队,源自 Google X,拥有丰富的 AI 云平台构建经验,能够为 AI 企业提供从技术咨询到模型调优的全方位服务。GMI Cloud 的全球战略布局,目前在美国和亚太地区拥有多个 GPU 服务节点。”

以下为本次演讲精华整理:

King 将云计算的发展分为三个阶段,每个阶段都标志着技术和社会的一次重大飞跃。

  • Cloud 1.0(2010-2015):Cloud Base,企业开始将传统的 IDC 业务迁移到云端,这一时期的云服务主要以裸金属形态存在,企业开始尝试和适应云的新模式。

  • Cloud 2.0(2016-2022):Cloud Native,用户和企业从简单的云上云转变为深度用云,PaaS 产品从裸金属 base 转变为 VM 及 Container Base,客户开始更多地使用云厂商提供的 PaaS 产品,专注于自身业务的研发提效。

  • Cloud 3.0(2022 年至今):Cloud 3.0 标志着 AI Native Cloud 时代的到来,以 OpenAI 发布 GPT 为起点,AI 浪潮席卷全球。这一阶段的云产品形态与前两个阶段有显著不同,计算、存储和网络产品都发生了重大变化,如从 CPU 计算转向 GPU 计算,存储需求也从传统的文件存储、对象存储转变为需要更高速的存储,如 GBFS,网络也同样需要适应 GPU 集群的高速网络需求。

AI 推动了云计算的发展。然而,在这个 AI 时代,AI 企业在全球的发展将是一个确定性趋势,未来三年将进入高速发展阶段。AI 技术的发展速度和对人类生活的影响日益增强,尽管 AI 技术的发展处于早期阶段,但已经展现出巨大的潜力和机会。

机会与挑战并存,AI 企业在全球的发展机遇很多,但往往都面临着算力不足的巨大挑战。King 表示,中国的 AI 发展在基础算力方面与美国尚存在差距,特别是在 GPU 算力方面。此外,AI 基础设施(AI Infra)的挑战也非常大,因为 GPU 的故障率远高于 CPU,而许多公司缺乏相关的 AI Infra 经验。

而 GMI Cloud 则致力于支持 AI 应用开发者,提供高稳定性的 GPU 集群,以提高 AI 应用的研发效率和产品竞争力。

从 Cluster Engine 层面,GMI Cloud 的 Cluster Engine 是一个端到端的全栈 AI 应用平台,从底层 GPU 硬件架构层到应用层,提供统一的资源管理和调度。GMI Cloud 通过 Kubernetes 和 HPC Slurm 两种方式开展工作。Kubernetes 更多用于长期软件调度,在容器化领域发挥作用,而 HPC Slurm 更多用于 job 层调度。GMI Cloud 将 Slurm 应用到容器化中,实现硬件资源(尤其是 GPU 资源)像任务一样灵活调度和分配,并由云集群引擎统一管理,满足 AI 和 HPC 的资源需求。

从万卡集群组网架构层面,在网络层面,GMI Cloud 构建了万卡集群,目前在中国能做到万卡集群的还是很少的。GMI Cloud 采用三层网络架构,从 leaf 层到 spine 层再到 core 层,确保每张 GPU 卡都能达到 400G 的网络带宽。

最底层是服务器节点,256*5=1280 台 GPU Server,每张 GPU 有 8 张 GPU 卡,共计1280*8 = 10240 张卡。网络架构为三层,最底层是 leaf 层,图中 8 个组为例,每组 8 个交换机,每个交换机有 64 个口,其中 32 个口向下连接 GPU 机器(共 32 台机器,确保每台机器跟 leaf 交换机相连),32 个口网卡向上连接第二层的 spine 交换机,spine 交换机再向上与核心交换机相连。例如,第一组的 8 个 leaf 交换机分别与对应的所有节点相连,每个 leaf 交换机与上层 spine 交换机两两互联,保证向上 1:1 收敛。每个 spine 层的第一个交换机与第一组的每台核心交换机相连。

通过这种三层网络架构,能确保底层 GPU 节点每张卡都有 400G 的网络带宽(理论上可打满),不会因网络收敛降低带宽。通过 leaf 和 spine 层交换机,实现每组 32 台 GPU 共 256 张卡相互通信,通过核心交换机,实现 1280 台节点的每张卡都能相互通信,从而构建了整个 IB 万卡集群。

从 IB 网络虚拟化层面,GMI Cloud 通过 IB 虚拟化技术,提高了 IB 网络的效率,降低了成本。

通过 IB 虚拟化,能最大程度提高资源使用效率,在资源层面可将 Infini band(IB)网络切换成多个子网,确保子网间网络通信互不干扰,虚拟出多个子网后,整体使用效率会大幅提高。

若不进行 IB 虚拟化,比如在十台机器的集群中有 10 个任务要运行时,每个任务可能独占 IB 网络资源,若单个任务传输效率降低且长时间占用 IB 网络资源,就会影响其他任务的效率。而 IB 虚拟化后,可让十个任务并发执行,每个 IB 子网内都有相应资源和任务运行。

GMI Cloud 基于 IB 网络实现了 VPC。GPU 的 VPC 和传统意义上的 VPC 类似,核心在于 GMI Cloud 实现的每个 VPC 内部都有 IB 网络互联。通过IB 网络实现 VPC 后,可将一个集群切分成多个 VPC。比如为海外某大学搭建小型 GPU 集群并赋予 VPC 功能后,不同的 VPC 可分配给不同学院或教授开展 GPU AI 研发工作,各学院、教授之间的任务互不干扰,能统一提高 GPU 集群的使用效率,帮助学校降低集群成本,以此实现多租户的 VPC 模式。

从存储分层方面,存储设置与数据完全紧密相关,GMI Cloud 根据不同的使用场景和成本模型,提供了多种存储解决方案。从低成本的数据备份存储到高 I/O 吞吐的 NVME 磁盘,满足不同场景的需求。其特点在于,越往底层,整个存储容量会更大;而越往上层,存储的 I/O 延时就会越低。比如在一些场景中,如果只是为了完成数据的备份任务,其实就能够使用低成本的 SAS/SATA 的磁盘来开展数据的备份和存储工作。

要是涉及到对整个数据进行训练和预加载的情况,那么对于整个 I/O 吞吐的延时要求就会相当高了。为此,GMI Cloud 会提供 NVME 的磁盘,并且在所有的 GPU 服务器上都标配了 NVME 的磁盘,它的效率要高出许多。

从主动监控层面,GMI Cloud 提供主动监控功能,主要包括“端到端检测”、“实时仪表盘”、“告警和通知”、“监控数据历史记录”四项,可以帮助企业及时发现并解决问题,确保集群的稳定性。“端到端检测”可以监控整个数据流从输入到输出的每个环节,确保数据的完整性和准确性;“实时仪表盘”提供了集群的实时状态视图,使技术人员能够快速了解集群的健康状况;“告警通知系统”可以在检测到异常时立即通知技术人员,以便及时采取措施;“监控数据历史功能”则帮助技术人员进行事后分析和故障排除,以改进系统的性能和可靠性。

此外,GMI Cloud 作为 Nvidia 认证的合作伙伴,拥有严格的验证体系,包括硬件测试、系统配置测试、网络和存储测试以及整体压测。此外,GMI Cloud 实施了 IDC 规划和快速更换策略,确保故障的及时发现和恢复:

  • GPU 集群架构设计:Nvidia 会对 GMI Cloud 的 GPU 集群架构设计进行审核,确保硬件兼容性。

  • 集群功能验证:Nvidia 会验证集群的功能完整性和性能吞吐,确保满足 AI 和 HPC 的计算需求。

  • 架构审核:Nvidia 会通过多重手段审核 GMI Cloud 的 GPU 集群架构设计,包括硬件选择、网络布局和系统配置。这样的审核过程确保了集群的每个组件都能在最佳状态下工作,并且与其他组件兼容。

  • 功能验证:Nvidia 通过多重手段验证集群的功能完整性和性能吞吐,包括运行一系列的基准测试和实际工作负载测试。这些测试确保了集群能够满足 AI 和高性能计算(HPC)的严格要求。

为了保证稳定性,GMI Cloud 还制定了详细的故障预防策略,GMI Cloud 还与 IDC 厂商和ODM服务器厂商制定前期规划,包括机柜的能耗管理、散热方案和服务器的备件策略,确保数据中心的高效运行,在硬件故障时能够快速更换。在备件更换层面,GMI Cloud 会通过主动监控系统诊断问题,并在当地进行备件更换,以确保故障的快速恢复。

在演讲的最后,King 为 AI 企业在基础设施的选型提出了恳切建议——企业在选择 AI Infra 时,需要基于业务需求、成本效益和技术发展等多个维度进行综合考量。他强调了两种主要的选型策略,即长期稳定的负载和短期临时需求。对于需要长期稳定运行的 AI 工作负载,King 建议企业选择私有云(Private Cloud)或公有云专区。这种模式能够提供更高的性能、安全性和定制化服务,适合对数据处理和存储有严格要求的企业。而对于短期项目或临时需求,如模型测试和开发,King 推荐使用按需服务(On-Demand Service)。这种灵活的服务模式可以根据实际使用情况快速扩展或缩减资源,有效降低成本。

如果想要了解更多信息,请关注【GMI Cloud】公众号。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


King.Cui

GMI Cloud亚太区总裁

14+ 年云计算经验,前阿里云资深总监,中国云计算早期开拓者,前百度云创始团队成员。如今在职的 GMI Cloud 是一家领先的 AI Native Cloud 服务提供商,拥有遍布全球的数据中心网络,为 AI 和机器学习工作负载提供最新、最优的 GPU 资源,致力于为拓展全球业务的新创公司、研究机构以及大型企业提供安全、高效且具成本效益的 AI 基础架构解决方案

往期推荐


货拉拉利用大模型打造多场景个人、办公助理实践

DataOps for LLM 的数据工程技术架构实践

腾讯云助力出海企业高效构建全球大数据基础设施

腾讯分析型 BI+AI 产品 OlaChat 创新探索

ChatDBA: 数据库根因分析智能助手的实践与应用

AIGC 在蚂蚁保保险领域的应用探索

腾讯大数据实时湖仓智能优化实践

百川智能:深度学习大模型推理性能优化策略

统一元数据管理 - Gravitino 在 B 站的最佳实践

大模型与行业融合:推动钢铁、医疗、教育领域的智能化变革

点个在看你最好看

SPRING HAS ARRIVED

DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
 最新文章