[中国,上海,2024年9月20日] 在华为全联接大会2024(HUAWEI CONNECT 2024)期间,华为计算CCAE领域总裁鲁驰出席“智能集群运维,点亮最强算力”分论坛,并发表“华为计算iMaster CCAE,释放集群澎湃算力”的主题演讲。
华为计算CCAE领域总裁鲁驰发表主题演讲
在演讲中,鲁驰详细阐述了华为公司在计算集群运维上的核心价值主张,对运维目标网络架构和运维理念的思考,深入解读华为首次推出的运维平台iMaster CCAE,并分享了CCAE的成功实践。
运维目标架构:集群自智引擎向下聚合资源,运管中台向上承载应用
大集群高复杂度增加系统故障风险,复杂问题定位耗时长,集群可用度亟待提升。围绕集群的软硬件底座管理、算力输出到算力应用,鲁驰建议合理的运维目标架构是实现设备供应商和运营厂商分工合作,发挥各自优势,实现商业共赢。
作为算力设备供应商,华为或其他厂商有责任通过研究技术突破,屏蔽大规模集群软硬件复杂度,降低集成周期和代价;收敛告警和日志等原始数据,降低数据交互压力;收敛众多产品部件变更,避免上层频繁升级,最终为互联网和运营商在内的运营厂商,提供高可用、易用、好用的算力。同时,运营厂商工作核心是聚焦算力应用,构建运营中台统一数据底座,屏蔽多个设备厂商的差异,能够支撑上层系统多并发的作业。设备供应商和运营厂商做各自擅长的事。
运维理念:从混沌状态迈向确定性运维,集群自智引擎提拉集群作业高可用度
大规模集群作为混沌工程,具备不确定性。集群由海量的服务和硬件器件构成,局部的不可用,会导致作业全面崩溃。鲁驰提出核心是首先定义集群作业可用度的指标,和训练失效的时长及训练总时长有关。华为倡议将该指标作为衡量集群可用水平的关键指标,高可用度表现为集群对外租用时产生溢价,和集群自用时节省成本。
围绕集群作业可用度,可从六大方向发力,提供集群确定性运维。集群设计环节,具备热备冗余架构设计。集群启动环节,做好集群健康监测,和故障主动预测,如关键器件失效预测。运行环节,实现故障自动监测,和作业自动恢复。自恢复的核心是故障点隔离,将检测到的慢节点慢网络和故障预调度器联动,实现断点续训。集群运营环节,通过服务化接口实现敏捷上线集成。
华为首发:iMaster CCAE,“四个极致”释放集群澎湃算力
在华为全联接大会2024上,华为董事、ICT产品与解决方案总裁杨超斌先生正式对外发布了华为集群自智引擎CCAE。鲁驰进一步解读华为CCAE核心能力是四个方面,极高可用、极致运维、极速交付和极低能耗,分别提供了集群可用度提升10%,人工参与度降低50%,集群交付效率提升10%,和集群功耗降低10%。
CCAE目前已经在十多个超大集群上开始应用。鲁驰在演讲中介绍了CCAE在两个典型项目发挥的价值,包括借助作业路径可视识别关键疑难问题快速定位节点内存不足等问题,以及精准光模块脏污识别,最终支撑两个集群作业可用度分别达到98%和95%。
最后,鲁驰呼吁,超大规模集群经常发生故障是将来面临的常态,华为倡议设备供应厂商提供类似CCAE的运维系统,实现标准的分层运维架构,与运营厂商聚焦算力应用相互配合,业界共同推动共建运维良好生态,共同为千行百业的客户提供澎湃的算力。
扫码关注我们
自动驾驶网络ADN