华为黄河:打造集群自智引擎CCAE,保障大模型长稳训练

文摘   2024-09-21 16:55   中国香港  

[中国,上海,2024年9月20日] 在华为全联接大会2024(HUAWEI CONNECT 2024)期间,华为公共开发部CTO黄河出席“智能集群运维,点亮最强算力”分论坛,并发表主题致辞。


华为公共开发部CTO黄河现场演讲





黄河表示:大模型训练依靠集群实际可用算力,集群运维是实现集群可用度、持续发挥算力的关键。华为集群自智引擎iMaster CCAE正式发布,通过算网存融合运维、作业流程分析优化、主动预测预防等关键能力,保障集群作业的高可用度,从而支撑大模型的长稳训练。






以下是完整发言稿的内容:


尊敬的各位嘉宾、专家,大家下午好!


非常高兴有这么一个平台和场合,能够与国内从事和关心计算集群运维管理的专家聚在一起探讨。在此,我谨代表华为公共开发部对各位嘉宾的到来表示热烈的欢迎!


人工智能正成为推动人类进入数智时代的决定性力量,正在从感知理解世界走向生成创造世界,并推动加速产业智能化升级。人工智能的三大基础要素是算力、算法和数据,算力建设就像水力、电力一样,是未来智能世界的基石。

大算力驱动大模型的兑现。在进入万亿、甚至十万亿参数的时代,对AI算力提出非常高的要求,大模型训练依靠集群的实际可用算力,因此集群可用度成为了关键瓶颈。从Meta公开发表的llama3.1训练过程来看,一万六千卡的集群训练54天,出现了466次任务中断,平均每天故障8.6次。随着模型规模变大,对于未来更大规模集群,可能每天的故障时间还会成倍增加,算力集群的高可用已经是大模型长稳训练的关键,如何持续发挥集群算力是业界普遍的挑战。


在这里我向大家介绍下华为集群运维业务。随着计算业务的发展,华为认识到计算基础设施到了一定规模,运维的挑战将变得突出。从2022年筹备开始,华为持续投入研发力量,依托30年的信息通信领域运维经验,打造了面向提升集群作业高可用度的数字化运维平台CCAE。在今天上午的HC大会Keynote上,华为董事、ICT产品与解决方案总裁杨超斌先生正式对外发布了华为集群自智引擎CCAE。它有如下几个特点:


  • 第一,  CCAE实现了计算、网络、存储的全域统管,实现了从物理层、链路层、资源层和作业层的全局管理,实现了全局可视的能力。


  • 第二,  CCAE是以作业为中心设计的,在训练前,提供集群健康状态分析,确保训练任务“0”隐患启动运行。在训练中,CCAE会时刻监控各训练和推理作业任务的健康状况,分析和优化作业的运行体验,当发生故障时,支持400+典型故障的实时自动检测和隔离,做到“1”分钟故障感知,“3”分钟故障定界定位。训练后,CCAE能为每个作业提供质量报告,用于后续的优化和改进。


  • 第三,CCAE提供主动预防能力,集成多种故障机理模型和预测算法,能够提前预测故障和感知亚健康,做到核心器件失效预防,同时及时优化亚健康模块,让集群告别慢节点慢网络。


最后CCAE提供标准北向接口,将算网存管理能力开放,支持客户自有运维系统的对接,方便运营厂商客户灵活获取高可用的算力,进而发挥算力效益。


CCAE目前已经在十多个超大集群上开始应用,随着大规模集群建设持续推进。我们还需要不断努力,不断提升大规模集群的可用度,以及降能耗,通过智能化集群运维,点亮更强算力。


众智合力,行将致远!相信今天的分论坛是一次促使未来更多开放分享、共同合作的契机,推动集群运维系统能力的整体提升。

再次感谢各位的光临!




扫码关注我们

自动驾驶网络ADN


自动驾驶网络ADN
集海内外最新产业方向、产品资讯及展会资讯等于一体的自动驾驶网络信息分享平台
 最新文章