华为黄河：打造集群自智引擎CCAE，保障大模型长稳训练

文摘 2024-09-21 16:55 中国香港

[中国，上海，2024年9月20日] 在华为全联接大会2024（HUAWEI CONNECT 2024）期间，华为公共开发部CTO黄河出席“智能集群运维，点亮最强算力”分论坛，并发表主题致辞。

华为公共开发部CTO黄河现场演讲

黄河表示：大模型训练依靠集群实际可用算力，集群运维是实现集群可用度、持续发挥算力的关键。华为集群自智引擎iMaster CCAE正式发布，通过算网存融合运维、作业流程分析优化、主动预测预防等关键能力，保障集群作业的高可用度，从而支撑大模型的长稳训练。

以下是完整发言稿的内容：

尊敬的各位嘉宾、专家，大家下午好！

非常高兴有这么一个平台和场合，能够与国内从事和关心计算集群运维管理的专家聚在一起探讨。在此，我谨代表华为公共开发部对各位嘉宾的到来表示热烈的欢迎！

人工智能正成为推动人类进入数智时代的决定性力量，正在从感知理解世界走向生成创造世界，并推动加速产业智能化升级。人工智能的三大基础要素是算力、算法和数据，算力建设就像水力、电力一样，是未来智能世界的基石。

大算力驱动大模型的兑现。在进入万亿、甚至十万亿参数的时代，对AI算力提出非常高的要求，大模型训练依靠集群的实际可用算力，因此集群可用度成为了关键瓶颈。从Meta公开发表的llama3.1训练过程来看，一万六千卡的集群训练54天，出现了466次任务中断，平均每天故障8.6次。随着模型规模变大，对于未来更大规模集群，可能每天的故障时间还会成倍增加，算力集群的高可用已经是大模型长稳训练的关键，如何持续发挥集群算力是业界普遍的挑战。

在这里我向大家介绍下华为集群运维业务。随着计算业务的发展，华为认识到计算基础设施到了一定规模，运维的挑战将变得突出。从2022年筹备开始，华为持续投入研发力量，依托30年的信息通信领域运维经验，打造了面向提升集群作业高可用度的数字化运维平台CCAE。在今天上午的HC大会Keynote上，华为董事、ICT产品与解决方案总裁杨超斌先生正式对外发布了华为集群自智引擎CCAE。它有如下几个特点：

第一， CCAE实现了计算、网络、存储的全域统管，实现了从物理层、链路层、资源层和作业层的全局管理，实现了全局可视的能力。

第二， CCAE是以作业为中心设计的，在训练前，提供集群健康状态分析，确保训练任务“0”隐患启动运行。在训练中，CCAE会时刻监控各训练和推理作业任务的健康状况，分析和优化作业的运行体验，当发生故障时，支持400+典型故障的实时自动检测和隔离，做到“1”分钟故障感知，“3”分钟故障定界定位。训练后，CCAE能为每个作业提供质量报告，用于后续的优化和改进。

第三，CCAE提供主动预防能力，集成多种故障机理模型和预测算法，能够提前预测故障和感知亚健康，做到核心器件失效预防，同时及时优化亚健康模块，让集群告别慢节点慢网络。

最后CCAE提供标准北向接口，将算网存管理能力开放，支持客户自有运维系统的对接，方便运营厂商客户灵活获取高可用的算力，进而发挥算力效益。

CCAE目前已经在十多个超大集群上开始应用，随着大规模集群建设持续推进。我们还需要不断努力，不断提升大规模集群的可用度，以及降能耗，通过智能化集群运维，点亮更强算力。

众智合力，行将致远！相信今天的分论坛是一次促使未来更多开放分享、共同合作的契机，推动集群运维系统能力的整体提升。

再次感谢各位的光临！

扫码关注我们

自动驾驶网络ADN

http://mp.weixin.qq.com/s?__biz=MzkyOTE3MzAzMQ==&mid=2247489901&idx=1&sn=6eb58719f2b4c6f6f4b0be51de2d9965

自动驾驶网络ADN

集海内外最新产业方向、产品资讯及展会资讯等于一体的自动驾驶网络信息分享平台

最新文章

亚太自智网络产业峰会成功举办，联合发布产业白皮书6.0

华为杨超斌：释放数智生产力，共创L4自智新时代

AI注入新动力，构建高可靠和确定性体验的IP承载网

UBBF 2024 | 自动驾驶网络峰会在伊斯坦布尔圆满召开

华为党文栓：憧憬智能时代的运营商

ABI Research Jake Saunders：指路核心网运维数字化转型路径

智启义乌，NeoSight助力义乌智慧普教数智化升级

自智网络中国产业大会成功举办，发起共践高阶自智网络L4联合倡议

华为黄河：释放数智生产力，共创L4自智新时代

华为鲁驰：发布iMaster CCAE集群自智引擎，释放集群澎湃算力

华为黄河：打造集群自智引擎CCAE，保障大模型长稳训练

首届“企业智能化运维系统，加速千行百业数智化转型”论坛成功举办

华为陆海鸥：发布企业智能运维系统2030愿景，实现“三极三易”社会价值

华为李生：共建MasterLink标准体系，迈向2030运维新时代

华为王少森：AI入网，开启自智网络L4新时代

华为通信大模型：如何助力运营商迈向高阶自智？

华为被Appledore Research评为2023年度网络自动化软件市场份额全球第一

大模型使能IP网络迈向高阶自智

三连冠！华为ADN解决方案再次斩获四项leader，被GlobalData评为网络资源编排能力业界最佳领导者

华为杨超斌：迈向高阶自智网络，跃升数智生产力

DTW24自智网络产业峰会成功举行，产业各方共同发布L4产业蓝图

图灵奖得主Joseph Sifakis：AI与网络之“恋”，迈向自智网络L4

华为党文栓：开启L4自智网络征程，实现高价值跃升

华为ADN斩获FutureNet World 2024“领先网络自动化解决方案”大奖

华为Net Master+高清网络数字地图，加速迈向L4自智网络，跃升数字生产力

华为邵士新：iMaster NCE构筑“一图一脑”，加速FBB迈向高阶自智

ADN分论坛 | 引领大模型创新实践，加速迈向高阶自智网络

HAS 2024 | 拥抱智能时代，加速迈向高阶自智网络

HAS 2024 | 迈向高阶自智网络，实现数智化转型，“让天下没有难维护的核心网”

HAS 2024 | 广东移动携手华为Net Master打造传输IP传输网络运维数字专家，加速迈向高阶自智网络

HAS 2024 | 品质宽带体验管理，助力山东联通开启体验经营新时代

华为陆海鸥：合作共赢，加速迈向高阶自智网络

HAS 2024 | 最全自动驾驶网络参会指南，六大看点邀您关注！

华为自动驾驶网络（ADN）联合合作伙伴斩获CCSA TC610年度四项最佳实践奖

浙江移动联合华为成功斩获2023年度SDN、NFV、网络AI最佳案例奖

广东移动携手华为斩获SNAI “2023年度SDN、NFV、网络AI最佳实践案例”

广东电信携手华为斩获SNAI“2023年度SDN、NFV、网络AI最佳实践案例”

中国联通研究院联合华为斩获“2023年度SDN、NFV、网络AI最佳实践案例”

华为黄河：打造通信大模型，加速迈向高阶自智网络

华为网络数字地图结合网络大模型应用Net Master，加速自智网络迈向高阶L4

华为取得业界首个CCSA TC610云网专线场景的自智网络L3.9等级测评证书

自智网络 | 华为IntelligentRAN的RAN数字孪生系统荣获GSMA“最佳网络软件突破奖”

MWC2024 | 华为罗萱：智能重塑云化运维

MWC2024 | 华为联合Tolly发布L4数据中心自动驾驶网络方案测试报告

MWC 2024 | 华为杨超斌：拥抱智能时代，加速迈向高阶自智网络

MWC 2024 | 自智网络全球产业峰会开启，多方产业领袖共同发起迈向L4级自智网络产业倡议

MWC24 | ADN三大重磅看点邀您相约巴塞罗那

MWC24 | ADN L4开启5.5G网络智能新时代

北京移动联合华为喜获人民邮电报ICT优秀案例“自智网络创新实践”荣誉称号

华为王少森：云网自智、生态共建，加速云网能力开放

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉