华为鲁驰：发布iMaster CCAE集群自智引擎，释放集群澎湃算力

文摘 2024-09-22 10:45 中国香港

[中国，上海，2024年9月20日] 在华为全联接大会2024（HUAWEI CONNECT 2024）期间，华为计算CCAE领域总裁鲁驰出席“智能集群运维，点亮最强算力”分论坛，并发表“华为计算iMaster CCAE，释放集群澎湃算力”的主题演讲。

华为计算CCAE领域总裁鲁驰发表主题演讲

在演讲中，鲁驰详细阐述了华为公司在计算集群运维上的核心价值主张，对运维目标网络架构和运维理念的思考，深入解读华为首次推出的运维平台iMaster CCAE，并分享了CCAE的成功实践。

运维目标架构：集群自智引擎向下聚合资源，运管中台向上承载应用

大集群高复杂度增加系统故障风险，复杂问题定位耗时长，集群可用度亟待提升。围绕集群的软硬件底座管理、算力输出到算力应用，鲁驰建议合理的运维目标架构是实现设备供应商和运营厂商分工合作，发挥各自优势，实现商业共赢。

作为算力设备供应商，华为或其他厂商有责任通过研究技术突破，屏蔽大规模集群软硬件复杂度，降低集成周期和代价；收敛告警和日志等原始数据，降低数据交互压力；收敛众多产品部件变更，避免上层频繁升级，最终为互联网和运营商在内的运营厂商，提供高可用、易用、好用的算力。同时，运营厂商工作核心是聚焦算力应用，构建运营中台统一数据底座，屏蔽多个设备厂商的差异，能够支撑上层系统多并发的作业。设备供应商和运营厂商做各自擅长的事。

运维理念：从混沌状态迈向确定性运维，集群自智引擎提拉集群作业高可用度

大规模集群作为混沌工程，具备不确定性。集群由海量的服务和硬件器件构成，局部的不可用，会导致作业全面崩溃。鲁驰提出核心是首先定义集群作业可用度的指标，和训练失效的时长及训练总时长有关。华为倡议将该指标作为衡量集群可用水平的关键指标，高可用度表现为集群对外租用时产生溢价，和集群自用时节省成本。

围绕集群作业可用度，可从六大方向发力，提供集群确定性运维。集群设计环节，具备热备冗余架构设计。集群启动环节，做好集群健康监测，和故障主动预测，如关键器件失效预测。运行环节，实现故障自动监测，和作业自动恢复。自恢复的核心是故障点隔离，将检测到的慢节点慢网络和故障预调度器联动，实现断点续训。集群运营环节，通过服务化接口实现敏捷上线集成。

华为首发：iMaster CCAE，“四个极致”释放集群澎湃算力

在华为全联接大会2024上，华为董事、ICT产品与解决方案总裁杨超斌先生正式对外发布了华为集群自智引擎CCAE。鲁驰进一步解读华为CCAE核心能力是四个方面，极高可用、极致运维、极速交付和极低能耗，分别提供了集群可用度提升10%，人工参与度降低50%，集群交付效率提升10%，和集群功耗降低10%。

CCAE目前已经在十多个超大集群上开始应用。鲁驰在演讲中介绍了CCAE在两个典型项目发挥的价值，包括借助作业路径可视识别关键疑难问题快速定位节点内存不足等问题，以及精准光模块脏污识别，最终支撑两个集群作业可用度分别达到98%和95%。

最后，鲁驰呼吁，超大规模集群经常发生故障是将来面临的常态，华为倡议设备供应厂商提供类似CCAE的运维系统，实现标准的分层运维架构，与运营厂商聚焦算力应用相互配合，业界共同推动共建运维良好生态，共同为千行百业的客户提供澎湃的算力。

扫码关注我们

自动驾驶网络ADN

http://mp.weixin.qq.com/s?__biz=MzkyOTE3MzAzMQ==&mid=2247489912&idx=1&sn=f47d582ef157a7330d219f2d7840c681

自动驾驶网络ADN

集海内外最新产业方向、产品资讯及展会资讯等于一体的自动驾驶网络信息分享平台

最新文章

亚太自智网络产业峰会成功举办，联合发布产业白皮书6.0

华为杨超斌：释放数智生产力，共创L4自智新时代

AI注入新动力，构建高可靠和确定性体验的IP承载网

UBBF 2024 | 自动驾驶网络峰会在伊斯坦布尔圆满召开

华为党文栓：憧憬智能时代的运营商

ABI Research Jake Saunders：指路核心网运维数字化转型路径

智启义乌，NeoSight助力义乌智慧普教数智化升级

自智网络中国产业大会成功举办，发起共践高阶自智网络L4联合倡议

华为黄河：释放数智生产力，共创L4自智新时代

华为鲁驰：发布iMaster CCAE集群自智引擎，释放集群澎湃算力

华为黄河：打造集群自智引擎CCAE，保障大模型长稳训练

首届“企业智能化运维系统，加速千行百业数智化转型”论坛成功举办

华为陆海鸥：发布企业智能运维系统2030愿景，实现“三极三易”社会价值

华为李生：共建MasterLink标准体系，迈向2030运维新时代

华为王少森：AI入网，开启自智网络L4新时代

华为通信大模型：如何助力运营商迈向高阶自智？

华为被Appledore Research评为2023年度网络自动化软件市场份额全球第一

大模型使能IP网络迈向高阶自智

三连冠！华为ADN解决方案再次斩获四项leader，被GlobalData评为网络资源编排能力业界最佳领导者

华为杨超斌：迈向高阶自智网络，跃升数智生产力

DTW24自智网络产业峰会成功举行，产业各方共同发布L4产业蓝图

图灵奖得主Joseph Sifakis：AI与网络之“恋”，迈向自智网络L4

华为党文栓：开启L4自智网络征程，实现高价值跃升

华为ADN斩获FutureNet World 2024“领先网络自动化解决方案”大奖

华为Net Master+高清网络数字地图，加速迈向L4自智网络，跃升数字生产力

华为邵士新：iMaster NCE构筑“一图一脑”，加速FBB迈向高阶自智

ADN分论坛 | 引领大模型创新实践，加速迈向高阶自智网络

HAS 2024 | 拥抱智能时代，加速迈向高阶自智网络

HAS 2024 | 迈向高阶自智网络，实现数智化转型，“让天下没有难维护的核心网”

HAS 2024 | 广东移动携手华为Net Master打造传输IP传输网络运维数字专家，加速迈向高阶自智网络

HAS 2024 | 品质宽带体验管理，助力山东联通开启体验经营新时代

华为陆海鸥：合作共赢，加速迈向高阶自智网络

HAS 2024 | 最全自动驾驶网络参会指南，六大看点邀您关注！

华为自动驾驶网络（ADN）联合合作伙伴斩获CCSA TC610年度四项最佳实践奖

浙江移动联合华为成功斩获2023年度SDN、NFV、网络AI最佳案例奖

广东移动携手华为斩获SNAI “2023年度SDN、NFV、网络AI最佳实践案例”

广东电信携手华为斩获SNAI“2023年度SDN、NFV、网络AI最佳实践案例”

中国联通研究院联合华为斩获“2023年度SDN、NFV、网络AI最佳实践案例”

华为黄河：打造通信大模型，加速迈向高阶自智网络

华为网络数字地图结合网络大模型应用Net Master，加速自智网络迈向高阶L4

华为取得业界首个CCSA TC610云网专线场景的自智网络L3.9等级测评证书

自智网络 | 华为IntelligentRAN的RAN数字孪生系统荣获GSMA“最佳网络软件突破奖”

MWC2024 | 华为罗萱：智能重塑云化运维

MWC2024 | 华为联合Tolly发布L4数据中心自动驾驶网络方案测试报告

MWC 2024 | 华为杨超斌：拥抱智能时代，加速迈向高阶自智网络

MWC 2024 | 自智网络全球产业峰会开启，多方产业领袖共同发起迈向L4级自智网络产业倡议

MWC24 | ADN三大重磅看点邀您相约巴塞罗那

MWC24 | ADN L4开启5.5G网络智能新时代

北京移动联合华为喜获人民邮电报ICT优秀案例“自智网络创新实践”荣誉称号

华为王少森：云网自智、生态共建，加速云网能力开放

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉