8月7日,“华为中国政企用户峰会2024”在四川成都成功举办。本次峰会以“倾听·践行 服务行业数智化”为主题,邀请来自金融、政府、制造、电力等行业的客户、伙伴、意见领袖,以及商业市场的集成商伙伴共同参与。峰会期间,华为算力平台服务正式发布。
华为算力平台服务正式发布,发布嘉宾从左到右:华为中国IT咨询与系统集成部部长刘玄前、华为中国地区部副总裁王建晖、科大讯飞股份有限公司基础设施处总监张骁、华为中国政企业务副总裁何振、华为IT咨询与系统集成营销工程部部长宋昂
行业智能化落地是一个复杂的系统工程
从算力平台建设到模型应用部署
面临诸多挑战
人工智能爆发式增长,基于大模型的各类创新业务,正在加速推动行业智能化升级,比如互联网、金融、政府、制造等行业正在引领智能化的发展。
区别于传统计算业务,新兴的智能算力平台需要从规划、建设、集成、模型训练到推理的落地,整个过程是一个复杂的系统工程。它包括:
1、 大规模集群、软硬一体强耦合的复杂交付,大幅提升了算力平台的设计与实施难度,以及成本、高能耗等挑战。
2、 而模型训练底层机制,理论上决定了训练中断是不可避免。如何稳定训练的时长,故障快速恢复也是重点考虑的问题。
3、 新兴技术领域,各类软硬件技术都在快速迭代,客户的模型训练和应用开发过程中,对底层软硬件的适配调优及专业人才获取上也面临巨大的挑战。
华为算力平台服务
助力客户建好、管好、用好算力平台
持续释放算力价值
华为算力平台服务,提供全栈集成与全生命周期保障服务。服务内容包括咨询规划、建设、运维与辅助运营支持、智算人才发展等专业服务,帮助客户成功实现智能化的升级演进。
华为算力平台服务
算力平台集成服务,构建高质量算力集群,支持客户业务快速上线。在算力平台规划建设阶段,华为提供算网存一体集成设计与实施服务,并结合跨域集成的工具链CloudOPS,实现高效、高质量算力集群交付。比如,在国内首个超大规模集群项目中,成功实现了上千台服务器、3万+光纤互联的复杂系统工程交付,在35天成功上线。
面向数据中心基础设施建设
华为DC Facility集成服务构筑新一代绿色智算数据中心。围绕大型训练中心、二次训练和中心训推一体的场景,快速建设和高能耗的问题,华为提供数据中心基础设施集成专业服务方案,满足客户需求。方案包括全栈节能方案、预制模块化快速部署方案、以及数字化仿真交付作业工具,能帮助客户快速高效的搭建数据中心基础设施。比如在华东某项目中,我们结合本地的实际地理环境、提供了模块化架构设计、AI节能调优方案,实现PUE小于1.15的超低节能功耗,成为区域绿色数据中心的标杆。
面向百模千态业务创新
华为算力平台辅助运营服务,助力客户提升大模型开发与应用部署效率。算力平台建成之后,如何利用它快速完成模型训练,发挥商业价值,是行业关注的核心。依托昇腾核心技术优势,我们提供AI计算使能和AI计算优化服务。其中, AI计算使能是聚焦昇腾技术栈的适配,帮助客户、开发者快速解决开发过程中与昇腾技术栈对接的各类技术问题,包括开发环境的配置、技术栈接口调试、算子库等的适配;AI计算优化聚焦与协助客户完成模型的精度和性能调优,提升业务效率。比如在某个电力行业项目实践中,华为专业服务团队,在2个月内帮助客户完成6个大模型,30个小模型的快速适配工作,大幅提升了开发效率,让客户能专注于自身业务领域的创新。
面向集群基础设施保障
华为算力平台运维服务,保障集群长稳运行,故障快速恢复。算力平台的训练过程中对于运维保障的要求非常高,围绕长稳训练和故障快速恢复问题,华为提供专业的运维服务。基于CCAE运维平台,在训练前的深度巡检,并结合备件快速送达服务,提前识别潜在故障点并予以排除,此外通过业界独有的光故障AI分析算法,能实现故障快速定位。比如在华南某大规模集群项目中,华为通过光链路主动预防和深度巡检,大幅消减了故障风险,成功将稳定训练时长从平均2天提升到了7天。
面向管理、技术和业务三类智算人才
提供智算人才发展服务,体系化提升智算与大模型能力。针对管理者,提供启航班、高研班,以快速掌握AI相关的新知识;针对业务人才和技术人才,提供启航班、基础训和进阶训,快速熟悉关键的技术和方案。除了专业的培训课程之外,还提供智算职业认证服务,以真正繁荣智算人才生态。
共筑智能根基
共享数智未来
人工智能正在推动各行业快速迭代升级,华为将与各位客户和伙伴一起,共同拥抱行业数智化转型,共筑智算根基,共同繁荣生态,实现千行万业的业务快速创新。