昇腾原生丨玄武智算云平台正式发布,领航智能计算新时代

科技   2025-01-07 22:48   广东  

当前,AI大模型的迅猛发展带来了大量的智算需求。然而,大模型的复杂架构与海量参数对算力要求极高,在实际应用场景中,即便组建超大规模智算集群,如何优化算力使用和提升集群计算效率,依然是一项极具挑战性的任务;其次,大模型部署的组件兼容性差、协同工作难度大,在不同环境下迁移与优化的门槛很高;另外,大模型与各行各业的结合日益成熟,大模型在微调和推理部署任务需求日益增加。为解决以上问题,玄武智算云平台应运而生。该平台依托昇腾系列硬件,适配多种主流大模型,实现了大模型的微调、推理、优化部署等任务的端到端落地,极大提升集群的AI支持能力;同时,玄武平台具备强大的算力加速和算力池化能力,可精准调配资源,实现高效的算力集群管理,完美攻克算力“用不了,不好用”的难题,为智能计算保驾护航。




01
平台概述


玄武智算云平台是基于昇腾原生打造的智算平台,它支持昇腾全系列硬件的纳管、调度和AI模型支持,可实现高效、精细的算力集群运营管理,旨在打破模型部署困境,解决集群利用率低、硬件适配性差、运营效率低等核心痛点问题,为用户提供高效、经济、便捷的智能计算服务。





02
核心功能




适配、加速、算力池化

适配方面,平台能够针对不同架构类型的计算模型实现高精度匹配,这为后续推理、训练框架优化加速功能的有效发挥,提供了坚实的前提条件。在加速方面,平台的推理、训练框架优化功能协同发力,能够大幅缩短推理决策时长,快速输出精准结果,显著加快模型迭代,全方位提升工作效率。在算力池化方面,平台依托统一通信、精细任务切分与多级混合策略,遇复杂任务时能有条不紊地调配资源,实现多任务并行高效推进,保障用户的使用体验。




算力集群管理

在对算力集群的管理方面,玄武智算云平台具备高度专业性与系统性。

首先,在硬件纳管与监测方面,平台硬件纳管功能能够精准把控硬件,确保集群运行有条不紊。硬件监测功能能够紧盯硬件状态,精准、实时探测潜在隐患,为保障平台能够平稳、顺畅的运转,筑牢坚实的根基;

其次,在资源调配方面,平台能够深入剖析任务特性的差异,以科学、精细的方式分配算力,避免出现算力冗余闲置的状况,确保算力资源得到最优化的配置;

最后,在资源提效方面,平台采网络虚拟化、存储虚拟化等协同技术,汇聚算力,优化传输与存储,降低成本,为平台性能提供支撑,确保用户可享受到稳定、高效、可靠的服务。




运营管理

计费模式创新实用。平台采用token式计费与按量计费相结合的模式,为用户开辟灵活自主的资源成本管控路径,用户可依业务需求选计费模式,确保资源投入契合业务发展节奏,避免浪费。

安全防护坚实可靠。平台的服务鉴权功能能够全方位监测和拦截未经授权的访问及操作企图,精准识别并拒外部恶意入侵和内部违规操作于门外,保障信息安全与用户隐私。

运营流程优化升级。平台的SLO管理与产品管理模块紧密协同,以及精细化管理产品全生命周期,优化运营环节,确保服务质量与产品功能迭代。

数据回溯助力运维。平台服务的日志功能可以完整记录用户操作轨迹,为用户回溯操作记录提供便利,也为运维团队排查故障、分析数据提供支撑,助力平台自我优化升级。




03
优势亮点




支持海量主流模型适配

玄武智算云平台能够支持海量广泛、不同规模范围的大模型。它支持Deepseek、Baichuan、Llama、Qwen、ChatGLM等多种模型,能够满足不同行业对各种模型的需求,并确保模型在平台上高效运行。





支持混合推理

玄武智算云平台具备卓越的灵活性,能够支持多种型号的昇腾硬件,实现统一推理任务的高效处理。此外,平台具备多级分布式算力组合功能,结合模型任务的自适应切分,使得各类算力资源都得以高效整合与利用这种智能化的算力调配不仅提升了推理的精准度和效率,还确保了平台能够灵活应对多样化的业务需求,为用户提供了强大的技术支持。





支持大模型训练微调、推理部署一站式服务

玄武智算云平台的核心优势在体现在对大模型训练微调和推理部署的全面支持。在训练微调方面,平台支持的微调方法涵盖了业界领先的SFT技术,能够为用户提供灵活多样的模型优化选项,确保模型能够精确适应特定任务需求。在推理部署方面,平台支持文本生成、对话系统和文本分类等多样化的推理任务。致力于提供高效稳定的推理服务,确保用户在处理大规模语言模型时,能够获得快速响应和高性能输出。





支持即时部署,立享澎湃算力

玄武智算云平台通过用户友好的操作界面和简易的流程设计,为用户带来了前所未有的便捷体验。用户无需进行繁琐的配置和调试,即可迅速接入并使用平台提供的算力资源。这种设计不仅节省了用户的宝贵时间,也降低了使用高性能计算资源的技术门槛。





支持昇腾生态,联合实现共赢

玄武智算云平台通过对Atlas 300I Pro、Atlas 300I Duo、Atlas 900 PoD、Atlas 800T A2昇腾全系列硬件的高效整合,能够根据不同任务需求精准调配硬件资源,大幅提升计算效能。在此基础上,玄武智算云平台与昇腾硬件的结合,能够带来以下显著的业务优势:



全面覆盖需求:平台能够精准满足90%以上的RAG需求,提供全面的模型服务和算力调度,并确保模型运行的高效率和稳定性。    


性能提升:平台接入了适配昇腾系列硬件的MLGuider-Ascend大模型训练和推理引擎,支持多种AI加速技术,显著提高处理效率,能够轻松应对海量并发请求。


算子优化:平台基于昇腾常用算子进行了优化,在Atlas 900 PoD集群上能够释放出卓越的性能,使计算过程更加高效和迅速。


自主创新:“昇腾+玄武智算云”联合方案实现了软硬件的自主创新,能够实现技术主权和保障数据安全,并以其高性价比的解决方案,为各行业的数字化转型提供坚实的支持,推动了数智化的发展。




展望未来,昇腾与清昴的合作将迈向新的发展高度。双方将进一步整合资源,携手攻克技术难题,将先进的智能计算技术应用于更多行业领域,努力为客户创造更大的价值,为推动数智化发展做出更大的贡献!



华为中国
专注华为中国区B2B业务,传递价值信息。深入洞察行业观点,实时分享行业动态。
 最新文章