2023年,人工智能实现了破圈式的发展。ChatGPT引爆全网,刷新人们对人工智能的认识,之后大模型进入集中发布期,已拉开“百模大战”的序幕。
如果说ChatGPT正一路狂飙,那么它一定需要一条“高速公路”,而这条“高速公路”名为“AI算力”。中国工程院院士郑纬民曾多次公开表达一个观点:“得算力者得未来,人类已经进入算力时代。”
智算中心作为信息基础设施的重要组成部分,为快速增长的人工智能算力需求提供必不可少的基础支撑,在数字时代承担着重要使命。实际上,当前的智算中心相较以往已发生了巨大变化。新时期的智算力基础设施怎么建?在2023人工智能计算大会上,智算中心与算力服务分论坛上,来自中国信通院、浪潮信息以及北京、浙江、江苏、安徽等智算中心建设先行区的专家们分享了新思路、新实践、新范式。
从算力时代到智能算力时代
算力是承载人工智能应用的基础,而智能算力规模已经超过通用算力。从需求层面看,2022年,中国智能算力规模达到268百亿亿次/秒(EFLOPS),已经超过通用算力规模。
从算力时代再到智能算力时代,如何看待当前的算力基础设施?应祛魅归真,正确认识智算中心建设的发展方向。
中国信通院云计算与大数据研究所数据中心部副主任吴美希在分论坛上表示,以前大家都在讲数据中心,现在更多在讲算力中心。以前讲的算力更多是狭义的算力,即服务器输出的计算能力。现在所提的算力是更广义的算力,包含了计算力,运载力和存储力,即综合算力的概念。大模型时代的算力供给,与云计算时代的算力供给,存在很大的差异。
中国电信集团北京分公司算力中心运营部副总经理纪叶直言,ChatGPT的成功指明了大模型是未来AI发展的方向,当下正在从通用大模型向行业大模型快速演进。大模型需要大算力,大算力要发挥出作用需要在智算能效、算力网络、智算基础三个方面发力。智算能效主要是芯片和平台;算力网络又分为三个子部分,分别是DC内、DC间和南北向的网络。网络既有高速的无损网络,又包括弹性带宽等;智算基础是要把传统的IDC向新兴的AIDC迁移和改造。
实际上,当前的智算中心相较以往已发生了巨大变化。《智能计算中心创新发展指南》指出,智算中心建设需要结合建设基础、当地或区域产业特色,分类引导施策,改建并行,发展与数字经济相适应的智算中心。在日益复杂的AI计算场景下,智算中心应该兼容适配更多技术体系,通过开源、开放的方式建立可兼容底层硬件差异的异构开发平台,突破异构算力适配、异构算力调度等关键技术,加速基础软件、商用软件和开源软件的生态构建。
四步走,让智算中心“建好用好”
智算力的规模化发展和AIGC的火爆,带来了智算力需求的爆发式增长。浪潮信息人工智能与高性能产品部高级架构师师宇清表示,AIGC算力需求暴增的背景下,智算中心硬件架构正在发生变化,智算中心需求的多元化趋势也正在增强。同时,在国家指导和行业要求下,智算中心的节能降耗已经迫在眉睫。
如何建好、用好智算中心?浪潮信息提出,应以应用为导向,以系统为核心,通过智算中心的生产算力、聚合算力、调度算力和释放算力四大作业环节入手,构建多元、开放、高效的智算中心。
在生产算力方面,以应用为导向,构建多元算力的架构,浪潮信息推出了新一代的多元算力系统,作为整个智算中心的算力底座。浪潮信息早在2018年开始就着力于开放多元的AI算力平台的设计,最新发布的G7多元算力平台是业界唯一可以同时兼容SXM以及OAI 8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台,并且可以兼容多种国内外高端AI加速卡。支持用户根据不同应用的需求,来选择对应的算力芯片。
聚合算力方面,以智能存储汇聚多元化智能算力。针对AI时代下的智算中心数据存储需求,浪潮信息推出了新一代分布式融合存储。通过协议无损互访互通,可实现数据的即时共享;通过在统一存储池上的技术突破与优化,实现性能、容量的近线性增长。实现一套存储架构支持一个数据中心,满足AI场景下的多类业务需求。
浪潮信息也一直在关注AI Infra层面的优化,开展了一系列的工作,将浪潮信息最新发布的OGAI智算软件栈引入智算中心方案,支撑智算中心算力调度、算力释放。
调度算力方面,结合OGAI中的PODsys、智算OS和AIStation软件平台,可以快速实现算力部署、多元算力的接入和纳管,同时提供智算中心的基础运营能力。其中在算力集群部署方面,开源了业界首个AI算力集群系统环境部署方案PODsys,来帮助大家更快更好地部署AI集群。在大规模训练的任务保障方面,从算力调度平台层实现了自动化的断点续训,可以自动检测计算异常,并在5分钟内快速恢复异常中断的计算任务,从而保障大模型训练的长时间稳定运行。在多元算力接入方面,浪潮信息也开发了标准化、模块化的芯片接入方式,已稳定接入超过40+芯片,芯片接入工作量减少90%。
释放算力方面,由OGAI智算软件栈的模型工具YLink和模型多模纳管MModel平台来实现。 YLink提供了一系列的数据清洗工具以及数据清洗工具整体工作流,可以将整体清洗时间大幅度压缩,1PB的数据清洗时间从业界平均30天压缩到15天以下。多模纳管MModel的平台可以兼容业界主流的大模型,包括开源大模型,元脑生态大模型及用户自己训练的私有大模型等。支持自动化的对比评测和人工评测,模型评测效率提升100%,帮助用户更好地管理和评测多个大模型。
浪潮信息认为,智算中心不仅是算力基础设施,还应该是算法基础设施。人工智能算法正面临着丰富化、专业化和巨量化的挑战,智算中心应通过提供预置行业算法、构建预训练大模型、推进算法模型持续升级、提供专业化数据和算法服务。浪潮信息将以自研的“源2.0”大模型为主体,构建算法基础设施,在智算中心提供完全开源的不同规模的模型以及高质量的训练数据集供智算中心用户使用,让更多的用户享受普适普惠的智能计算服务。
打造智算中心建设的“灯塔”
如今,计算力就是生产力,智算力就是创新力,已经成为产业共识。通过大力发展智算中心新基建,为国内大模型创新发展以及AI应用创新提供了一片沃土。
智算中心的作用类似高铁,通过集聚数据、人才、算法等数字经济生产要素,赋能不同行业的智能化转型,推动数字经济高质量发展。在国家统筹规划下,已有超过30个城市在规划和建设人工智能计算中心。
例如,位于宿州市的淮海智算中心,其是承接整个长三角甚至全国算力的承接环境,整个项目计划建设300PFLOPS。2025年,宿州市的AI算力规模要达到2000P。长远规划要达到4000P的规模;位于台州的浙东南智算产业园,设立的目的是支撑台州本地数字化产业的发展和集聚,去更好地支撑智能制造、医药开发、智能驾驶等行业。整个产业园项目总投资额38.2亿元,未来将会设立两支配套产业基金去帮助产业园相关企业的发展。
各地智算中心建设风起云涌,无疑是要迎接人工智能等数字技术的风口,为区域数字经济产业生态聚集人气。而一个个智算中心的建成,就像一个个灯塔,为今后的智算中心建设和人工智能产业的发展,指引了方向。
随着人工智能产业快速发展,企业对智算力的需求越来越大,未来将有更多的城市进一步投入到智算中心的建设当中,通过应用导向、产业构建、生态合作等多重手段相结合,不断筑牢AI“新基建”,激发人工智能基础能力和原始创新能力,推动人工智能的快速迭代与产业变革。