超云田锋:AIDC全栈推理硬件架构全局化实践

科技   2024-12-30 12:05   北京  

摘要


随着AI的爆发,智算中心(AIDC)已经成为数据中心增长的主要动力。


智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心,为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务。


在2024第十二届数据中心标准大会“大算力、智未来”专场,超云产品运营中心总经理田锋指出,AI时代的数据中心正呈现三大新的变化。


智算中心需要大量的计算资源来处理数据和运行AI算法,这不仅意味着高性能的CPU、GPU、存储设备和高速网络连接等强大的硬件支持,也意味着其物理基础设施的设计必须适应这种高密度功率高增长的需求。
在环保和可持续发展的大背景下,绿色节能成为数据中心发展的重要方向,因此,环保材料、节能技术和绿色能源备受青睐,传统的风冷技术也正在向液冷技术过渡。而伴随数据中心的规模不断扩大与运维的复杂性不断提升,对智能运维、监控和调度等专业技术的要求也越来越高。

智算中心的变迁与建设误区


在2024第十二届数据中心标准大会“大算力、智未来”专场,超云产品运营中心总经理田锋指出,AI时代的数据中心正呈现三大新的变化:
一是算力类别重构,从传统的x86服务器和存储,到如今的通用算力、信创算力、AI算力和自主算力。应对这种变化,产业界设法在众多芯片的情况下实现硬件架构统一,避免运营的复杂度,从而降低成本。‍
二是把算存从地理上分离以及边缘推理多点位等方式,实现算力空间重构。‍
三是数据中心空间重构,用于安装机柜的面积从过去的80%左右降至30%,将更多的空间用于配电和散热。

超云产品运营中心总经理田锋
在智算中心的建设或是对传统数据中心的改造过程中,还存在一些认识误区。一些人可能认为二者在技术上没有太大差异,但实际上,智算中心更侧重于AI模型训练、推理等任务,需要更强大的并行计算能力,而传统数据中心则是以CPU为中心,适用于一般性计算需求。
同时,智算中心的建设能力跨度大,“投-建-运”多维度规划设计,导致业务不确定性高;与传统计算中心不同,智算中心电力消耗更大、硬件资源利用率更高。
此外,智算中心还存在模型训练资源需求大、迁移部署难度高,高质量数据获取困难、应用开发技术门槛高,软硬件协调难、散热模式复杂等多方面的问题。
智算中心建设的如火如荼,为服务器供应商带来了新的商机。无论是在传统数据中心的液冷改造、新型智算中心的建设还是在其管理和运维方面,超云都积累了丰富的经验。

液冷技术硕果累累


伴随大模型应用的广泛与深入,推理机芯片市场在不断扩大。超云超前把握了推理发展带来的商机,取得了长足的发展。
田锋认为,影响芯片训练和推理的因素不仅是制程,更重要的是来自散热的挑战。理想的对策就是机房的液冷改造,这一做法在部署新的数据中心时更值得参考借鉴。
从液冷到智算中心,超云都有着深厚的历史和丰富的成果。在智算中心领域,超云凭借“超云+生态”的模式,为客户提供全面的AI全栈智算中心方案,满足多样化的建设需求。
2024年5月,超云联合生态伙伴发布了人工智能产品家族,包括AI+智算、AI+液冷、AI+信创、AI+存储以及AI+云服务等,展示了其在人工智能基础设施领域的创新实力和技术成果。此外,超云还发布了《AIDC基础设施建设白皮书》,为智算中心建设者提供了详尽的参考资料。
超云联合生态伙伴发布人工智能产品家族
超云在液冷领域的研究成果集中展现在多元液冷服务器的研发与应用方面。‌这些产品采用先进板级液冷技术,可带走超过85%的热量,助力推动绿色低碳、多元算力的数据中心建设。
例如,超云R5215 L12是一种结合风液混合散热系统设计的冷板式液冷服务器,具有兼容性强、可定制、易于维护的优势,单台服务器可降低60%以上的能耗,PUE降至1.2以下。
超云浸没式液冷技术实现了高效散热,可将超云AI、通用、存储等服务器直接泡在冷却液中散热。超云还推出了液冷整机柜服务器Super-Rack以及高密液冷节点服务器R6240 L11、R6242 L13等,实现低能耗与高算力的完美结合。
在材料方面,超云与北京化工大学联合攻关,2019年实现了冷板液冷冷却液的自主化,长效水醇基电子系统冷却液,可大幅度降低冷板腐蚀。近期又联合推出了自主研发的板式液冷核心冷却介质——ThermoSafe - AIDC冷却液。此款新型冷却液不导电、导热性好、挥发性弱,不会附着在芯片上,便于设备后期维护,可显著提升液冷系统的效率与稳定性。

超云联合北京化工大学推出自研冷却液
测试表明,超云液冷解决方案将数据中心性能提升了20%,故障率降低了15%,噪声降低47%,机柜密度提升13倍,可降低碳排放25%、机房总能耗降低近50%,为用户提供了新的可选。

凭借对于新鲜事物的敏锐度,超云新机型的上市都比市场提前至少一年时间,并且经客户检验证明了产品的可靠性。

目前,超云的液冷技术已经成功应用于能源电力、互联网、教育、运营商、超算中心等多个行业。

智算建设指导能力升级


在当天,超云还升级了智算建设指导能力2.0版本,以一套完整的散热解决方案,帮助用户优化训推效比和训推价比。同时,超云还加强了AI全栈推理的软件支持,确保软硬件协同工作,提升整体解决方案的价值。

智算建设指导能力是超云为帮助客户构建高效的智能计算基础设施而推出,它包含了从硬件选择、架构设计到软件优化等一系列的指导和支持,确保用户能够充分利用其AI计算资源,实现最佳的性能和成本效益。

超云GPU推理指导模型
如在训推效比和训推价比参数的研究方面,超云克服种种挑战,进行了多方参数的对比测试,并由此对硬件、软件和算法全方位优化,并结合成本控制和服务支持等方面措施,帮助用户在保证高性能的同时,实现成本的最优化,从而提升整体解决方案的价值。

而针对智算中心混合架构带来的新挑战,超云提供了数据中心基础设施管理平台,通过自动化监控、故障预测与诊断、资源智能调度等技术,实现高效、稳定的AI基础设施管理,同时,结合AI算法优化运维流程,提升系统可靠性与资源利用率,确保用户在复杂环境中也能轻松应对,实现智能化、自动化的运维服务,助力客户看好云、用好云、管好云,打造业务灵活、数据灵活、管理灵活的大规模智算中心基础设施。

助力千行百业加速数字化和智能化


超云成立于2010年,由CEC和云基地联合注资,是国家高新技术企业,工信部专精特新“小巨人”企业。2023年,超云在全国服务器市场增速第一名;今年上半年出货量全国第二。这些成绩,也印证了超云助力千行百业加速数字化和智能化进程的价值。
· 如在金融行业,超云为中国人寿提供IT基础架构重构和云计算平台建设的强力支持,实现资源弹性伸缩供给和部署“无感”切换。
· 在教育行业,超云助力内蒙古财经大学搭建AI科研与教学实践平台,提供软硬件一体化的AI平台建设方案。
· 在工业互联网领域,超云助力中电九天工业互联网平台建设,提供“开箱即用”的软硬一体化“工业云”解决方案,推进工业互联网平台的建设。
· 在智算中心建设领域,超云助力川西数据建立超大规模的绿色数据中心,提供一体化的AI智能算力与并行存储系统。
成立14年来,超云的产品和解决方案覆盖了智能计算、信创整机、私有云及云服务等领域。秉承“让数据中心更简单”的价值主张,超云坚持自主创新、数实融合的发展路线,践行“生态共荣”及“AI IN ALL”战略,积极参与整合上下游产业链,加快迈进智能化时代。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 康普吴健:关键网络决定智算效率

● 最佳演讲人气王 | 世纪互联刘学潮:数据中心国产柴发的机遇和挑战

CDCC
数据中心标准、技术沟通交流平台
 最新文章