AI时代:如何提高有效算力?

科技   2024-12-27 12:11   北京  

NEWS


在以“AI之光,照耀未来”为主题的2024第十二届数据中心标准大会(CDDC 2024) 的“大算力 智未来”专场,维云科技总经理袁欣以“精耕AI服务器运维,绽放数据中心AI之光”为题,阐述了自身在AI算力服务市场探索出的成功经验。


伴随着AI算力的爆发式增长,GPU服务器故障成了AI训练的首要问题,AI服务器的耐用性和故障率备受用户关注。

有这样一家公司,出于省钱的心理,以很低的价格与某数据中心服务商签订了支持合同。由于后者的操作失误,造成昂贵的服务器设备意外损坏,严重影响了业务的开展,而得到的赔偿金额远不及服务费。后来这家公司联系到维云信息科技有限公司并快速签订新的合同,迄今连一次意外事故都没有发生。

2018年成立于广州的维云科技,就是近期以提出“有效算力”理念著称的数据中心服务供应商,其所提供的“保险”赔付服务,正成为“有效算力”的支撑之一。

图注:维云科技总经理 袁欣

11月20日,在以“AI之光,照耀未来”为主题的2024第十二届数据中心标准大会(CDDC 2024) 的“大算力 智未来”专场,维云科技总经理袁欣以“精耕AI服务器运维,绽放数据中心AI之光”为题,阐述了自身在AI算力服务市场探索出的成功经验。



有效算力,问世于AI和大模型井喷时



 

在当下,AI已经完全融入到人们的生活中。截至2024年第三季度,国内AI领域投资总共317起、金额333亿元人民币,全球AI领域的投资共790亿美元。这些资金大都流向了AI应用的预测和科学大模型、图像及文字应用模型、多模态应用模型这三大场景。

基础大模型已成为AI领域技术趋势,大模型预训练需要极高智能算力支撑。随着模型参数越大、数据集增加,算力资源变得稀缺,如GPT-3参数量达到1750亿,采用10000块V100完成训练。在图像及文字应用模型方面,CV模型已相对成熟,业界已有较多应用场景落地,NLP文字及语言模型最受关注,中文能力日趋成熟,应用场景包括图形检测,辨别图像的种类、位置等呈现数据集变大、训练速度更快、精度更高的趋势。多模态AI大模型,正加速向重点行业落地,其中自动驾驶和科研创新最为突出。据调研,2023年国内TOP车企训练算力需求规划在300~500P,2025年科研创新市场规模将达到157亿元,算力需求将在百P级以上。

支撑这些应用的就是一个又一个的计算集群,这些计算集群主要由硬件设备和软件堆栈两个大的部分组成。硬件设备是人们熟悉的GPU、网卡、交换机等,软件由计算层、通信层、并行层和驱动层组成。以特斯拉孟菲斯超级计算集群为例,其容纳了1.25万台液冷服务器、近10万张H100卡,以数十万颗芯片和数百万公里的电缆构成一个极其复杂的计算环境。

要保障这个复杂体系的正常运转,就离不开高效的运维。

GPU服务器的核心是GPU和CPU,它们在提供功能最大的同时带来最大功耗。在当下,功耗为350W的CPU已经很常见,新产品功耗已接近500W,而H100单卡功耗700W,新产品将达到KW级,整台H100集群功耗可达8-12KW。

可以想见,数据中心的发展对散热的要求越来越高。

然而,GPU的正常工作温度为60-70℃,在进行深度模型运算和复杂图像渲染时,工作温度将达到80℃。研究表明,温度每升高10℃,芯片性能就会降低一半,故障率也会增加一倍。

人们熟悉的Meta LLama3.1共有1.6万个GPU单卡、近2000台服务器,在54天的工作中共发生419起故障,平均每3小时就会发生一起,其中GPU相关故障高达58.7%,CPU只有0.5%。在如此之高的坏率下,GPU依然保持90%的有效训练时间,就是因为它们具备了“有效算力”。

“有效算力”是指GPU服务器真正投入实际计算的部分算力,理论算力已经减去各种浪费和闲置算力。

如何衡量有效算力的价值?可以设想这样一个场景:两家公司各自搭建了一个128台算力集群,同时开始训练任务。A公司有效算力只有70%,用30天完成了该项工作,B公司采取大量措施优化电力硬件的各类损耗,将有效算力提升至90%,仅用20天就完成了训练任务。

显然,有效算力不仅节省成本,更是企业在AI领域竞争中的制胜关键。



提高有效算力的六大核心要素及实施



 

如何提高有效算力?

维云科技提出,依据机房环境保障、运维软件保障、数据任务管理、硬件冗余弹性设计、合作方与供应链支持等六个核心要素,可确保数据中心的算力资源高效、稳定运行,最大限度减少宕机和资源浪费,提高投资回报率。这种系统化、多方协同的策略,也是特斯拉孟菲斯超级计算集群这样10万卡超算数据中心保持有效算力时间的核心方法。

其中最重要的就是机房环境,与此相关则的是电力和温度:合适的电力供应方式,可保障电力稳定、避免过多的波动,而液冷以间接冷却(冷板)和直接冷却(浸没)方式更好地降低了环境温度。

液冷的优势已经众所周知,但同时也带来运维的挑战。例如,浸没式环境可能有多台GPU服务器,一旦其中一台发生故障,在取出来进行更换和检测的同时,会造成流速、液面等的变化,给其它服务器带来潜在影响甚至造成损失。

因此,大规模集群下工作,必须要有自动化软件的介入。

运维软件保障——智能监控:以往故障的发生都是后知后觉,如今,通过主动式维护可及早预警故障将何时发生在何处,有效防范意外的发生。这种由被动式转变为主动式的运维方式就是智能化运维,其以业务键部署、测采集、监控运状态,识别业务及设备异常状态进智能分析并动态调整,实现对智算中动化、智能化管控运维。

数据与任务管理——集群管理:从集群概览中可以看到任务拓扑、任务信息、配额概览 Top5、告警信息数量统计、节点信息、GPU 服务信息、调度服务的运状态以及GPFS等的使情况。

运维团队保障——响应机制和专业团队:提供维保和延保服务。运维工作分为硬件维护、软件维护、网络支持三组团队。每个团队在7*24*4的SLA响应时效里各司其职,保证有效算力。

硬件冗余分为现场端和后端两个部分。

现场端提供标准化备件库,根据客户实际需求时效,快速布点搭建。以128台集群为例,1%-2%的热备机就足够了,支持团队可以很好地应对已有故障。

在第三方合作方和供应链方面,随着国际贸易摩擦加剧,不少服务器部件的返修已经越来越难。

更合适的第三方运维服务商和更理想的供应链,走向台前。



痛点与化解;维云科技崭露头角



 

总结数据中心、超级计算集群在面临各类挑战之后,袁欣将行业客户面临的主要痛点归纳为无法溯源、备件失效、偿付能力,其中无法溯源因国际贸易关系紧张导致,计算设备发生故障后,难以根据设备溯源制造厂商及相关信息,影响客户特别是从事算力租赁的数据中心的工作正常进行。

因此,数据中心必须从人工服务到备件都要迅速就位,第一时间响应并满足客户的时效需求。

此外,设备本身昂贵,因为服务商过失造成的损失,服务商也未必具备赔偿能力。在不少客户眼中,运维服务就像买保险,通过以极低的保险费用将自身无法承担的风险“转嫁”给保险公司。

维云科技就是这样的一家以保险思维服务客户的支持公司。主要从事互联网客户的GPU的交付、运维、以及二手GPU的认证和鉴定类利旧服务工作。目前GPU服务器在保量已超12000台,以专业的人员、充足的备件,支持每天近10万卡GPU安全运行。

袁欣表示,维云科技正在以部署在北美、欧洲、东南亚以及覆盖国内大部分地区的全球50多个服务网点,向从事互联网业务的客户提供从通用服务器到液冷服务器,从冷板浸没式服务器到更高端GPU服务器的交付、运维、以及利旧服务,支持全球智算时代迈向未来。

关注我们获取更多精彩内容


往期推荐

● 最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● 最佳演讲人气王 | 康普吴健:关键网络决定智算效率

● 最佳演讲人气王 | 世纪互联刘学潮:数据中心国产柴发的机遇和挑战

CDCC
数据中心标准、技术沟通交流平台
 最新文章