智算中心的悟空之道

科技   2024-11-14 11:47   北京  


编者语

以大视野看数据中心之大变革,从技术创新和业务发展变化看数据中心的变革趋势。在维谛360AI全链智算解决方案发布之际,CDCC对维谛技术综合解决方案架构部总监(维谛技术智算专家)雷爱民先生进行独家专访探讨如何从业务发展变化来判断数据中心的变革趋势、智算中心给基础设施带来的挑战和机遇、最新发布的维谛360AI全链智算解决方案的创新突破与核心优势。

《黑神话·悟空》是一个不容错过的现象级大作,之所以能够火爆全球,抛开文化、时机、推广等因素之外,其游戏本身所具有的惊人画质、丰富剧情以及创新玩法,一定是根本。

 

在智算中心时代,最新发布的维谛360AI全链智算解决方案以“全面融合性、引入全球经验、全流程服务”为核心设计理念,保障对客户的全面性和先进性交付。在深度把握客户需求的前提下,融合了高密电、高密冷、软件控制和全生命周期服务,秉承维谛长期坚守的“把复杂交给维谛,简单留给客户”的初心。


 

“见性志诚,念念回首处,即是灵山。”


GPU、高功率密度、高数据密集型应用是智算中心的三要素


“我个人觉得智算中心首先是服务器本身,比如说GPU算力服务器的出现,这是关键的第一点,第二点是单机柜功率密度可能要到20kW以上,第三点就是智算中心跑的业务,比如说大模型、高数据密集型应用这一类业务,这和我们通用算力所跑的业务是不同的。”

对于智算中心和传统数据中心在定义上的区别,雷爱民先生给出了自己的观点。的确,在数据中心行业,智算中心非常热,但目前业界对智算中心尚没有一个明确的定义,这也是行业集体需要思考和面对的问题。

 

相对传统通用的数据中心而言,智算中心在建设运营方面,又有哪些新的特征呢?雷爱民先生表示,首先智算中心需要更近距离的高密互联,所以单个机架的功率密度有可能至少是20kW。40kW左右现在是我们见到的在国内密度比较主流的方式,所以说高功率密度是它的第一个特征。第二个特征是,需要在跟原来的通用数据中心的相同机房和空间内进行部署,所以在这个基础上,就对供电和制冷以及和建筑的耦合方面提出了很高要求和变动。5倍到10倍的电力需要,线缆和线径占据的空间更多,制冷也是这样,对建筑的层高还有对GPU服务器的快速散热响应速度和精确度,都比以前的响应等级都提高了很多。


以弹性应对不确定性,以整体方案化繁为简,满足用户对智算中心需求


现在智算中心实际上是一个新鲜事物,在智算中心建设过程中,对于用户来讲,应该把握好哪些关键因素呢?针对此,雷爱民先生突出强调了两个方面。

 

一方面,在GPU服务器快速更迭的今天,这对客户来说,首先需要根据现在和未来一段时间的主流GPU服务器来规划智算中心的建设,所以智算中心必须要有一定的弹性。那么如何保证弹性的设计呢,在最早期的时候,比如说一栋楼要规划了,有50%按照现在的主流进行建设,另外50%要兼容接下来的服务器。这个阶段怎么样做好平衡?这是一个重要课题。也就是需在精确部署和弹性部署方面做好平衡,弹性部分适度超前是一个好主意。

 

另一方面,面对不确定,用户不再过分地关注原来成熟数据中心市场中的某一个产品和节点的设备,更关注的是整体解决方案。用户开始关心整体解决方案是不是可以做得更简单?或者有更专业团队和公司来提供解决方案,并协同设计单位一起联合工作,以相对简单的模式来给客户交付一个高性价比的基础设施,确保品质和性能,并符合全球的算力发展趋势,以保障在整个行业的先进性和竞争力。

“把智算中心面对的业务不确定和复杂做到简单。这个是非常关键的要素。”雷爱民先生表示,“把复杂的问题丢给专业的厂商,交给用户一个简单的解决方案。”


融合了电、冷、软件和全生命周期服务是核心优势


“融合了电、冷、软件和全生命周期服务是维谛360AI全链智算解决方案的核心优势,为智算中心提供了简单的一体化解决方案”雷爱民先生这样概括了新发布的解决方案与传统数据中心一体化解决方案的创新突破和核心优势。

 

在智算中心时代,客户的需求变了,需要更加整体的方案来解决问题,维谛依据全球的经验和长期的积累,新方案引入维谛在全球和头部客户的算力实践,全面融合了电、冷、预制化和全生命周期服务。算力设施预制化模型可以把交付的时间大大缩短,甚至将一些工程材料集成到产品里面。维谛核心能力是依靠丰富的产品择优能力为客户提供最合适的产品。同时,维谛众多拳头性产品可以支撑解决方案需要的产品全面性。另外,维谛在全球智算市场上是响应非常及时的一家公司,全球最新的产品和中国区的产品连通同步,可以保证先进性。最后,在变化的时代依靠维谛的专业服务,把维谛向客户推荐的方案落地好,实现最初对客户承诺的所设即所得,这就是360AI的主要内容。

 

了解了360AI全链智算解决方案的核心优势和主要内容,那么,这一套系统面向的主要用户群体是哪些?对此,雷爱民先生表示,“实际上360AI覆盖大中小用户,但是又做了比较清晰的分割。比如说从AI的边缘站点和推理,一直到中型的算力工厂,再到大型的AIDC,这三个方面是依据不同的客户,维谛会提供不同了解决方案。”

 

比如以刚刚谈到的预制化为例,有可能是针对中小客户,要求做得比较简单,条件也有限。这样维谛相当于把整个基础设施和算力进行联合设计,交付给客户比如50P或100P的算力基础设施,客户可以直接融合服务器使用。对于大的AIDC来说,我们协助客户进行联合设计,相当于满足客户的需求,我们提供整栋楼这样一个级别的高密制冷和高密供电的解决方案。这个相对来说,会投入更多的顾问和专家协助客户进行规划。


数字化系统和服务团队的技术支持为全生命周期服务提供了保障


全生命周期管理和精细化运营是数据中心发展到今天的一个非常重要的特征,360AI如何支持用户对基础设施的全生命周期管理?

 

雷爱民先生表示:“360AI对客户在全生命周期的管理方面有两方面,一方面是数字化系统,另一方面是我们的顾问,即服务团队的技术支持。”

 

数字化系统包括三个方面,首先,已经运用非常成熟的针对基础设施的管理系统;其次,主要针对制冷系统的AI节能管控系统;第三,维谛开发了一些多能互补综合能源的管理系统。这样三个方面共同支撑客户在数字化管理方面的诉求。

 

关于顾问的服务团队,在设计阶段,在设计的最早期就可以引入维谛的全球经验,把这个经验传递给客户,让客户参考我们的最新设计来进行规划。在工程建设阶段,我们具有安装分包甚至总包的能力。在最后运维阶段,可以提供小到设备维修,大到驻厂服务,甚至整个运维周期的服务支持,我们都可以承担。

关于液冷的快问快答

CDCC

您认为液冷今天发展到哪一个阶段了?

雷爱民:液冷还是在前期靠近中期的位置,因为我们国内的很多液冷,其实还是在逐步运用和验证的过程之中,包括液冷厂家和服务器厂家,以及在现场的客户运维团队,都在交流看法和积累经验,处在建设过程比较稳定的流程早期,所以说是在早期到中期之间。


CDCC

您觉得液冷距离成熟的规模化应用,还有多长时间?

雷爱民:在中国,速度响应会比较快,在三年左右。因为可以说,去年是液冷的元年,今年是一个初步的发展年,加上未来的三年,整个的五年周期会发展到一个成熟的运营模式。未来您会见到或许在您的办公室,都有两台液冷的机柜在运行。


CDCC

您判断一下未来液冷在整个数据中心当中,会应用到什么程度?

雷爱民:我个人感觉像GPU服务器,未来会有50%的应用范围,但是风冷会是一个长期存在。我们得到的最新信息是英伟达最新款的NVR72的服务器,就是因为产能不足,再加上制冷很难满足,重新对它的设计进行了调整,恢复到40千瓦每柜,这样可以使用传统的风冷来进行制冷,这也是妥协,也是一个新的场景,所以未来风冷会长期存在。

「END」

关注我们获取更多精彩内容


往期推荐

● 2024数据中心标准大会完整日程发布,直面AIDC变化与未来

● 数据中心标准大会主旨论坛:七大维度解读“AI之光,照耀未来”

● 探寻奇点:柴发机组的机遇和挑战

● 风生水起 智算中心液冷新动能

● 加速蜕变 智算中心电气与制冷新趋势

● 飞驰快车道——多维解构智算中心未来发展

CDCC
数据中心标准、技术沟通交流平台
 最新文章