最佳演讲人气王 | 抖音井汤博 数据中心技术矩阵和产品套餐化研发策略

科技   2024-12-10 12:06   北京  

在2024数据中心标准大会上,火山引擎作为主旨论坛联合主办方进行了精彩演讲。抖音数据中心技术总监井汤博荣获主旨论坛"最佳演讲人气王"。为大家分享公司相关国内国外业务在这几年来蓬勃发展之下的思考以及从中凝练出的经验。现将演讲内容整理如下,供广大数据中心从业者参考。

今天给大家分享的主题是《数据中心技术矩阵和产品套餐化研发策略》。分为六方面的内容∶ 首先,介绍抖音数据中心发展现状。其次,分享这么多年国内国外案例发展中,多种技术的应用落地情况。第三,在发展迅速,同时有很多技术落地情况下,多样性带来的挑战。接下来通过这些挑战,我们进行思考,如何应对这些挑战?我们就产生了一个矩阵的评价体系,最后总结了如何应用的体系和相关思考。

01

数据中心发展现状

PART 1

一、全球布局,多元协同

关于抖音数据中心发展现状,凝练出以下四条:

1、全球覆盖:抖音是少有的在国内、海外业务同时快速发展的中国公司之一,海外业务的发展速度跟国内业务可以说并驾齐驱。因此抖音不仅具备全球覆盖的能力,且拥有超大量的数据中心,其数据中心分布在中国的主要是是华东、华北地区,在海外主要是在马来西亚、新加坡等地。

2、租用为主:业务当前发展速度过快,需求波动大,很难通过前期自建或者预先投入资源应对挑战,所以在现阶段仍然以定制化租用和简单租用为主,但同时最近几年我们也在国内开始落地和逐渐提高自建数据中心比例。

3、需求迅猛:短时间内交付数据量极大,这对设备、合作方机房等等挑战都是非常大的。

4、业务多元:既有内部服务的核心主业务,比如抖音、头条、西瓜等;又有对外提供的服务,比如火山引擎、飞书等;不同业务对IDC建设需求是不同的。

数据中心团队在公司里的定位,主要负责最底层的基础设施,如风火水电的建设,再往上拓展的IT设备,包括服务器和网络。图中简单呈现了抖音数据中心在国内的分布和布局,随着我们不断发展,这个布局正在持续更新。

二、技术进阶,四阶跃升

从技术角度分四个阶段,2017年之前叫资源保障型,以满足基本业务需求为主,通过商务手段实现。在2021之前,侧重于快速交付,在这个阶段,更多业务处于简单发展状态,但是要交得快,这个阶段以快速交付为重点,比如说预制模块,像间接蒸发冷却(IDEC),IT方舱,配电方舱等,都是在这个时候蓬勃发展。在2021年-2023年,随着团队变大,交付已经不是唯一目标了,对于稳定性、对于合规有更高的要求,因此编写和开发了大量技术规范、技术标准以及技术方案,还做了一些新技术的试点,希望对行业有所促进。此时进入标准化和技术落地示范的阶段。

2023年以来,随着团队规模和数据中心体量进一步扩大,我们希望能对社会有更积极正向的影响,因此在这个阶段,称为绿色数据中心AIDC的发展,液冷、无水方案、能源侧和能源回收侧的新能源联合应用也成为开发重点。

02

多种技术创新落地

PART 2

一、能量流视角,全景技术整合

我们尝试进行更广维度的分析,称为“能量流下的技术路线“。总体看,分横向、纵向和具象。

横向看:我们以能量流,将各种技术路线进行整合,不仅在用户侧制定了制冷、供配电和创新方案。同时由于抖音承诺2030年实现运营碳中和,所以在前期能源输入侧与大量合作伙伴,从无论是合作、自投还是购买绿证绿电的形式,都进行了非常密切合作,目前已经达成阶段性的目标,未来会朝着2030年碳中和目标积极践行。同时在废热排放侧也有大量实践,比如余热回收等等。纵向看:对成熟技术也会继续推进发展。技术本身没有优劣之分,更多是取决于应用场景。最后,多种技术的发展速度存在差别,发展节奏应做到张弛有度。具象看:不会只聚焦于具体某个技术,而是会全面发展。

二、区域定制,制冷电气异构

抖音这么多年在国内国外的落地项目中,各种技术方案的比例是什么样的呢?简单而言,华北地区的制冷方案,主要以间接蒸发冷却(IDEC)和冷冻水为主,当然是有一定的历史原因,华北地区当年的功率密度较低,水资源和当时土地资源也比较富足,IDEC方案在当时是最优的方案。不过也可以发现,近年来氟泵方案确实有了异军突起的趋势。氟泵方案不仅能够解决无水的问题,还可以解决IDEC的某些缺陷,它们互相弥补。总体趋势看,华北地区未来还是以风冷IDEC为主,不过无水氟泵会逐步占据一定比例。

华东地区可以明显看到冷板式液冷占比非常高,接近60%+的份额。但这并不一定代表整个行业,是因为我们在华东大概2022年起步,而2022年正是液冷相对成熟阶段,抖音也有意愿为行业推动技术发展。采用液冷会有一些比如兼容性的问题,因为不是所有的业务和服务器都接受液冷这种方案,因此可以看到我们兼容的方案,尝试用双盘管风液同源或者类似的数据中心兼容设计。

海外趋势则有所不同。可以看到在国内,液冷、氟泵等已经大规模使用的技术,在国外并不是主流。在东南亚地区,大量的数据中心主要采用传统的冷冻水系统,包括是水冷冷冻水和风冷冷冻水。而欧美地区更加简单,选址在合适的位置,至于用什么方案则更多的是因地制宜。

而在马来地区,随着逐步增长的全新定制数据中心。站在抖音的角度,我们会尝试推广各种创新方案,包括冷板式液冷。虽然液冷在海外目前并非主流技术,但其使用比例正在逐渐提高。

电气架构就更加有意思,在国内,大家普遍熟知并认为2N是一个最主流的方案。在抖音数据中心上GW的规模里,国内90%以上都是传统的2N UPS搭配中压柴发并机加铅酸蓄电池的架构。

但在国外可以看到,差别非常大。这并不是因为国内外的标准存在差异,而是国外更加以事实为导向,不太计较具体架构是什么,而更加在意TIER等级,更关注运营方面,以及整体联动、资源利用率等。在国外,DR、BR这种架构占据着非常高的比例。同时,由于非常注重环保比如重金属污染问题,所以像锂电池以及相关的储能系统技术方案占据非常高的比例。

在多种建筑模式方面,具体比例没有绝对的说服力,仅能作为参考。目前大部分数据来自国内数据中心,而国内主要还是以多层混凝土建筑居多。在此,我更想强调这几个特点,如果想强调最大化的IT产出,要建高层的混凝土结构;如果是想最快速的交付要以全预制式集装箱;如果在交付和成本里面取得平衡,就应该是预制化钢结构。

03

多样性带来新挑战

PART 3

一、多元困境,运营成本双压

技术非常多元,不管是具体的技术还是技术的之间组合,都呈现出多元性。这时候大家就会思考,为什么会这么多元?这么多元有什么问题?总体而言我认为技术多元的根因是业务本身多元,应对不确定性以及技术上的修修补补和寻求局部最优;而技术多元有两大挑战,一个是运营稳定性有挑战,第二成本优化有挑战。因为有太多的技术方案,这对运维同学是一个巨大冲击,包括备件和维护复杂度;同时对成本极致优化也是有挑战。

简而言之,为什么多元化?主要还是修修补补太多了,针对具体的问题,需要优化的点太多。为什么有不确定性?根因还是行业壁垒,包括IT侧供应不确定性。为什么不寻求标准化?大家一直强调标准化,我认为标准化是长期的愿景或者理想,而不是现阶段情况;全面标准化意味着在牺牲它的极致效率或者成本。当前更多的租用模式也是应对业务不确定性的方案之一。在多元的业务场景下,不能一刀切。我们只能做适度的标准化。

二、量化难题,价值衡量困境

多元化同时也带来另一个问题,即内部沟通。具体而言,就是怎么证明一个方案究竟是用还是不用?在我看来,有两个关键问题,一个是做这个技术到底为了什么?第二是收益到底是什么,如何衡量?

从为了什么而言,技术既是一种目的也是一种手段,作为手段来说,主要是为了帮助项目解决具体问题,而作为目的,更多是怎么去帮助公司或者相关团队建立一个对行业影响力和践行社会责任,这个不仅仅是物质利益或者满足业务需求,而是希望对行业有所引领。

关于如何量化技术,我认为目前有几个困境,首先是成本:很难量化这里投入的人力和资源成本。其次是进度:很难量化一个数据中心交付的时间早几天晚几天到底对业务有什么样的影响。第三是质量:往往事前做的很多工作,在事后看来,如果没有出现问题,会觉得没有那么重要;一旦出现问题,好像也不清楚造成了多么不可估量的损失。

04

技术矩阵定义评价

PART 4

一、矩阵架构,融合创新生态

基于上述困境,提出“技术矩阵评价体系”,能够将现有的技术规范、标准设计还有研发创新技术进行整合,最终融会贯通到技术矩阵套餐,横纵双向打通技术壁垒。研发创新底层技术会给技术规范提供相关更新,而规范更新给标准设计提供参考技术依据,同时研发技术给标准设计提供相关迭代,标准设计收敛和凝练多元套餐化矩阵,研发技术同时给标准化套餐体系提供更多选择。

二、多维协作,场景驱动优化

涉及到每一个环节中,应该如何与内部、外部合作方合作。简而言之,分成三方面:一个是场景识别,一个研发方案,一个套餐的应用和迭代。

场景识别侧重于内部相关需求收集和外部环境应对,侧重点在于,要联合规划。研发方案更侧重于和内部硬件团队、外部的核心供应商联合起来技术开发。而应用更多跟国内国外众多的机房合作商,合作伙伴联合进行落地和优化。也希望通过落地优化得到大家针对项目实时交付,成本和可靠性的需求和反馈,进而变得更好。

三、量化评估,多维度指标体系

评价这个体系有几个重要指标,也是未来交付机房时所关注的:经济性、可靠性、交付性、兼容性、节能和节水性等相对定量的定性指标。

纵向是场景,比如快速交付、低碳节能、高可靠等传统场景;强调两个新场景,高兼容和最高性能。高兼容强调如何设计一个数据中心能够做到面对不同的风冷、液冷比例,以及对不同类型的服务器之间的兼容;而最高性能强调对于某一些特定场景,可以牺牲IDC的成本造价和PUE,换得对IT更加强有力的支持。比如面对GPU业务场景的应用。有时候,将供电稳定性提升和制冷环境变得更好,对IDC有成本压力,但对业务稳定性会带来非常大的帮助。

05

套餐应用场景推荐

PART 5

一、历史镜鉴,国内海外殊途

回顾过去,尝试对套餐进行梳理,展望未来,结合区域推荐套餐。

国内套餐,BM代表字节矩阵(Byte-Matrix),后面的E和M分别是电气和制冷套餐。可以明显看到,在国内电气是非常简单,基本是2N方案,比如 E01代表2N UPS和中压柴发,铅酸电池的方案;而M相对而言比较多元,但它的长尾效应非常明显,是一个典型的幂律分布,一旦有一个方案占据主导,它就会成为一个主流方案。值得注意,尾部的套餐不能忽略。因为很有可能在某一个时间之内,某一个看起来很尾部的套餐将会成为未来的主流。

国外套餐,大家看到电气方案E和制冷方案M千差万别。相对而言没有这么长尾,相对更多元一些,这部分更需要进行收敛。

二、未来领航,区域场景定制

面向未来,结合区域特征和业务场景匹配情况,给出当下相关的技术套餐推荐。

比如对于华北,我们会区分默认场景、快速交付、无水和高可靠几个场景。高可靠场景目前面向于为金融或者火山这种服务外部用户的业务,在这场景下,即使PUE、性能等没有那么高,也会推荐这种方案;对于快速交付场景,很典型的大平层方案,但需要牺牲一些成本和土地;无水也是一个新场景,尤其在华北地区,面对水资源限制,也同样要牺牲一部分的成本和占地。对于华东的默认场景可以看到,多数情况会用冷冻水与液冷结合的方式。

同时,也欢迎大家及时反馈,将推荐方案的套餐不断进行迭代和优化,也许未来某一些技术会成为新的默认场景,而某些方案能够融合所有优势特点。

三、多域推荐,立体技术套餐

具体风冷、液冷的套餐推荐方面。风冷会依据不同的地区进行区分,从而形成推荐方案、备选方案和参考方案。不倾向单纯通过用户视角去推荐在现场实际应用中不太可靠的方案。而更期望和大家共建,给大家提供更多的选择,包括冷板、浸没外部冷却设备的选择也会结合具体情况进行推荐。

对于电气和土建也是一样,电气套餐分为配供电和备电系统。供配电在国内和海外的情况,可以看到推荐策略有区别。国内一般2N为主,目前很少推荐DR和高压直流方案,除非被现场情况制约;对于海外明显是分布式冗余的DR为主,也会接受2N的UPS。

对于备电系统,大家关注相关锂电池,铅酸蓄电池。比如锂电池在国外是一个主流方案,而对于国内,从政策和成本角度,安全性等方面考虑,短时间看并不是最佳选择。

土建结构,在不同地区需要结合前期经验和实际工程情况进行相关推荐。

四、全球落地,实践检验真知

以具体推荐场景演示套餐化落地过程,包括中国华东、华北及海外部分机房,给大家直观印象。

1、华北区域,缺水场景,且需快速交付大模型业务,匹配推荐机柜功率密度16KW的 2N UPS 和无水氟泵一体机方案,满足快速交付和无水应用需求;

2、华东区域,业务类型不确定,兼容性需求高,比如不确定放GPU、CPU还是TOB还是TOC业务,推荐机柜功率密度21KW ,风液同源方案配合液冷,满足兼容性需求的设计方案;

3、海外场景,电价、地价高,土地、电力资源制约,推荐冷机+液冷,采用分布式冗余 DR 以减少占地的技术套餐,实现高资源利用率和低碳节能。

06

展望总结

PART 6

将技术创新、标准化、定制化、研发、兼容性等进行整合,通过“技术套餐体系”的树干进行连接。这些技术好比枝干和树叶,都在蓬勃发展。而树根表示落地项目,由一些具体指标,如:成本、兼容、交付、质量等等构成。最终通过套餐的实际应用反馈,持续迭代上述的套餐矩阵。

未来,我们会从两部分持续思考:一是从套餐化到产品化,为大家提供更一致的解决方案和商业化机会。二是探索更多场景,开拓更多更细的研发场景和思路。推动数据中心技术与产业发展。

END

关注我们获取更多精彩内容


往期推荐

● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

● 腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC
数据中心标准、技术沟通交流平台
 最新文章