阿里云新加坡机房火灾的事情,有了新的进展。
第一,根据中国储能网的报道,阿里云位于新加坡的可用区C数据中心发生火灾,导致包括Lazada和字节跳动在内的主要科技公司所托管的服务出现严重中断。
大家都知道,字节旗下也搞了云服务叫火山引擎。以前行业内总有人说,某某云就是个集成商,实际上很多云服务资源都是买的其他的云。
结果现在大家看到了吧,字节即便自己有火山引擎云服务,但是还是有部分业务使用了阿里云。而火山引擎对外服务中,是不是也用了阿里云,那就不得而知了。
不过,从字节准备自己做云这个动作来看,很可能的一个情况是,在字节创业初期,部分业务使用了阿里云的服务,在自己做了火山引擎之后,已经实现了部分业务从阿里云迁移到火山引擎。只不过,目前看没有完全迁移过来。
这里基本有两个可能。一个是可能字节也在坚持自己倡导的多云策略,避免单一云服务提供商出现问题时造成全面的服务中断,从而提高业务连续性和灾难恢复能力。另一个可能是阿里云等其他云服务或许具备独特的技术或服务优势,所以特定需求依然采用其他的云服务。
第二,根据阿里云官方声明,这次异常是因为新加坡机房锂电池爆炸,导致火灾及升温。
看到这个信息,有点黑色幽默的味道了。为啥?因为这些数据中心储备锂电池本身是为了在市电这种传统电力供应中断时,提供不间断电源(UPS),确保关键系统能够继续运行,直到备用发电机启动。
但是,讽刺的是,作为电力保障的锂电池却爆炸了,导致数据中心起火,反而影响了系统稳定。
数据中心确实容易发生火灾,阿里云这次应该没有人员伤亡,已经是不幸中的万幸了。去年,孟加拉国首都达卡一座14层的大楼发生火灾,造成3人死亡,十人受伤,整个国家的互联网服务都严重瘫痪。前年,韩国SK公司C&C板桥数据中心发生火灾,导致了约3.2万个服务器瘫痪,数千万用户服务受到影响,而韩国人口也只有5200万左右。
所以说,火灾很容易对数据中心产生毁灭性打击。不过,阿里云这次事故有点不一样的点在于,过去很多数据中心发生火灾基本都是服务器自身过热然后爆炸,很少看到因为锂电池爆炸而导致机房爆炸的情况。
那么问题来了,阿里云这个新加坡机房为啥会发生锂电池爆炸呢?阿里云官方没有披露。但是,锂电池爆炸大概率都和灰尘有关。由于设备长时间运行,加上环境恶劣,灰尘油污等不及时清理,就会引起设备短路、高温报警,很容易引起火灾。
我看了下,阿里云在新加坡一共有两个数据中心,一个在2015年启用,另一个是2016年。发生事故的是,新加坡的可用区C数据中心,虽然从物理位置上不确定究竟是哪个数据中心,但是可以肯定的,就是上述新加坡这两个数据中心。
大家要知道一个知识点。我们说的物理上的数据中心,并不完全对应所谓的可用区,一个数据中心,可能对应多个可用区。阿里云在全球范围内的数据中心有30个,然而可用区数量是89个。
如果是2015年、2016年启用的数据中心,这些锂电池很可能已经放了将近十年了,如果没有好好保养、定期除尘的话,确实有可能过热爆炸。
阿里云是中国最老牌的云厂商,积累了大量行业优势,但是其设备老化可能也是不可避免的问题。再加上如今大环境要降本增效,可能这种除尘保养之类的小事儿就容易被忽略了。第一个出发是其优势,设备更老却成了其劣势。从这个角度来看,像火山引擎这种新势力,也确实没听说过发生类似的事儿……
有人说自建机房能避免吗?不能啊。自建机房也得用备用电源,而现在锂电池因为各种优势都比较突出,所以大部分云服务厂商都在用锂电池作为备用电源。在云厂商的数据中心会爆炸,换在你公司的机房怎么就不会爆炸了呢?
第三,截至9月11日01:46,因消防浇水持续进行,机房开始出现积水和渗漏,电路存在短路风险,新加坡可用区C 一栋机房大楼整体紧急断电,可用区C其他大楼业务网络已陆续恢复。截止到9月11日上午10:00,尚有15项异常提示。
这事儿还没有完全结束。有些人觉得,机房火灾怎么会用水来灭。但其实这很正常。大多数现代数据中心配备了先进的灭火系统,比如惰性气体灭火系统(如七氟丙烷、IG-541等)或干粉灭火器,这些系统可以在不损坏电子设备的前提下快速扑灭火灾。
但是,锂电池起火初期如果灭火失败,且火势较大,可能会启用自动喷水系统。因为水,仍然是灭火最有效的工具,特别是在控制火势蔓延方面。
只不过,用了水以后会对数据中心的设备造成影响,在火灾被扑灭后,数据中心需要进行彻底的清理和修复工作。这件事儿毕竟影响到了字节跳动这种大型企业客户,估计阿里云后续应该会有更加全面的检修工作要做。
毕竟上医治未病,防范于未然才是最体现综合实力的。
-全文完-
写干货,说人话,欢迎关注