阿里云又出事儿了。
9月10日,阿里云发布《新加坡可用区 C 网络访问异常》公告:北京时间2024年09月 10日10:20,阿里云监控发现新加坡地域可用区 C 网络访问出现异常,部分云产品服务出现异常。
公告下方还有一个[进展更新] 。
[进展更新]显示,异常因新加坡机房发生火灾导致升温,消防人员已到达现场处置中,云网络大部分产品及云安全产品于 10:55 已完成主动切换,其他云产品服务仍在处理中。请您尽快迁移业务。
翻译一下就是,阿里云新加坡节点因机房火灾,导致部分客户的系统崩溃了。
阿里云崩溃,已经不是一个新鲜事儿了。尤其是最近两年,全行业都在强调降本增效,各种奇葩事儿也就越来越频繁了。去年双11发生了史诗级崩盘,近期又有B站、小红书等平台集体“瘫痪”。
在公告以及[进展更新]里,有一个点还是吸引了我的注意——这两个通告都提到了一个点,那就是让客户尽快迁移业务。
按理说,现在容灾备份已经是云服务的标配了,为啥当一个节点出现故障的时候,阿里云没有把业务自动迁移到其他可用节点呢?为什么反而是告知客户,让客户自己迁移呢?
第一,理想情况下,当主要数据中心出现问题时,系统应该能够自动将业务切换到备份或冗余的数据中心,这样才能让服务中断时间最小化,最大程度减少数据丢失的风险。
然而,实际上并不是所有的服务都能做到瞬间且无缝地自动迁移,尤其是对于那些需要更高层次的人工干预或特殊配置的服务。
第二,火灾可能导致物理基础设施受损,从而影响到自动化系统的正常工作。例如,冷却系统失效可能导致设备过热,而消防措施(如喷淋系统启动)可能导致设备进水,这些都会增加恢复工作的复杂性。
自动化,这时候只能是一个美好的目标而已。
第三,对于某些特定的应用场景,用户可能还需要自己采取措施来确保业务连续性,比如手动迁移数据库或更改DNS设置等。因此,尽管云计算提供商提供了灾难恢复方案,用户也需要了解自身的责任范围,并准备好相应的应急预案。
所以说,在这种情况下,阿里云进行“主动切换”,就是在检测到问题后,阿里云采取了积极措施,手动或通过预定的程序将服务从受影响的机房转移到了其他健康节点。这一过程可能是部分自动化的,但也可能需要人工参与来确保所有服务都被正确迁移并恢复正常运作。
正因为并非所有服务都能够在第一时间自动迁移,因此阿里云通知中建议用户尽快采取行动自行迁移其业务,以避免可能出现的服务中断或数据丢失。
看到阿里云又崩了,很多不太懂的网友说,看吧,就不能上云吧,多不安全。错了,全错了,正是因为这一次次灾难之后的顺利恢复,才证明,必须要上云,才能更好地保护自己的数据、系统等安全和稳定。
如果没有云厂商做的这些备份,那些为了省钱而自建数据中心的中小企业,很可能也没有线下的同城异地容灾备份……那个灾难,才是毁灭级的。