看了网易云音乐的迁移方案,感觉很难不出问题

乐活   2024-08-20 15:41   北京  


我的个人博客:www.moonkite.cn

大家好,我是风筝

相信大家这两天已经看到网易云音乐服务挂掉的信息了,持续时间大概有两个多小时。

我就是其中的一个亲历者,我习惯写代码的时候放着歌,就当做白噪音了,主要是用于隔绝外界的干扰。昨天下午应该是3点多,我依旧是循环播放「我喜欢的音乐」列表,一首歌结束后突然没声音了,我打开客户端一看,列表在迅速往下滚动,但是每一首都提示 「网络错误」。

我在重启了两次客户端、断网重连、检查其他网站都正常后。

我想难道是服务出问题了,不应该吧,在我印象里,用了网易云音乐好多年了,从来没出来问题啊。

抱着怀疑的态度,我打开微博,果然热搜第一个就是『网易云崩了』。不得不说,现在微博就像一个服务监控告警平台,只不过是事后告警。

有小道消息说是有人删库跑路了,有人说是因为降本增效,负责存储的开发被裁的差不多了。

猜测的原因应该是服务迁移导致的,只不过不太清楚是服务迁移还是数据库迁移,真正的原因只能等待官方了。

网易云音乐之前是部署在杭州的,云音乐贵州机房迁移总体方案回顾 这篇文章是网易云音乐技术团队在7月11日发的一篇迁移总体方案,方案里说要把2000+个服务整体迁移到贵州。

你现在 ping music.163.com会得到一个 IP 地址,这个IP的归属地已经是贵州了。

文章中说:这是云音乐史上规模最大、人员最多、难度最高的技术项目,需保障 2000+应用、100w+QPS 的服务稳定迁移,解决大量历史技术债务和新增系统性风险。

迁移规模大、业务复杂度高、服务间依赖复杂、历史积弊多、新增风险大、限制条件严苛、事项推进与协调难度大。

其实不用细读文章,只要一看这个规模,再结合自己公司、项目上的经验就知道这个迁移难度有多少,而且还说要保证核心服务不出 p2 及以上级别的故障,这一下来了一个 p0。

说实话,这种级别的迁移很难保证不出问题,想要不出问题,可能真的需要佛祖保佑了吧。

而且有较多的应用长期不升级,与最新版本跨度较大,存在较多的兼容性问题,需要人工进行升级处理。下面是升级流程:

老应用、不升级、版本低,作为一个程序员,这几个词听起来就容易引起恐慌。通俗解释就是:开发应用的人离职了、没人能维护、动一下可能出问题。这样的应用要在迁移的同时进行升级,简直不要太恐怖。

所以说,出点问题,还是很能理解的。就是可惜这样几个小时的 p0级别的问题,恐怕相关人员的年终奖是要没了的。

对了,现在在网易云音乐移动端搜索「畅听音乐」可以免费领取 7 天黑胶会员。

还可以看看风筝往期文章

用这个方法,免费、无限期使用 SSL(HTTPS)证书,从此实现证书自由了

为什么我每天都记笔记,主要是因为我用的这个笔记软件太强大了,强烈建议你也用起来

「差生文具多系列」最好看的编程字体

我患上了空指针后遗症

一千个微服务之死

搭建静态网站竟然有这么多方案,而且还如此简单

被人说 Lambda 代码像屎山,那是没用下面这三个方法

古时的风筝,一个程序员,一个写作者。

古时的风筝
努力成为独立开发者的程序员,分享我了解的关于编程、独立开发等知识,知不不言,言无不尽
 最新文章