自己亲手引发运维事故是一种什么样的体验?

科技   2024-05-19 22:02   上海  
将 "数据与人" 设为 "星标⭐"
第一时间收到文章更新

看到一个有意思的问题:

看各位网友的回答

作者:罗健


这是我刚入行时引发的一起事故。


某互联网公司,有一个实时计费系统。有一天我闲着没事干,到前台泡妞。


前台小姑娘和我说,计费系统的时间不准,慢了刚好1年。我问他之前是不是也这样,她说是的,一直都比实际慢1年。


我估计是系统上线的时候,实施工程师把年度时间改错了。但是用了这么长时间都没有问题,说明并不影响计费系统的正常运行。


但是前台小姑娘可是个大美女,既然她提出来了,我想,怎么也得露两手,谁叫我是“专业”的运维工程师呢


我不经思考就直接对她说:“这简单,把linux系统时间改一下就可以了。


然后,在计费系统里熟练地输入了更正时间的代码,毫不犹豫地按下了回车。


前台小姑娘一脸微笑,但是突然,她脸色凝重了起来,指着计费屏问我:“怎么在线用户都不见了?


我一看,也觉得奇怪,正常在线用户都有1000多人呢,现在怎么只有几十人了?


我纳闷了好长一会,然后接到了客服部的电话,客服部急迫地问我:“是不是有什么故障?投诉台有上百个电话同时打进来,说是断网了!


我顿时脸色大变,眼睛瞪得老大了,意识到出大事了!


监控室几乎也是同一时间,也打电话过来了,问我是不是出了什么故障了,他们监控到有大范围用户断线的异常告警。


我吓得腿都软了,站都站不稳,脑子一片空白,冷汗从额头处瞬间冒了出来。


正当我不知所措的时候,已经惊动到了直属领导涛哥,因为后台监控系统一旦有告警,告警短信就会第一时间自动发到相关维护人员的手机上。


涛哥打电话问我怎么回事,我实话实说了,是边哭边说的。


涛哥也是很有领导魅力,当下叫我先保住现场,稳住用户,他和运维组的工程师们马上赶过来。


10多分钟后,涛哥和运维组的工程师及DBA火速抵达了现场。


故障的原因是时间变快了1年导致的,所以在1年内过期的账号全部被踢下线了,而且无法重新登录。


当时DBA写了个语句查询之后发现,这些账号多达3千多个。将时间再改回去也行不通,系统时间就会颠倒错乱,数据就全乱套了,后果更严重。


涛哥果断做了决定,直接修改数据库,将这3千多个账号的到期时间,全部改到年底。


DBA赶紧写了相关语句,同时对相关的数据表进行了备份。


语句准备执行的时候,DBA手都抖了,涉及到的账号不是一两个,而是几千个,影响范围太大了,万一有啥差错,就吃不了兜着走。


语句执行的时间很长,我们的心都在颤抖,好在顺利执行了。


之后,我们赶紧抽查一部分账号,发现这些账号已经能正常登录了,然后赶紧通知客服部的工作人员,叫用户重新登录,借口是网络波动导致的。


从故障发生到恢复,用了40多分钟。但是,计费金额和财务账上的已经对不上号了,后续财务部算了一下,出现了40多万元的空缺。


正常情况下,故障时间超过10分钟就会被定性为事故,总部将这次事故定性为1级:严重事故,人为。


这件事结束后,我被调离了工作岗位,公司对我进行了长达3个月的重新考核,职称从T2降级到了T3,年终奖和绩效全没了... ...


我的直属领导涛哥,因管理不善,被记大过处分... ...

问一下:花这么大代价,泡到前台了吗?

作者:法外狂徒张三


2021年9月29号,我接到研发的请求,要给他们部门专用的服务器安装一个软件。


我立马用root apt install安装好了,但是我安装过程中看的有一些不认识的包怎么装上去了,装完后发现好像也没有哪里不对劲,系统能正常运行,遂交付给研发。


过了一会研发找到我说不对啊,怎么有些安装包没有了,然后我又继续安装不见的包,然后修修补补,终于把他们缺的东西补齐。


然后再试,还是不行


继续检查,研发说glibc版本不对!得赶紧解决,这个是和客户环境一致的,我们国庆的时候release


然后我就找办法降级glibc,找到晚上也没有办法,我领导也加入一起找解决方案。


我们把Google百度翻了个底朝天,也没看到有解决方案,一直到凌晨五点,两个人实在顶不住了,然后去睡觉。我睡的也不踏实,早上八点就起床了。


按照原计划,我在9月29号下班就开车回家,然后30号在家办公的,结果全被打乱了。


第二天继续上班后,我和领导商量要不给他们重装吧,领导去和他们商量回来,说有一些商也软件特别不好搞,不能重装,当初花了好长时间才把这套环境搭起来的!(搭建这套环境的前领导跳槽了)


然后我继续找解决方案!


找啊找,找啊找,我搭了各种环境做测试了,就是不能把glibc给降级。


然后毫无意外的,研发的release不能在我们的环境上搞了,还好他们还有外部环境能用,不然我不知道怎么办!


就这样胆战心惊的过了个国庆,国庆我也一直在查文档,当时还跟我妈说,我可能要被辞退了。


国庆回来后,我继续收拾这个烂摊子,然后研发捅到我大领导(vp)那里,为了这个事,专门开会几次,并制定了一系列针对他们部门的问题处理流程,以及当前问题该如何解决,然后得出结论,他们部门以后所有的安装软件需求,必须经过大领导审批,我们才可以动手,并且全力恢复这台服务器的环境,好吧,这个事我继续干。


当时9月份我们一个同事合同到期,因为表现原因,没有续签合同,只剩下我和领导两个人,压力特别大。


屋漏偏逢连夜雨,当时我们内网又被外部攻击,我领导全力处理那边的事,我一个人一边想办法解决该部门的烂摊子,一边处理其他部门提过来的case,忙的不可开交。


弄了一个多月后,我决定放弃,重新搭建一套环境给他们,遂向领导汇报并征得同意,用了两三天时间就把那套环境搞好了,并没有他们说的那么麻烦。


那段时间因为人员少,我领导动不动就是加班到八九点,我六点多七点这样下班(外企嘛),感觉特别对不起他,人少的情况下还给他添乱。


当时我还想着年终奖可能要变少了,结果还超出了我的预期!


当时我真的是胆战心惊,干运维这么久,第一次搞出这么大的事,差点影响到他们的release。后面我领导说到:人总是会出错的,出错不怕,就怕重复出错。跟了这样的领导真好!


去年我拿到字节的offer,和他提出离职,他特别震惊,说到:我们去年这么难都挺过来了,现在舒服了,为什么要走呢?是有什么不满意吗?然后我和他说了我的诉求,他很积极的和vp沟通,后面在他们的努力下,我又留了下来!

"安装过程中看的有一些不认识的包怎么装上去了",这是大忌啊

作者:qwer9876


有⼀次看⻅个服务器,⾥⾯有个定时apt update/upgrade脚本,但apt误写成了atp,所以这脚本从未被成功执⾏。


我⾮常“好⼼”的帮他更正,并⼿动执⾏了⼀次,然后可能因为太久没更新,更新崩了。


项⽬组的⼈下来查看,我急中⽣智,若⽆其事的指着卡住了的apt说,“我就说闲着没事乱更新,看看,这不更新坏了。” 


那个⼤哥出了⼀头汗,盯着apt左看右看,说“不应该啊,这⼀年每天更新都正常啊,怎么今天坏了?” 


趁他疑惑,我赶紧跑了。

建议直接推锅给debian/ubuntu。早就说了服务器系统要用centos

作者:爱网上冲浪


曾经给公司的一个客户维护数据库,要删除一个掉测试用户。


输入完 delete from users ,顺手快捷键执行了。


最坑爹的是数据库是游戏组的老哥搭建的,用的phpstudy搞的,没有开启binlog。


数据库的几十万用户,客户花了几百万推广费。那一瞬间,就感觉背后汗水流下来了。


结果因为有外键,没删掉!真是吓死爹了。

长点心吧,先select,确认条件没问题后把select语句复制一边,改成update或者delete

作者:乔木leon


学网络的小伙伴,老师都应该告诫过你们没事别打 debug all 吧。


嗯,我打了,导致一台核心交换机歇了,全公司断网。


当时刚毕业头铁,全组的前辈们对我只有牛逼两个字的评价。


最后把线拔了换了冷备的交换机,等 debug 完了又切回去的。

好在有冷备,运维管理做得充分。

作者:小小的


这个不说太详细,毕竟不能匿名了,


反正三⼤运营商之⼀,上4G那年,后台需要每个4G基站都要输⼊单板编码。


⽐较⻓有18位,需要⼿动填写,还要填基站单板IP,有⼤概60多个需要填写。


太麻烦了,然后呢我看到输⼊界⾯上⾯有导⼊导出(我3G⽹管配置数据⽤的都是EXCEL导⼊),然后我骚操作来了,


打开DHCP 管理,导出全省的DHCP,然后看⼀下填写格式,然后新建了⼀个excel模板表头复制进去。


把我需要填写的编码填进去,然后导⼊,导⼊前我也不知道怎么想的,就⻤使神差的备份了下全省的DHCP。 


导⼊后我才发现,全省将近上千个4G基站的DHCP没了,就剩我导⼊的了,⽹管4G⼤量出现掉站告警。


我瞬间⾎压就上来了,脑⼦真就嗡的⼀下,全身汗⽑直⽴。


然后我反应过来,我瞬间⼜给导⼊了进去,⼤概10分钟左右吧,告警就慢慢恢复了。


告警恢复过程中我真的度秒如年啊,当时要是谁给我打电话我能吓死。


没被发现下因为当时4G才开始,是试⽤期,没多少⽤户,


基站夜⾥开通本来就会有告警,运营商不太关注这个,⼜是凌晨新的⽹管经常系统升级,所以我躲过⼀劫。 


给不太懂的⼈解释下这个事情有多⼤,就这么说吧在那10分多钟内全省⽤户⼿机不能4G上⽹。


还好当时没那么多4g⽤户,还是凌晨,以当时的4G发展,这事但凡出晚⼏个⽉,⼤家都可以在新闻上看到我了。 


我当时填写我得数据的时候我想了下我第⼀次弄别导⼊错了,留个备份吧,我要是直接原表改,那就完蛋了。


全省4G全部掉完,得涉及⼏个⼩时,我就这⼀个念头差点闻名全国啊。 


我还有⼀次删除数据差点把全市的3G基站数据删除,他提示我确定要删除吗?


我瞬间精神了,我那个否字,我整整确认了有30多秒,他连个可以点掉的X都没! 

很刑

作者:匿名


生产环境的支付全靠两个数据库,两个数据库来源网络是全开放的。


我没带脑子,给加了个白名单,于是全国范围线上线下所有的支付全部失败。


老板大晚上打电话过来骂了我十几分钟,说赔了几十万。

该说不说,感觉这个支付设计有问题。

作者:邱爽


15年的时候,在一个做页游运营的公司,因为刚起步,有时候业务空窗期,官网上什么内容也没有,我就没有及时续费服务器。


当时用的阿里云,就是欠费7天之内不会被清空,所以好几次我都是赶着最后的时间点再续费,想着给公司省点钱。


直到有一次。我忘了,第八天的时候收到阿里云的短信通知我服务器被释放,我当时整个人都石化了。

做运维给老板省钱就是给自己扣工资。

作者:海阿姨


某个版本升级。因为服务器硬盘满了。所以顺手备份代码后格式化了下。


然后就知道了。某个版本前,有前前前任老哥竟然直接把客户上传文件放服务器上而不是文件存储服务器上。


于是公司大概400多家超过8年的老客户的附件没了。


是完全找不回的那种。

也太莽了,不认识的都不要乱删,你不知道什么人会在test.txt里放有用数据。

作者:周彦


有个公司,服务器做了RAID5,一块盘坏了,因为没有人管,所以也不知道坏了多久;


那天去处理另一个问题的时候无意中发现了,就让他们买盘回来替换。


过了好几天才买回来,我上去换盘,一切正常,正在重建,大概过了两分钟左右,又一块盘掉了,就死活读不出来了。


也是怪我,换之前没备份。不过寸到这个地步估计备份的时候也得掉。


活久了啥破事儿都能碰到。

______


补充一下,这个公司只是个制造业的小公司,出事儿的机器负载的是ERP。本身不是什么大公司,经营不善开了一堆人最后连网管都没有了。


我是出于帮忙看看的意思发现的RAID5掉了一块盘;换句话说,正常看到这故障第一反应是赶紧替换盘,也是怪我没想到会那么寸,这事儿概率真不算高。而且我估计真的先备份的话,有可能也会掉。

重建RAID前,必须热备份,这是运维常识啊,兄弟。


说这么多,希望大家对运维始终怀有敬畏之心,严格遵守规范流程,关键时刻能保命!

还有什么有趣的案例,欢迎各位大佬留下你的评论~


更多精彩内容,关注我们▼▼

数据与人
聚焦技术和人文,分享干货,共同成长。
 最新文章