技术运维操作的7个原则

文摘科技 2023-08-08 10:58 日本

在

学

习

中

进

步

！

技术运维的操作的范围包括应用、系统、网络和数据库的变更，这是一项非常复杂的工作，需要在操作过程中保持系统的稳定性、安全性、高效性和可维护性。在面对复杂多变的问题和挑战时，只有深入理解和掌握运维操作的基本原则和理论，才能保持冷静，找到最佳的解决方案，确保系统的稳定运行。以下是从长期的技术运维操作实践中总结出的七个原则，希望这些操作原则能为技术运维工作带来一定的指引作用。

一、最小化原则

应该尽量保持最小的变更范围和深度。这个逻辑就是要尽最大可能控制操作所带来变化的目标数量，这样在变更过程中或者变更完成后出现任何问题，不仅可以立即回滚，还能很快定位错误。例如，Google在更新其搜索算法时，首先在部分用户群体中进行试运行，并逐步根据反馈进行调整，最终将改动推广到全网，而不是一次性对所有用户进行全面更新。Knight Capital是一家美国的金融服务公司。2012年8月1日，该公司在软件更新过程中发生了重大错误，一个未经充分测试的新交易软件被部署到了生产环境，导致在45分钟内进行了大约4.4亿美元的错误交易，公司最终损失了4400万美元，并在事故发生后的两天内被迫出售。

二、自动化原则

应该尽量将手动操作转化为自动化操作。人的体力是有限的，人的知识和技能是有限的，人的精力和注意力也是有限的，最关键的是人是有情绪的。任何运维操作高手都无法确保不犯错误，因此要采用自动化操作替代人工操作。Netflix使用Chaos Monkey自动化工具来模拟各种故障，以此来测试系统的健壮性，所以其应用的质量很高，系统运行平稳可靠。相反，2017年2月，GitLab的数据库在进行手动操作时发生了人为错误，由于操作失误，删除了大量重要数据。致使该公司的线上服务中断了将近6小时，对公司声誉造成了严重的影响。

三、标准化原则

应该尽量采用标准化的工具和流程。标准化的工具可以让所有运维操作人员积累经验，这里并不是说自研系统不可取，而是说所有自研工具都需要在生产过程中逐渐成熟完善，是需要以系统宕机为代价缴学费的。标准化的流程可以为技术运维人员提供有效的行动指引，知道每一步应该怎么做，做到什么程度？而不是老中医凭经验干活，稍有不慎就会出现人命风险。例如，Amazon Web Services提供了一整套标准化的云计算服务，让运维更加稳健和方便。2014年，一家电商公司因为使用了自研的订单处理系统，结果在双十一当天出现了严重的订单延迟和丢失问题，给公司的运营和客户服务带来了巨大压力。

四、安全原则

应该始终把安全放在首位。再好的业务，再牛的技术，再稳健的操作都抵不过安全问题。不重视安全风险，不采取有效的安全管控措施，不仅仅会影响系统的稳定性，更严重的是对整个公司带来巨大的破产和倒闭风险。2017年5月，全球爆发了WannaCry勒索病毒事件，在这次事件中，那些经常进行安全更新的组织成功避开了袭击。当然也有不少公司没有那么幸运，英国国家卫生服务体系（NHS）是受攻击最严重的组织之一，因为他们在事件发生前，没有及时按照Microsoft的安全补丁，导致了大量计算机被病毒感染，影响了数千名患者的治疗。

五、可恢复原则

应该确保系统在遇到故障时，可以快速恢复到正常状态。就是说系统要有能力保持应用和数据在某个时间点的拷贝，确保在发生系统故障或者数据出现问题的时候，能够迅速取得应用和数据的备份并完成恢复。GitLab在2017年的数据丢失事件中，由于有备份策略，成功恢复了大部分数据。而在2014年，一家名为Code Spaces的代码托管公司，遭到了一次严重的DDoS攻击和数据删除。由于公司没有有效的数据备份和恢复计划，最终无法恢复丢失的数据，导致公司不得不宣告关闭。

六、可扩展原则

应该考虑系统的可扩展性，以应对业务增长或变化的需求。任何一间公司都怀着向全世界甚至宇宙无限扩展的理想，这是企业家的本性。所以运维操作过程中必须认真考虑系统的可扩展性，也就是能够在业务真正飞速发展的时候提供足够的运行空间。黑色星期五购物节期间，许多零售商会提前增加服务器资源，以应对可能的流量激增。在2014年的世界杯期间，一家著名的在线直播网站在比赛高峰期间突然崩溃，因为他们没有提前预估和扩展服务器资源来应对突然激增的流量，导致大量用户无法观看比赛。

七、透明化原则

应该尽可能让运维操作透明化。这个原则要求技术运维操作必须要先有详细的预案，而且这些预案必须要经过变更委员会的严格审查。同时保持专业和完善的文档，另外操作的过程，验证的结论也要记录在案，以备日后的复盘，让其他的团队和后续的技术人员有学习的基础。在GitHub，所有的运维操作都会被详细记录并公开，这为其他团队提供了宝贵的学习资源。在一次著名的AWS S3故障中，部分服务的运维操作记录丢失，导致AWS的工程师花费了大量的时间来追踪和解决问题。如果他们有详细的运维操作记录，可能可以更快地找到问题和解决方案。

以上所总结的技术运维操作的七个原则以及各自的实践案例，希望能为大家的运维操作工作提供一些参考和启发。这些原则并非孤立存在，而是相互关联，相互影响。在运维工作中，我们需要灵活运用这些原则，根据具体情况制定最适合自己的策略。

最后要强调的是，理论和实践的相互作用在技术运维中尤其突出。缺乏理论武装，我们的工作就只能依赖经验和直觉，而这往往容易犯错误，无法保持效能的持续提升。没有实践，理论便只是空谈，无法解决实际问题。只有将理论与实践紧密结合，我们才能提高工作效率改善工作效果。

-----------------------------------

想要了解更多关于支付的故事，请阅读《一本书读懂支付》---扫描下方↓二维码，即可获得！

-----------------------------------

作者介绍

陈斌

NETSTARS

首席技术官（CTO）

http://mp.weixin.qq.com/s?__biz=MzkyNDExOTQzNA==&mid=2247485219&idx=1&sn=eb83c581718e3eea3fc9e89523bfaf17

架构决定未来

Netstars技术分享

最新文章

富不过三代吗？

【跨境金融大会】NETSTARS陈斌将解析AI在支付和金融科技领域的应用

AIGC如何10倍提升编程的效率【4大专家深度分享+巅峰对谈】

谈钱不伤感情

《谈钱不伤感情》分享会

大模型重塑软件架构·开启智能编程新纪元 | 好书推荐

系统可用性的计算方法

一次事故暴露出的三个架构问题

架构设计：大道至简

AI革新软件测试：缺陷管理

AI革新软件测试：功能测试

智能化API对接平台：重塑企业系统集成

如何利用 AI 解决 API 对接过程中的问题

【活动通知】利用AI提高企业效率

【活动通知】AI辅助研发实践

AIGC提升金融业内部生产效率的5个维度

大模型范式革命与软件研发赋能

首席技术官领袖峰会-《AI变革技术研发》

从瀑布模式到水母模式：ChatGPT如何赋能软件研发全流程

事半功倍与事倍功半

DBA如何利用ChatGPT优化SQL语句？

ChatGPT如何帮DBA做数据库设计？

哪种软件开发模式最好？

中美日三国软件开发模式比较

应该如何做好技术支持？

大道至简：如何避免过度工程化

从1万小时定律看35岁瓶颈

未来支付会是怎样？

不可能完成的任务

确保企业持续发展的关键：S曲线与631战略

技术运维操作的7个原则

系统容量管理：SRE的关键任务和实践

团队组织，应该是纵向还是横向？

产品经理的关键技能与素养：制胜利器

复盘：找准问题，总结经验，不断进步

团队管理，应该关注明星队员还是短板队员？

新时代下技术总监应该如何做好部门的管理

2023下半场，成为首批彻底搞懂支付的人

达克宁效应--知道与不知道的重要性

人工智能编程会取代程序员吗？

如何与ChatGPT愉快地聊天

马斯克与互联网支付

鲜为人知的重大发明

二维码与围棋的故事

ChatGPT与软件开发

东京金枪鱼交易的故事

尴尬中的创新

向外扩展与向上扩展

如何确定产品研发的优先级

《后疫情时代FinTech行业的发展方向》分享会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉