中立分析腾讯云故障相关的事件

科技 2024-04-16 10:20 重庆

最近腾讯云的故障，让一堆云计算爱好者兴奋地远看指点江山、近看沐猴而冠。我比这群爱好者们更了解云计算，但是我尊重我的读者，你们从我这里看到的科普信息，不仅仅只有情绪价值。

在信息爆炸的时代，大家关注和信任某个媒体，媒体作者就应该帮读者筛选出更可信、更有学习意义的信息。本文的前两章内容解释清楚了故障范围，中间两章介绍IaaS和PaaS的产品分类是有意义的；最后的部分是希望读者们少看点口嗨新闻、少嚼点陈年烂梗。

本文的目录为：

我拿到的故障现象
实际故障范围不大
感谢老铁的PaaS云证据
客户该做多云冗余
口嗨新闻没有用途
陈年烂梗之服务状态页
陈年烂梗之系统盘丢数据

1. 我拿到的故障现象

首先，无论哪次云厂商故障，我都是先找真实的故障现象，然后才有资格发表意见。我从个人渠道确认，也看了腾讯云的公开通告，本次的故障现象就是API系统崩了，导致一堆PaaS云产品业务中断了。

API控制面大范围故障，比如控制台、云函数、微服务、文字识别、验证码等等服务都出现了严重的业务中断。
不依赖API的数据面业务未出现故障，比如运行中的云主机、VPC、云磁盘等等。
使用独立API系统的对象存储没受影响，CDN下载和直播客户端拉流不需要鉴权也不会受影响，大型视频客户有预授权额度也不受影响。

本次故障的发生时间很重要，公告里承认是15点20分发生故障，16点大部分恢复，有一个上海疑难节点拖到17点恢复。这种故障最大的伤害是无法使用API做查询和变更，本次故障的时间段客户很少有业务变更，让客户业务侥幸躲过了大部分故障，大部分客户是被控制台故障和API监控失败惊吓和误导了。

在腾讯云的公开通告中发布了一张“全云流量趋势图”，此图也可以作为参考佐证，从此图可以推测出，10-18点的客户需求非常稳定，相比其他时段，客户较少有调整资源的需求。

2. 实际故障范围不大

这次云故障似乎是“天塌地陷的危险”外加“万众瞩目的狂欢”，但这只是读者的错觉，这种故障对腾讯云的舆论影响比真实业务影响更大。

首先，因为本次故障不涉及数据面，运行中的云主机、容器、云磁盘、VPC等IaaS云产品，并没有受到影响。
其次，虽然IaaS云产品的管控功能会因故障而中断，极大地影响了客户的弹性伸缩需求，但是故障时间是15-16点（或严谨说是15-17点），用户一般不会在该时间段大规模申请和释放资源。
再次，CDN可以绕过大部分鉴权故障，因为HTTP下载和直播拉流（客户端观看）都不需要鉴权。大客户做主播端推流也是设置批量并发额度，不超过额度也不会调用鉴权API，而15-17点不会出现业务量超额的情况。
最后，这故障最大的影响是控制台和API系统。控制台故障报错，会吓到用户；API鉴权失败会导致客户的监控系统大批量误报，可能会因为误报而触发不必要的业务迁移。

本次故障主要影响的是CDN强制更新缓存、以及每次开播都鉴权的小视频客户。这次故障会导致“云函数、微服务”等计算类PaaS产品彻底停摆，各大云厂商的长期目标也是推广这几类计算型PaaS云产品，但是，这类产品现在还没有那么大的产品影响力，其最大的价值就是让开发者拿来学习实践。

对象存储使用了独立的鉴权系统，并不受故障影响。腾讯云的公开通告中提及，对象存储的调用次数趋势，在15-16点有目测10%的下跌，这并不是说对象存储也存在服务中断，而是被其他业务的故障牵连导致轻微用量下降；那些坚持没跌的90%存储调用次数，更是在证明大量的客户业务依旧正常工作。

3. 感谢老铁的PaaS云证据

这次腾讯云的故障和去年的杭州云故障，都让我体验到了一种“感谢道友，以死帮我证道”的舒爽，我给他们做辟谣科普，也是在验证我坚持的道理：

云厂商对IaaS云和PaaS云产品做分类，不是为了概念炒作，而是对产品设计、技术实现、客户包装乃至故障炸窝都有指导意义。我的新书《云计算行业进阶指南》（审批完结，在走印刷流程）有一个章节专门介绍IaaS和PaaS的分类方法，IaaS云产品以“规格和能力上限”为计量单位，PaaS云产品以“软件可识别的用户行为次数”为计量单位。

当云产品遭遇API系统崩溃（或者鉴权异常）故障时，因为IaaS云产品只需要API来管控业务变更，而PaaS云产品的每一个业务步骤都需要经过API系统，这导致两类产品的故障表现存在明显差异。

但是，我也需要硬核证据来证明我的主张有可信度。半年内两次典型又知名的云故障，几乎就是按照我对PaaS云产品的定义做定向爆破。上次我为了表示感激之情，公开给杭州云写辟谣文章，这次我也要公开给腾讯云做一次辟谣。

4. 客户该做多云冗余

没有不出故障的云产品，但客户业务部门不允许本司技术部门以“云厂商出故障”为理由中断业务服务。客户技术部门只能在故障发生前做好冗余设计，在故障发生时有快速切换预案，这才是最理性务实的选择。

在客户做云服务监控和多云冗余的工作中，IaaS和PaaS云产品也有明显的差异。

IaaS云可以通过AZ（可用区)来实现云内故障隔离，但PaaS云产品没有AZ的概念，这让客户只能用多云冗余来规避PaaS云产品故障。
IaaS云向云厂商开放了大量的监控信息，但PaaS云只露出简单的API接口，这让客户很难对PaaS云产品的真实可靠性做监控。
IaaS云做业务迁移有复杂的步骤，但PaaS云的业务迁移很容易，甚至可以将多云切换的权限下放给客户端SDK。

客户并不太关PaaS云产品的后台技术说明和故障改进规划，因为客户没有任何鉴定和监控手段，各种故障后的复盘悔改，都只是无法证伪的商务礼仪。各种对PaaS云产品的“头脑风暴+环境设定+思维博弈”读起来很爽，但实际上毫无价值，客户做好PaaS云产品的多云冗余才是唯一可信的保障。

5. 口嗨新闻没有用途

每次云厂商故障，很多云计算爱好者都兴奋的像在过年。云厂商出故障了应该被嘲笑，但各位读者看这些口嗨新闻能获得什么有用途的信息哪？这些口嗨新闻里到处都是空洞的“劲爆和焦虑”，但是这些爱好者连故障现象都说不清楚，还会影响读者对现象和本质的判断。

这些口嗨新闻只是一个舆情事件，并不会影响到云厂商的销售经营。这些偶发故障只会影响这两周内的新客户签单测试的过程，并会导致极少数专业小客户迁移到友商云（然后等促销或者友商出故障时再切回来）。

云计算从业者无法从那些口嗨文章中学到任何技术建议，因为脱离实际生产环境的口嗨是没有价值的。IaaS云产品的生产环境相对雷同，所以IaaS技术的精进方向还有趋同进化，但是PaaS云产品并没有统一的技术路线。

计算机工程师也无法从这些口嗨新闻中学会任何解题思路，反而会产生“我行我也想上”的浮躁情绪。云厂商每次出故障，我都会做上一段时间头脑风暴，想想有哪些改进方案。但我从不公开发表意见当懂王，因为在架空环境里谈IT技术方案，这是在炫耀自己的无知。

6. 陈年烂梗之服务状态页

因为云计算爱好者们写口嗨新闻时知识储备匮乏，他们骂云厂商翻来覆去就那么几个事。这其中第一个烂梗是，服务健康状态页，这个烂梗很缺德。

每当云厂商出故障时，就会有云计算爱好者谈“云厂商怎么都不做服务健康状态页面”。我并不认可这种产品建议，先谈一下大致原因：

- 各产品线有自己的API状态接口，如果客户没用好产品线自己的状态查询接口，这是包装培训问题不是产品设计问题。
- 如果你是客户的技术工程师，你会如何使用这个汇总状态页？这是个轻度参考还是重度依据？乱加内容是在增加客户的用云难度。
- 现在有个多产品线公摊的API和鉴权认证系统，就已经频繁出现全平台故障了；再新增个多产品线共同维护的状态页，是嫌弃误报漏报还不够多吗？
- 状态页面不是什么新功能，2014年就有友商大肆宣传这个功能了。但无论灯塔云还是国内云，都是没有客户使用，才导致这个功能逐渐荒废了。

我并不反感朋友们给云厂商提出的善意建议；我也不反对云厂商再去折腾一下这个荒废功能，“缓解客户的质疑焦虑”也是一种产品效果；我甚至不反感爱好者们反复呱噪这个状态页，因为这在证明他们的无知。但我明确说，做状态页就是在敷衍孩子。各位读者别老看各种《云厂商居然不知道做个状态页》的呼吁文，这种呼吁没有价值，你们应该找找有没有人写出过《亲身实践！使用服务健康状态页的实战心得》。

我真正反感的是，一些云计算爱好者在写口嗨文章时，“裹胁式引用”一些善意的建议。你们和云厂商吵架博出位，是自己愿意承担对应的敌视风险的。但你们在恶意骂战的语境下，反复大喊“某某大佬也提出过相同的建议”，这就是强行拉旁观者站队，让旁观者善意且随口提出的建议，变成了你们和云厂商吵架时的证据。这样做真得很缺德，也容易没朋友。

7. 陈年烂梗之系统盘丢数据

因为云计算爱好者们写口嗨新闻时不了解历史事件，他们骂云厂商翻来覆去就那么几个事。这其中另一个陈年烂梗是，前Y数控丢数据。

每当爱好者们提到这个陈年烂梗时，似乎在和“可怜的客户”同呼吸共命运。但这个烂梗里根本就不存在客户，爱好者们每次提这个烂梗，都是给前Y数控增加被倒查深扒的风险。

腾讯云当年最大的失误不是丢系统盘的数据，而是公开故障细节给看客们找攻击挑刺的谈资。我是真佩服这个前Y数控，既要毁了自己的融资渠道，也要毁了自己技术团队的声誉，就为了“按闹分配+试试运气”。

* 一个IT科技公司连续八个月才消费3569元，请问他能买多少云资源开展业务？我在2016年就开始教风投们如何解析IT类创业团队的资源采购账单了，就这种用云量信息，能找到IT技术圈的投资吗？（依稀记得，这是一家大数据技术公司，重要数据都放在腾讯云上，但网上已经搜不到该公司的详细信息了）。
* 一个技术创业企业，将价值上千万的核心数据放在系统盘里，还没任何备份。这个工程师和CTO的履历上，敢明着写上这一段“给公司创收”的神奇经验吗？
* 2018年云厂商丢系统盘的数据，有什么值得大惊小怪的？在2018年，即是AWS的EC2，也不保证系统盘不丢数据，而是建议客户将数据存在云盘或者对象存储。

我们当然为腾讯云的遭遇而感到幸灾乐祸，因为“这么弱鸡的理由居然能成功碰瓷……”。但我不会和坑蒙拐骗的行为共情，盲目带入身份、病态换位思考都是心智不健全的表现。本来这个什么数控公司已经安然撤退了，但这些云计算爱好者们如获至宝的反复提及此事，这实际是在坑谁哪？

http://mp.weixin.qq.com/s?__biz=MzIyMDY2MTE3Mw==&mid=2247495216&idx=1&sn=41d91a2e1f4fb55d745441eb35418815

运维开发故事

由一群志同道合的小伙伴共同维护，有运维也有开发，内容不限于Linux运维，devops工具链，k8s容器化技术，监控，日志收集，网络安全，Python或GO开发，团队成员有乔克、wanger、冬哥、素心、华仔、郑哥、夏老师

最新文章

夜莺 v7 最终版来了，可以上车了

年薪98w！运维人的新赛道，我决定入局！

服务器又被黑了，可咋办

将 VictoriaLogs 与 Grafana 集成，是时候抛弃 Loki 了！

告警平台V1.0版本

K8s 负载感知调度实践（koordinator & crane）

6 张图带你深入了解 kube-scheduler

使用 Koordinator 实现资源负载感知(重)调度

大模型驱动的智能化运维（文末抽奖）

Prometheus 3.0 全新的 Dashboard！

使用 Higress AI 插件对接通义千问大语言模型

太牛了！华为《Linux核心笔记》火了！运维必须整一份！

HR 再问运维是干啥的，你就把这个丢给她

“ 运维天命人” 通关必看的18个技术干货

急速Boost，让数据跑得更快 -- Ceph缓存技术全解析

K8s 集群巡检

开发了一个 Copilot 用来处理运维故障

无敌了！强烈建议运维人今年拿下软考！

接口拨测 Plus 版本

牛批！阿里内部《DevOps实践手册》，运维开发必须收藏（附高清PDF免费领取）

kvm安装windows虚拟机并安装virtio驱动

基于Gitlab CI+Argo CD的Gitops实践

Kubernetes场景下基于Nvidia GPU Operator 实现图形渲染能力

LLM On Kubernetes

Kubernets的NVIDIA设备插件安装方案实践

K8s 多集群思考、实践和探索

ceph配置缓存池

Jenkins Pipeline用户权限管理新技巧：打造安全高效的流水线！

【深度解析】K8s如何助力运维、开发、测试等岗位提升核心竞争力

基于Jenkins Pipeline构建企业级CI/CD

带你搞懂Kubernetes Pod 如何获取 IP 地址

你必须知道的Docker数据卷(Volume)

CoreDNS 概述及运维实践

Kubernetes 策略管理引擎 - Kyverno

中立分析腾讯云故障相关的事件

Etcd 概述及运维实践

Kubernetes中的事件收集以及监控告警

kube on kube 实现思路分享

JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

记一次 K8s 故障处理

你可能不知道的13个Kubernetes技巧

Istio多集群实践

Zadig 版本管理与自动化发布最佳实践解析

线程池#1：什么是线程池？

恭喜了！全体程序员彻底狂欢吧！这个好消息来得太及时！

开发一个接口监控的Prometheus Exporter

运维开发故事给大家拜年：祝大家新春快乐

维持请求的透明度：如何在 Istio 中保留客户端请求的源 IP

分享 Kubernetes 日常运维工作中常用的命令

2023兜兜转转，2024持续向前

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉