Cloudflare 在 11月发生重大故障，导致日志丢失

科技 2024-12-16 13:31 辽宁

作者 | Renato Losio

译者 | 刘雅梦

策划 | 丁晓昀

Cloudflare 最近证实，在 11 月 14 日，他们发生了一起影响 Cloudflare 日志的事件，在 3.5 小时内丢失了 55% 的日志。

该事件影响了使用该服务的大多数客户，配置错误引发了一系列系统故障，并暴露了处理意外流量激增方面的弱点。Jamie Herre、Tom Walwyn、Christian Endres、Gabriele Viglianisi、Mik Kocikowski 和 Rian van der Merwe 解释道：

通常，Cloudflare 每天向客户发送大约 4.5 万亿个单独的事件日志。尽管这只占需要处理的 50 万亿个客户事件日志总量的不到 10%，但在构建可靠且容错的系统时，它带来了独特的规模挑战。

为了提供来自全球 330 多个城市的数万台服务器的日志，Cloudflare 开发了 Logpush，这是一种 Golang 服务，旨在收集日志并将其推送到可预测的文件大小，同时根据使用情况自动扩缩。内部 Buftee 服务为每个 Logpush 作业提供了缓冲区，其中包含由区域或帐户生成的 100% 的日志。Logpush 从这些缓冲区读取日志，并将它们分批推送到各种客户配置的目的地，每天处理超过 6 亿个批次。

在这篇文章中，该团队重点介绍了 11 月 14 日出现的问题，详细介绍了所涉及的系统、所经历的故障以及 Cloudflare 计划采取的行动。作者承认：

我们进行了一个变更，以支持 Logpush 的附加数据集。这需要向 Logfwdr 添加一个新的配置，以便它知道要为这个新流转发哪些客户的日志。(......) 该系统中的一个缺陷导致向 Logfwdr 提供了一个空配置。

尽管团队在 5 分钟内发现了该缺陷并恢复了更改，但这次故障触发了 Logfwdr 中的第二个潜在错误，导致了大量的过载，从而导致 buttee 无响应。ESET 高级企业网络安全顾问 Nermin Smajic 评论道：

这一事件说明了为什么网络安全不仅仅是为了防止外部威胁，也是为了维护能够抵御复杂技术挑战的强大、有弹性的内部系统。

从错误的 Buftee 配置中恢复花了 Cloudflare 几个小时的时间。作者澄清道：

当 Logfwdr 开始为所有客户发送事件日志时，Buftee 开始在这些日志到达时为每个客户创建缓冲区 (......) 这种巨大的增长导致缓冲区增加了大约 40 倍，这不是我们提供的 Buftee 集群所能处理的。

来源：Cloudflare 博客

Airbnb 的软件工程师、《Surfing Complexity》一书的作者 Lorin Hochstein观察到：

Cloudflare 始终如一地提供了所有科技公司中质量最高的公开故障报道。他们最近一次的报告也不例外。(......) 自动化的安全机制本身增加了复杂性，而且我们在实现无缺陷的安全代码方面并不比实现无缺陷的特性代码方面做得更好。

虽然 Cloudflare 的运维团队承诺将实施更多监控预警，以确保这些特定的错误配置不会被忽略，但他们承认错误和错误配置是不可避免的。他们强调，所有 Cloudflare 系统的目标都应该是以可预测和优雅的方式应对此类问题。

作者介绍

Renato Losio 作为云架构师、技术主管和云服务专家拥有丰富的经验。目前，他住在柏林，作为首席云架构师远程工作。他的主要兴趣领域包括云服务和关系数据库。他是 InfoQ 的编辑，也是公认的 AWS 数据英雄。你可以在 LinkedIn 上与他联系。

原文链接：

https://www.infoq.com/news/2024/12/cloudflare-incident-log-loss/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

今日好文推荐

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

700 多亿打水漂后，这家巨头突然舍弃了无人驾驶出租车业务！新老员工炸锅：刚还在加班、“一群傻瓜”

掀翻牌桌：定义面向未来的开发新范式

1620 天后，Redis 之父强势归来：开始着手修复社区裂痕，并布局下一代向量数据库

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

AI 驱动的智能化单元测试生成：字节跳动的实践与创新

作业帮基于 Apache DolphinScheduler 3_0_0 的缺陷修复与优化

豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

在 Lyft 创建 iOS 应用扩展的挑战

OpenAI“双喜临门”：ChatGPT 热线上线，员工“年终奖”最高可达1000万美元

人工智能赋能业务发展研讨：多行业探索 AI 如何驱动行业变革

学好 Prompt，和大模型双向奔赴！| 极客时间

从 CephFS 到 JuiceFS：同程旅行亿级文件存储平台构建之路

智谱完成新一轮三十亿元融资，2024 年商业化收入增长超过 100%

首款开发鸿蒙原生应用的 AI 辅助编程工具正式上线了

后开源时代：开源作者不再是乞求者，而是受益者

新旧交替：AI 时代架构师的进阶之路 |《架构师》电子书下载

首个科学计算基座大模型BBT-Neutron开源，助力突破大科学装置数据分析瓶颈

使用 Rust 重新实现 SQLite 以实现异步 I/O

阿里内部观点：智能化研发一年复盘，我们离真正的 AI 开发还有多远？

AI 重塑技术流程：下半场的破局之道

考虑了很久，还是决定转Go了！| 极客时间

刚刚，ChatGPT Search 向所有用户免费开放！三大升级加剧 AI 搜索竞争，网友：谷歌正式倒闭

Ruby on Rails 8.0 发布，引入 Kamal 2 以改进部署

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

Ilya Sutskever 在 NeurIPS 2024 的演讲：预训练时代已经结束了

ChatGPT 按提示词数秒完成游戏开发，程序员们该慌了

大型开发者调查结果：哪些 AI 助手最受欢迎？使用 VR 头显编程开始成为趋势

Cloudflare 在 11月发生重大故障，导致日志丢失

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

春节假期各大厂卷起来了？腾讯9天垫底；字节跳动在厕所推广“反黑话”运动！OpenAI吹哨人被证实死亡！年仅26岁｜Q资讯

OpenAI 重磅推出 ChatGPT Projects 功能，让 ChatGPT 更容易管理！网友：这是几日来最有用的发布

Java新闻综述：JDK24 进入Rampdown阶段、JDK 25专家组、Jakarta EE 11 Core Profile

700 多亿打水漂后，这家巨头突然舍弃了无人驾驶出租车业务！新老员工炸锅：刚还在加班、“一群傻瓜”

我们如何在十个月内将 ARR 从 0 增长到 1000 万美元以上？

出海这么多年，AI Infra层到底有哪些新机遇？| 直播预告

OpenAI 版 Her 登场，GPT 能实时视频通话了！德扑 AI 之父：比 o1“更受宠”的模式降临

Kotlin 2.1.0 发布，带来新的语言特性和编译器更新

掀翻牌桌：定义面向未来的开发新范式

ABCoder 在大模型编程领域的探索

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI，还让开发者免费试用！Agent时代最强模型登场了？

Oracle 推出 GraalVM Java JIT 编译器，但仅限于自己的 JDK

1620 天后，Redis 之父强势归来：开始着手修复社区裂痕，并布局下一代向量数据库

走近邱玉辉教授：创办《电脑报》的中国人工智能先驱

如何做到国内 AI+PPT 工具赛道的 top 1？| AICon

OpenAI发布季第四天：Canvas全量开放，集成Python、支持在线改代码

React 19 稳定版发布：新特性介绍和升级方法

技术风头渐弱，靠 AI 赚钱还现实吗？

软考一把就过，分享我的心得 | 极客时间

Sora 刚正式登场就把OpenAI系统干废了！Altman紧急暂停新用户注册

Amazon 发布内部初始设计文件，纪念 AWS Lambda 推出 10 周年

硅谷 1/10 程序员在摸鱼？拿20-30万美元年薪却几乎不干活

百度智能云忻舟：多轮迭代优化助力人工智能嵌入更多场景

Java 面试中真正的加分项，这套笔记说全了 | 极客时间

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉