首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OVHCLOUD如何提升其800个数据库的效率

文摘科技 2024-11-14 00:00 山东

诸如 Grafana 之类的监控工具以及公司内部 SQL 技能的培养大大减少了慢查询并提高了弹性。

译自How OVHcloud Made Its 800 Databases More Efficient，作者 Robert Kimani。

在法国云服务提供商OVHcloud，一个专门的数据库运营小组肩负着一项关键任务：确保构建公司控制平面和数据平面的内部产品团队能够访问弹性、可扩展且高性能的数据库基础设施。

9 月，在伦敦举行的SREday大会上，OVHcloud 数据库和可观测性工程经理Wilfried Roset讲述了数据库运营团队如何从被动地解决性能问题发展到主动优化数据库集群，从而显著减少慢查询并提高可观测性。

OVHcloud 的数据库运营团队改变了其管理和优化基础设施的方式。从增强可观测性到扩展硬件以及将慢查询减少 50%，该团队成功构建了一个可扩展且可靠的数据库服务，可以满足其内部产品团队的需求。

该团队专注于持续改进、SQL 优化和由服务级别目标 (SLO)驱动的性能指标，为面临类似规模挑战的数据库团队提供了蓝图。

挑战：对可扩展数据库的需求不断增长

OVHcloud 提供了种类繁多的云服务，开发这些服务的内部产品团队高度依赖数据库运营团队提供的基础设施。

数据库团队的客户不是外部客户，而是负责开发 OVHcloud 服务的内部工程团队。反过来，这些团队需要快速、可靠地访问数据库，才能构建其控制平面和数据处理解决方案。

OVHcloud 的基础设施在 Kubernetes 上运行，拥有 100 多个生产数据库集群，但可以容纳虚拟机和裸机服务器。这是一个灵活的架构，旨在通过负载均衡器有效地将读取和写入流量路由到每个集群中的专用节点。

然而，挑战在于如何在规模上保持最佳性能，尤其是在服务和客户数量不断增长的情况下。

基础设施：弹性、灵活的数据库集群

OVHcloud 目前运行的数据库集群通常由三个节点组成。一个主节点管理写入流量，而其他节点处理只读请求和备份。该架构在PostgreSQL和MySQL数据库之间共享，每个节点都设计用于卸载专门的工作负载。

“这种设置非常适合我们，因为它允许产品团队在无需考虑数据库管理的情况下进行操作，”Roset 对 SREday 的观众说。“我们确保基础设施根据需要进行扩展，支持备份并自动平衡负载。”

产品团队受益于适应其需求的数据库系统，该系统可以随着服务的增长而扩展，同时通过高效的负载均衡保持可靠性。

需要更好的可观测性

随着需求的增加，数据库团队开始遇到瓶颈。产品团队经常报告性能问题，但由于缺乏可观测性，诊断这些问题变得很困难。

“当我们的公共云团队负责人询问为什么他们的控制平面很慢时，我们无法立即给出答案。我们正在通过 SSH 连接到各个服务器并手动跟踪日志，”Roset 说。这种被动的故障排除既耗时又低效。

数据库团队认识到需要一种更加结构化的方法来进行监控，因此实施了一个可观测性堆栈，将来自 PostgreSQL 和 MySQL 的日志提取到OpenSearch集群中，并集中管理关键指标。

“我们将系统、数据库和负载均衡器指标集成到Grafana仪表板中，”Roset 补充道。“这使我们能够在一个地方可视化所有内容，从慢查询计数到整体系统运行状况。”

他说，可观测性堆栈使团队能够实时跟踪性能并更快地响应问题。“以前，我们只有在产品团队报告问题后才会知道。现在，我们可以实时查看正在发生的问题，并在问题升级之前解决它们。”

升级硬件以提升性能

改进后的可观测性表明，许多性能问题源于硬件不足。随着 OVHcloud 内部数据库工作负载的增长，支持这些工作负载的硬件变得越来越吃紧。

数据库团队成员意识到，他们需要升级基础设施，以便更好地支持对其提出的需求。Roset 说：“我们通过升级到更快的 CPU、添加更多内存、提高磁盘速度和增强所有节点的网络吞吐量来实现垂直扩展。”

这些升级对于解决许多性能瓶颈的根本原因至关重要。然而，仅仅改进硬件是不够的。低效的工作负载，尤其是优化不良的 SQL 查询，仍然会导致性能问题。这促使数据库团队对工作负载优化采取更全面的方法。

优化 SQL 查询可将慢查询减少 50%

一个改进领域来自优化 SQL 查询。最初，团队在一个数据库上每周观察到超过 200 万个慢查询。凭借其新的可观测性工具提供的洞察力，团队着手减少这一数字。

Roset 说：“我们将慢查询定义为执行时间超过一秒的查询，但随着我们优化工作负载，我们逐渐将该阈值降低到 250 毫秒。”

为了解决慢查询问题，团队启动了一项持续的查询优化计划，每周分析日志并识别导致最多慢查询的数据库。

Roset 说，每周一他都会在公司范围内发送一份报告，重点介绍前一周执行最慢查询的数据库。“这是一种让每个人都意识到优化不良的查询的影响的方法，”他说。“如果一个团队的数据库一直出现在报告中，他们就知道他们需要采取行动。”

通过提供对特定数据库性能的可见性并向开发人员提供自动反馈，团队能够将超过 1,000 个数据库的慢查询数量从超过 200 万个减少到不到 100 万个。“这是一个巨大的成功。”

SLO：建立明确的期望

团队成员对优化的追求并没有止步于更好的可观测性和查询性能。他们为其数据库服务实施了 SLO，设定了明确的性能目标，并确保数据库满足其所服务的產品团队的需求。

Roset 说：“我们围绕延迟和可用性定义了 SLO。” “例如，我们的目标是在数据库连接尝试中实现 99.99% 的成功率，并为查询执行设定了特定的延迟目标。”

为了跟踪这些目标，团队使用合成监控代理和修补的SQL Exporter来测量查询执行时间，从而为其监控系统提供实时反馈。

这种 SLO 驱动的方法帮助团队保持一致的性能，即使在扩展时也是如此。合成监控系统使数据运营工程师能够在问题影响产品团队之前检测到问题，并确保数据库保持高度可用性。

持续改进：展望未来

尽管 OVHcloud 的数据库团队在优化其基础设施和减少慢查询方面取得了重大进展，但它仍在继续寻找改进的方法。

目前正在进行的一项计划是开发分层服务模型，根据工作负载的关键程度提供不同级别的数据库性能。对于最关键的系统（称为“振金集群”），团队提供了最高级别的性能和冗余。

随着 OVHcloud 的不断扩展，数据库团队也在探索将其方法扩展到其他类型数据库的方法，包括键值和列式存储，以确保团队的所有服务都能从相同级别的优化中受益。

“我们已经取得了很大进步，但我们从未停止改进，”Roset 说。“我们一直在寻找优化、扩展和为内部团队提供更好服务的新方法。”

http://mp.weixin.qq.com/s?__biz=MzIzMzcxMTUxOQ==&mid=2247496036&idx=3&sn=f16b45e2dd98538433336ff3f0c66e4b

关注云原生时代的普通人 - 云原生 | 平台工程 | AI

最新文章

KUBERNETES与菲律宾停电 – 在TAILSCALE上设置K0S

Cloud Foundry如何与Kubernetes共同发展

高级检索增强生成 (RAG) 技术

向量搜索的秘诀：训练嵌入模型

RIP开源核心—开源万岁

如何修复您的CNCF治理并赚钱

携手社区驱动开源共建未来

英伟达如何使用KUBEVIRT扩展其云服务

OPENTELEMETRY挑战：处理长时间运行的SPAN

为什么PYTHON开发人员应该关心测试

OVHCLOUD如何提升其800个数据库的效率

LLAMA STACK发布，助力开发者构建“代理应用”

GO中的机器学习与PYTHON SIDECAR

如何使用语义路由器和LLM工具构建AI代理

构建一个AI驱动的问答应用程序

AI增强代码的可追溯性：开发者指南

人工智能时代的工程团队技能提升

微软EDGE如何用WEB COMPONENTS替换REACT

代理将GENAI从订单接收者转变为合作者

使用机密虚拟机开始保护去中心化云

你应该知道的编程基本原理

EBPF即将登陆WINDOWS

AI模型应对灾难性遗忘的技术

人工智能代理即将改变您的数字生活

每个开发人员都应该知道的10个JAVASCRIPT SEO技巧

REST在许多API使用场景中仍然优于GRAPHQL

SPACEDRIVE：现代的跨平台文件管理器

UBUNTU LINUX：安装SURICATA入侵检测系统

开发者团队最大化Headless架构指南

微软EDGE如何用WEB COMPONENTS替换REACT

LINUX：使用RSNAPSHOT创建系统备份

使用机密虚拟机开始保护去中心化云

DEVOPS迈向自动化之外，应对新挑战

JAVASCRIPT 预计明年将推出新的时间、日期和集合功能

AI代理和COPILOT：SAP推出更深层次的集成

JAVASCRIPT注册中心的幕后故事

我们正在离开KUBERNETES

谷歌检查：面向应用和代码的AI驱动的合规性

云安全中的零信任：永不信任，始终验证

Linux内核6.12为卓越调度和实时操作做好准备

尝试“自上而下”的解决KUBERNETES蔓延问题

ANYSCALE：RAY的全新优化运行时，KUBERNETES OPERATOR

运行时上下文：KUBERNETES安全的缺失部分

在防火墙后部署KUBERNETES的技术

开发者游乐场：用途和设计模式

我最喜欢的5个命令行工具

如何使用安全即代码实现DEVSECOPS

PDF通过新的RAG架构更容易进入GENAI

平台工程最关键的第一个决定

DORA 2024：人工智能和平台工程未能达到预期

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉