如何解决 Compute 节点上的内存溢出（OOM）问题

文摘科技 2024-08-13 17:45 北京

内存溢出（Out-of-memory）是数据处理系统中常见的问题，本文将分析 OOM 的各种原因并提供有效的解决方法。

RisingWave 使用像 AWS S3 这样的共享存储，并将 Compute 节点的内存用作缓存以增强流处理性能。缓存以 Least Recently Used （近期最少使用算法，LRU）的方式运作，即当内存不足时，将删除最少使用的条目。

为了获得最佳性能，建议 Compute 节点的最低内存为 8 GB，但生产环境中建议使用 16 GB 及以上。

本文重点解决 Compute 节点上的 OOM 问题。如果在其他节点上遇到 OOM，请首先升级到最新版本。如果问题仍然存在，请联系我们。

1OOM 判断方法

Kubernetes 显示 Compute 节点 Pod 由于 OOM Killed (137) 而突然重新启动。

Grafana 指标显示内存无限增长，超出了为 Compute 节点设置的 total_memory 限制。内存设置可以在 Compute 节点的启动日志中找到。搜索关键字“Memory outline"以定位特定部分。

内存溢出判断方法

2创建物化视图时的 OOM

如果在创建新的物化视图时发生 OOM，可能是由上游系统（如 Kafka）中存在的大量现有数据引起的。这种情况下，在创建或重新创建物化视图之前，可以通过指定每个并行度的速率限制来减少流量：

CREATE MATERIALIZED VIEW mv WITH ( source_rate_limit = 200 ) AS

参数 source_rate_limit 表示每个并行度在每个源上的每秒最大记录数，其中流作业的默认并行度是集群中所有 CPU 核心的总数。例如，假设一个物化视图有 4 个并行度和 2 个 Source 连接在一起，每个 Source 的吞吐量将被限制为 4 * source_rate_limit 条记录/秒。

或者，您可以使用 risectl 来更改现有物化视图的流速限制，其中 <id> 可以在 RisingWave 看板或 rw_catalog Schema 中找到。

risingwave ctl throttle source/mv <id> <source_rate_limit>

3屏障延迟导致的 OOM

屏障在我们的系统中发挥着关键作用，支持内存管理和 LRU 缓存等重要组件的正常运行。

从 Grafana 看板的屏障延迟面板可以观察到屏障延迟，如图所示，延迟曲线异常。

屏障延迟面板

与仅解决内存问题不同，建议关注为何屏障出现问题。可能是由繁重的流作业、输入流量的突然冲击或一些临时问题引起。

以下方法可以帮助解决此问题：

在 Grafana 中，观察片段（actor）之间的背压。两个片段之间的高背压表明下游片段无法足够快地处理数据，从而减慢整个流作业的速度。
在 RisingWave 看板中检查所有 Compute 节点的 Await Tree Dump。如果屏障陷入困境，Await Tree Dump 将显示屏障正在等待特定操作完成。这个片段可能是流作业的瓶颈。

不管是哪种情况，您都可以试着将更多节点添加到集群中，以增加并行度，或检查 SQL 查询语句看看是否有优化的空间。

4长时间批量查询时的 OOM

如果在长时间批查询期间发生 OOM，可能是由 Compute 节点上的内存使用过多而引起。在这种情况下，可以通过调整 TOML 文件中的 storage.prefetch_buffer_capacity_mb 参数来减少预取的内存使用。

参数 storage.prefetch_buffer_capacity_mb 定义了预取的最大内存。它通过预读来优化流执行器和批查询性能。此功能允许 hummock（为流计算而生的存储引擎）在单个 I/O 操作中读取更大的数据块，但这样一来，内存成本更高。当预取操作期间的内存使用达到此限制时，hummock 将恢复到原始读取方法，以 64 KB 块处理数据。如果将参数设置为 0，则将禁用此功能。默认情况下，它设置为总机器内存的 7％。

5使用内存分析工具进行故障排除

如果屏障延迟正常，但内存使用仍在增加，可能需要进行内存分析以找出根本原因。

我们在 RisingWave 看板中添加了堆分析工具，以帮助您分析内存使用情况并识别与内存相关的问题。

INFO：要启用内存分析，请为 Compute 节点设置环境变量 MALLOC_CONF=prof:true。

进入 RisingWave 看板，选择 Debug > Heap Profiling。如果您正在本地机器上运行 RisingWave，可以通过 127.0.0.1:5691 访问 RisingWave 看板。

默认情况下，当内存使用达到 90% 时，heap profile 数据将自动转储，也可以选择手动转储。转储数据后，在看板内单击 Analyze，以检查内存使用模式和潜在问题，而无需离开看板界面。

6在社群寻求帮助

您可以加入我们的 Slack 工作区^[1]并在 #troubleshooting 频道中发布您的问题以寻求社群帮助，或在 GitHub 中提交问题^[2]。您也可以关注 RisingWave 中文开源社区公众号加入中文社群，与广大用户群体一同参与讨论、寻求帮助、分享经验。

在提交问题时，请包括以下详细信息：

问题摘要；
重现问题的步骤；
相关资源，如日志、截图、指标、堆栈转储等。

参考资料

[1]

Slack 工作区: https://www.risingwave.com/slack

[2]

在 GitHub 中提交问题: https://github.com/risingwavelabs/risingwave/issues/new/choose

关于 RisingWave

RisingWave 是一款基于 Apache 2.0 协议开源的分布式流数据库，致力于为用户提供极致简单、高效的流数据处理与管理能力。RisingWave 采用存算分离架构，实现了高效的复杂查询、瞬时动态扩缩容以及快速故障恢复，并助力用户极大地简化流计算架构，轻松搭建稳定且高效的流计算应用。

RisingWave 始终聆听来自社区的声音，并积极回应用户的反馈。目前，RisingWave 已汇聚了 150+ 名开源贡献者和 3000+ 名社区成员。全球范围内，已有上百个 RisingWave 集群在生产环境中部署。

往期推荐

技术内幕

如何上手 RisingWave 👉 新手入门教程

RisingWave 中文用户文档上线，阅读更高效！

深入探索 RisingWave 中的高可用性与容错机制

深入理解 RisingWave 流处理引擎（三）：触发机制

深入理解 RisingWave 流处理引擎（二）：计算模型

深入理解 RisingWave 流处理引擎（一）：总览

用户案例

视源股份（CVTE）IT 流计算应用历程

尘锋 SCRM 如何使用 RisingWave 实时打宽

RisingWave 在超百亿管理规模对冲基金公司中的应用

金融科技公司 Kaito 使用 RisingWave 实现实时智能化

龙腾出行如何通过 RisingWave 实现实时数据分析

RisingWave 助力乾象投资打造实时监控平台

http://mp.weixin.qq.com/s?__biz=MzkwMDI2MTk1MA==&mid=2247494794&idx=1&sn=42004d66bfd1d917a7c0f942eb01534e

RisingWave中文开源社区

RisingWave 是一款开源分布式 SQL 流数据库，致力于大幅降低流计算使用门槛与复杂度。RisingWave 已为全球超百家企业构建新一代流处理与分析平台。

最新文章

Secret Management｜安全管理敏感信息

RisingWave 正式通过 GDPR 和 HIPAA 合规性认证

Time Travel Queries｜在 RisingWave 中访问历史数据

深入探索 RisingWave meta store 的演进历程

RisingWave Premium｜常见问题解答

RisingWave 2.0｜以流处理为核心的统一数据处理框架

重大升级！RisingWave 2.0 发布！

RisingWave 集成速查表

活动报名｜RisingWave X Apache OpenDAL 北京站 Meetup｜9 月 14 日

用 Helm 在 Kubernetes 中部署 RisingWave 集群

展望 RisingWave 2.0: 提供流批一体功能的 SQL 数据库

活动报名｜RisingWave 走进 Rust China Conf 2024｜9 月 7-8 日

RisingWave Streaming SQL 速查表

解决指标碎片化：将流式数据库用于指标存储

如何解决 Compute 节点上的内存溢出（OOM）问题

RisingWave Demo：快速挖掘社交平台数据价值

活动报名｜RisingWave X ClickHouse UG 广州站 Meetup｜8 月 25 日 14:00-17:00

RisingWave 用户定义函数 (三)：Python 外部函数

RisingWave 1.10 发布！新增用户自定义聚合函数

深入了解 RisingWave（四）性能优化的最佳实践

深入了解 RisingWave（三）性能相关的主要指标

深入了解 RisingWave（二）架构、容错、数据持久化

深入了解 RisingWave（一）关键概念、术语表

RisingWave 用例：流式 ETL、实时分析、事件驱动应用

RisingWave Demo：自动化检测服务器性能异常

RisingWave Demo：直播流量指标分析

流处理系统对比：RisingWave vs ksqlDB

RisingWave 用户定义函数 (二): Rust x WebAssembly

走近数据变更捕获（CDC）：定义、优势和用例

活动报名｜RisingWave 走进亚马逊云科技 UG 北京站 Meetup｜6 月 29 日 13:30-17:30

从数据特征的演变解析流式数据库的关键优势

最大化停车场利用率：RisingWave 的智能解决方案

不同数据系统中的“一致性”含义的区别

RisingWave 1.9 发布！新增 Snowflake sink 连接器

在 RisingWave 中实现 Sink 与上游物化视图解耦

Postgres X RisingWave 的最佳实践

为什么 RisingWave 是流处理的最佳选择？

使用 RisingWave、Upstash 和 Metabase 进行实时航班跟踪

使用 RisingWave 和 Redash 处理和可视化实时数据

使用 WarpStream、RisingWave 和 Grafana 进行实时网站监控

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

如何解决 Compute 节点上的内存溢出（OOM）问题

1OOM 判断方法

2创建物化视图时的 OOM

3屏障延迟导致的 OOM

4长时间批量查询时的 OOM

5使用内存分析工具进行故障排除

INFO：要启用内存分析，请为 Compute 节点设置环境变量 MALLOC_CONF=prof:true。

6在社群寻求帮助

INFO：要启用内存分析，请为 Compute 节点设置环境变量 `MALLOC_CONF=prof:true`。