云上JDK17 Crash的案例及补救方案

文摘科技 2024-09-16 05:30 上海

前言

在云上，对于目标SaaS或PaaS应用的监控显得至关重要。大部分应用都是Java应用。除了对目标数据库的监控以外，对Java应用本身的监控一样显得重要。

本文提到的案例就比较诡异，发生在JDK17身上。最后也只好通过调整相关JVM参数来绕过相关错误。

过程及分析

在Cloud Foundry的BTP平台中，我们发现一些Java应用，发现经常频繁的Crash（宕机），大概每隔一两个小时会发生一次。

我们使用的SAP JDK 17, 相关配置参数是：

JBP_CONFIG_JAVA_OPTS: [ java_opts: '-Xss512K -XX:ReservedCodeCacheSize=150M -XX:MaxMetaspaceSize=200M -XX:MaxDirectMemorySize=256M -XX:+DisableExplicitGC -XX:+UseG1GC -XX:MinHeapFreeRatio=10 -XX:MaxHeapFreeRatio=30 -XX:-ShrinkHeapInSteps -XX:ConcGCThreads=10 -XX:ParallelGCThreads=10 -XX:-UseDynamicNumberOfGCThreads ' ]

JBP_CONFIG_SAP_MACHINE_JRE: "[memory_calculator_v2: {headroom: 18}]"

JBP_CONFIG_COMPONENTS	jres: ['com.sap.xs.java.buildpack.jre.SAPMachineJRE']

jvmkill killing current process
CodeCache: init 2555904, used 102956288, committed 103940096, max 157286400
G1 Old Gen: init 113246208, used 1207994368, committed 1384120320, max 6278873088
G1 Eden Space: init 25165824, used 8388608, committed 62914560, max -1
Compressed Class Space: init 0, used 18318032, committed 18808832, max 167772160
G1 Survivor Space: init 0, used 531800, committed 4194304, max -1
Metaspace: init 0, used 152454416, committed 153288704, max 209715200
Memory pool usage:
Non-heap memory: init 2555904, used 273728736, committed 276037632, max 534773760
Heap memory: init 138412032, used 1216914776, committed 1451229184, max 6278873088

从上边的相关JVM出错的警告日志，可以看到：

Memory pool usage:
Non-heap memory: init 2555904, used 273728736, committed 276037632, max 534773760
Heap memory: init 138412032, used 1216914776, committed 1451229184, max 6278873088

JVM Heap的消耗情况，可以看出，commit的大小只到了：1451229184 （约1.45GB), 离max heap size : 6.28G还差的很远，因而不可能会OOM (Out of Memory)。

接着我们再查查系统当中出现的日志：

[86015.185s][warning][gc,alloc] http-nio-8080-exec-8:Retried waiting
for GCLocker too often allocating 262210 words

我们可以看到有很多如上边显示的日志。它总是抱怨在分配N个字长空间时进行了retry等待GCLocker去释放某种锁。

这是一个非常严重的问题。

为什么呢？

系统的内存得不到充分利用。明明6个多G的Java Heap, 最后用到了1.4G以后就频繁Crash。在云平台上，内存和CPU就是对应的银子。这意味着会极大的浪费资源。

这个问题如何解决呢？

我们来看看JNI Critical和GCLocker之间的关系：

JNI Critical与GCLocker

一旦该特定线程在VM中恢复执行，如果该线程在JNI临界状态时被请求，则该线程将运行一个GC周期。这将在GC日志中反映为“GCLocker发起的GC”。

简单地说，GCLocker是一种工具，用于防止JVM在JNI读/写地址时移动对象，因为移动对象会导致地址发生变化，而JNI对此并不知情。

很好，最后确实运行了一个GC周期，那么为什么会抛出OOM错误呢?让我们考虑以下场景:

GC周期

当然，当GCLocker Initiated GC周期完成时，一定释放了一些内存，对吗? 是的，但是也有其他线程请求内存! 当涉及到GC周期释放的内存时，没有先进先出的概念。因此，最初请求内存分配的线程必须再次等待，等待另一个周期完成。

真正的问题是:GCLockerRetryAllocationCount的默认值是2(至少在Java 17中是这样)。这将无意中产生一个错误的OOM错误被抛出!

详见openjdk的源码：

src/hotspot/share/gc/shared/gc_globals.hpp

 product(uintx, GCLockerRetryAllocationCount, 2, DIAGNOSTIC,               \
          "Number of times to retry allocations when "                      \
          "blocked by the GC locker")                                       \
          range(0, max_uintx)

调整 G1 GC

对于我们的用例，默认值2显然是不够的。如果将其设置为更大的值，比如100，会发生什么?我们在VM选项中添加了以下两个标志:

-XX:+UnlockDiagnosticVMOptions
-XX:GCLockerRetryAllocationCount=1048576

将默认的2次retry改为100甚至1048576，经过多次retry之后，GCLocker正常放掉以后，resource allocate就能还执行了。意味着GC成功的执行了。

我们在文章：Demystifying G1 GC, GCLocker, JNI Critical, and Fake OOM Exceptions^[1] 也看到了类似的分析。可以好好看一看。

不成熟的OOM不会被抛出，因为许多年轻的GC周期无法释放足够的内存，并且会启动一个完整的GC !

好奇的人: G1不是把每一代都分成固定大小的区域吗? 如果是的话，它不能锁定那个区域吗?是的，但是G1还没有实现区域固定。事实上，有一个JDK特性请求已经开放了一段时间: [JDK-8276094\] JEP 423: Region Pinning for G1 – Java Bug System^[2]

但是，同时，我们也要注意到：

JNI allocation(GetPrimitiveArrayCritical/ReleasePrimitiveArrayCritical)

尽量减少这个函数的调用，可能会有效的降低这个错误的出现。有时候可能是第三方库触发的这个JNI调用。如果能找到，就会有效的降低这个错。

当然将：-XX:GCLockerRetryAllocationCount=2 调整为100甚至为1048576, 只会让效果更好，而不会更糟糕。

关于复杂的jvm调优，我们可以进一步阅读：

JVM Anatomy Quark #9: JNI Critical and GC Locker^[3]
[JDK-8276094\] JEP 423: Region Pinning for G1 – Java Bug System^[4]
GCLocker failure test case^[5]
[JDK-8137099\] G1 needs to “upgrade” GC within the safepoint if it can’t allocate during that safepoint to avoid OoME – Java Bug System^[6]
[JDK-8192647\] GClocker induced GCs can starve threads requiring memory leading to OOME – Java Bug System^[7]
Garbage First Garbage Collector Tuning^[8]
Tips for Tuning the Garbage First Garbage Collector^[9]

小结

对于JVM或内存以及CPU的使用情况，是跟数据库监控完全并列的重要工作。相当于在应用层，就可以发现一些潜在的问题。两块结合起来，才能为完成预期的SLA，打下坚实的基础。

后续有时间，将整理一系列关于JVM调优方面的文章，分享给大家。

参考资料

[1]

Demystifying G1 GC, GCLocker, JNI Critical, and Fake OOM Exceptions: https://tech.clevertap.com/demystifying-g1-gc-gclocker-jni-critical-and-fake-oom-exceptions/

[2]

[JDK-8276094] JEP 423: Region Pinning for G1 – Java Bug System: https://bugs.openjdk.org/browse/JDK-8276094

[3]

JVM Anatomy Quark #9: JNI Critical and GC Locker: https://shipilev.net/jvm/anatomy-quarks/9-jni-critical-gclocker/

[4]

[JDK-8276094] JEP 423: Region Pinning for G1 – Java Bug System: https://bugs.openjdk.org/browse/JDK-8276094

[5]

GCLocker failure test case: http://cr.openjdk.java.net/~bmathiske/8137099/webrev.00/raw_files/new/test/gc/g1/TestGcLockerEvacFailureThreaded.java

[6]

[JDK-8137099] G1 needs to “upgrade” GC within the safepoint if it can’t allocate during that safepoint to avoid OoME – Java Bug System: https://bugs.openjdk.org/browse/JDK-8137099

[7]

[JDK-8192647] GClocker induced GCs can starve threads requiring memory leading to OOME – Java Bug System: https://bugs.openjdk.org/browse/JDK-8192647

[8]

Garbage First Garbage Collector Tuning: https://www.oracle.com/technical-resources/articles/java/g1gc.html

[9]

Tips for Tuning the Garbage First Garbage Collector: https://www.infoq.com/articles/tuning-tips-G1-GC/

我是【Sean】, 微信: _iihero, 欢迎大家长按关注并加星公众号：数据库杂记。有好资源相送，同时为你提供及时更新。已关注的朋友，发送0、1到7，都有好资源相送。

往期导读:
1. PostgreSQL中配置单双向SSL连接详解
2. 提升PSQL使用技巧：PostgreSQL中PSQL使用技巧汇集(1)
3. 提升PSQL使用技巧：PostgreSQL中PSQL使用技巧汇集(2)
4. PostgreSQL SQL的基础使用及技巧
5. PostgreSQL开发技术基础:过程与函数
6. PostgreSQL中vacuum 物理文件truncate发生的条件
7. PostgreSQL中表的年龄与Vacuum的实验探索：Vacuum有大用
8. PostgreSQL利用分区表来弥补AutoVacuum的不足
9. 也聊聊PostgreSQL中的空间膨胀与AutoVacuum
10. 正确理解SAP BTP中hyperscaler PG中的IOPS (AWS篇)

http://mp.weixin.qq.com/s?__biz=MzAxODk3Nzg5Nw==&mid=2247486933&idx=1&sn=d67c4065264b8f4a10740fc968a487b7

数据库杂记

数据库技术专家，PostgreSQL ACE,SAP HANA,Sybase ASE/ASA,Oracle,MySQL,SQLite各类数据库, SAP BTP云计算技术, 以及陈式太极拳教学倾情分享。出版过三本技术图书，武术6段。

最新文章

PostgreSQL Internals之路 Part-IV 第19章索引访问方法

“丁奇MySQL Seed” 群答疑: 最快地恢复表结构的方案

回忆我的外公外婆

PostgreSQL Internals之路 Part-IV 第18章表访问方法

能载舟也能覆舟,也聊聊商业(数据库)软件中的license

PostgreSQL Internals之路 Part-IV 第17章关于统计

PostgreSQL Internals之路 Part-IV 第16章查询执行各阶段

PostgreSQL Internals之路 Part-III 第15章内存结构上的锁详细介绍

PostgreSQL17为事件触发器添加LOGIN事件

如何优化Postgres表布局以获得最大的效率

太极拳给我带来了什么

实锤！SAP大中华区总裁黄陈宏去职，“在中国，为中国”谁来扛旗？

对想学习PG数据库的朋友的一些建议

PostgreSQL Internals之路 Part-III 第14章其它各类锁

PostgreSQL中有许多个timeout，逐个弄懂它们的含义和使用

压测也不难，使用HyBench对PostgreSQL进行简单压测尝尝鲜

强烈推荐！！！阿里顶级Java开源项目Top20

一文简单搞懂PostgreSQL中OOM几个重要的相关内核参数

PostgreSQL Internals之路 Part-III 第13章行级锁

10月5日WTT中国大满贯国乒双打单打全收老将新将尽显风采

为什么PostgreSQL的端口访问不了了，是配置错误还是防火墙原因

周日005 西甲赫罗纳VS毕尔巴鄂竞技深度分析！这场比较稳，跟上节奏，吃香喝辣！

周日009 英超切尔西VS诺丁汉森林比分推荐！全网最稳短串，英超近20场未尝败绩

周日012 英冠布里斯托尔城VS加的夫城手拿把掐，闭眼跟！

PG备份出来的数据库表文件比原数据库还大,为啥？

SAP BTP Cloud中JDK11到JDK17的巨大性能提升及改进

PostgreSQL Internals之路 Part-III 第12章关系级锁

SAP BTP Cloud中PostgreSQL版本升级的有意思的案例

王楚钦 - 悲情英雄? 王楚钦止步中国大满贯男单32强, 林诗栋或将崛起!

从2024安全可靠国测结果看如何学习与对待国产

PostgreSQL Internals之路 Part-II 第11章 WAL模式

最新完整版:　PostgreSQL 17 Release Notes

善用佳软之PostgreSQL的rust终端界面客户端工具：rainfrog

聊聊这两天的股市及股票

PostgreSQL 17 发布：摊牌了，我不装了！

PostgreSQL Internals之路 Part-II 第10章 WAL日志

从Oracle过渡到PostgreSQL: 理解模式的概念

PostgresQL使用btrfs文件系统, 估计很有前途

即将大火的Linux文件系统

Linux那个很强大、却被怀疑不太稳定的文件系统就它了？btrfs文件系统2种功能初探

联想的起源

1994年爆发的“倪柳之争”

2001年联想集团分拆出神州数码并上市

PostgreSQL是Oracle的一个可行的替代方案——原因如下

说说你了解的分布式锁实现

MySQL 锁详解

PostgreSQL Internals之路Part II: Buffer Cache和WAL第9章 Buffer Cache

Percona发布开源DBaaS平台;阿里云RDS发布全球多活数据库(GAD);Redshift支持自然语言生成SQL

没有PostgreSQL样例数据库,不用担心, 帮你搞定！

法甲尼斯VS圣埃蒂安精准拿捏大家快跟上慢了拍大腿！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉