莫名其妙，MySQL coredump 了

科技 2024-09-11 07:05 上海

将 "数据与人" 设为 "星标⭐"

第一时间收到文章更新

背景

基础环境：

操作系统：DB:RetHet 7.8
存储：SSD
内存：16 G
CPU核数：16CORE
数据库环境：5.7.12
事务隔离级别：RR

问题现象：

应用反馈出现了大量的数据库连接报错, 之后恢复正常。MySQL日志显示数据库似乎崩溃了。

排查原因

1、大量数据库连接报错，根据经验第一反应是网络的问题造成了应用层的连接断开了。

2、监控端查看异常指标。内存使用率出现了异常的骤降。

这种内存使用率骤降的现象不会是网络造成的。

3、查看MySQL的日志, 发现MySQL实例发生了crash, 相关的报错信息如下:

07:42:44 UTC - mysqld got signal 11 ;This could be because you hit a bug. It is also possible that this binaryor one of the libraries it was linked against is corrupt, improperly built,or misconfigured. This error can also be caused by malfunctioning hardware.Attempting to collect some information that could help diagnose the problem.As this is a crash and something is definitely wrong, the informationcollection process might fail.
key_buffer_size=8388608read_buffer_size=16777216max_used_connections=29max_threads=5000thread_count=32connection_count=22
It is possible that mysqld could use up tokey_buffer_size + (read_buffer_size + sort_buffer_size)*max_threads = 245834871 K bytes of memory
Hope that is ok; if not, decrease some variables in the equation.Thread pointer: 0x7f607c0072c0Attempting backtrace. You can use the following information to find outwhere mysqld died. If you see no messages after this, something wentterribly wrong...stack_bottom = 7f6141b36e80 thread_stack 0x40000/usr/sbin/mysqld(my_print_stacktrace+0x2c)[0xe77fec]/usr/sbin/mysqld(handle_fatal_signal+0x459)[0x7a7019]/lib/x86_64-linux-gnu/libpthread.so.0(+0xf8d0)[0x7f643257a8d0]/usr/sbin/mysqld(_ZN16Partition_helper25handle_ordered_index_scanEPh+0x5c)[0xbbabec]/usr/sbin/mysqld(_ZN7handler13ha_index_lastEPh+0x1b0)[0x7f4410]/usr/sbin/mysqld(_Z14join_read_lastP7QEP_TAB+0x65)[0xc1f605]/usr/sbin/mysqld(_Z10sub_selectP4JOINP7QEP_TABb+0x11b)[0xc25e4b]/usr/sbin/mysqld(_ZN4JOIN4execEv+0x3b8)[0xc1ea78]/usr/sbin/mysqld(_Z12handle_queryP3THDP3LEXP12Query_resultyy+0x238)[0xc8e408]/usr/sbin/mysqld[0x770ccf]/usr/sbin/mysqld(_Z21mysql_execute_commandP3THDb+0x3403)[0xc51103]/usr/sbin/mysqld(_Z11mysql_parseP3THDP12Parser_state+0x3ad)[0xc531bd]/usr/sbin/mysqld(_Z16dispatch_commandP3THDPK8COM_DATA19enum_server_command+0x817)[0xc53a47]/usr/sbin/mysqld(_Z10do_commandP3THD+0x18f)[0xc54faf]/usr/sbin/mysqld(handle_connection+0x278)[0xd108d8]/usr/sbin/mysqld(pfs_spawn_thread+0x1b4)[0xe90784]/lib/x86_64-linux-gnu/libpthread.so.0(+0x80a4)[0x7f64325730a4]/lib/x86_64-linux-gnu/libc.so.6(clone+0x6d)[0x7f6430e1b87d]Trying to get some variables.Some pointers may be invalid and cause the dump to abort.Query (7f607c015ad0): select * from test where time>='2016-07-29 00:00:00' and time<='2016-07-29 23:59:59' and tag in (2,3,6) order by id desc limit 2000Connection ID (thread ID): 138760Status: NOT_KILLEDThe manual page at http://dev.mysql.com/doc/mysql/en/crashing.html containsinformation that should help you find out what is causing the crash.

首先是第一部分的信息:

mysqld got signal 11 ;Resource temporarily unavailable

意思是说 MySQL 申请资源临时不可用, 应该是资源耗尽 or 申请失败等情况。

然后是第二部分信息:

It is possible that mysqld could use up tokey_buffer_size + (read_buffer_size + sort_buffer_size)*max_threads = 245834871 K bytes of memory

这一段计算了当前配置下, 大概换算了一下, 结合内存使用率的报警信息, 推测是内存耗尽造成的;

用max_used_connections来算一下使用的内存的话,有约1.5G;

加上BP的9.6G, 有11G了, 算上MySQL本身占用的一部分内存, 确实达到了比较高的程度;

但是看了一下kernel和message, 都没有发现系统出现OOM的日志, 应该不是系统kill的;

再看看堆栈相关的信息, 在里面记录了MySQL crash时的状态;

stack_bottom = 7f6141b36e80 thread_stack 0x40000/usr/sbin/mysqld(my_print_stacktrace+0x2c)[0xe77fec]/usr/sbin/mysqld(handle_fatal_signal+0x459)[0x7a7019]/lib/x86_64-linux-gnu/libpthread.so.0(+0xf8d0)[0x7f643257a8d0]/usr/sbin/mysqld(_ZN16Partition_helper25handle_ordered_index_scanEPh+0x5c)[0xbbabec]/usr/sbin/mysqld(_ZN7handler13ha_index_lastEPh+0x1b0)[0x7f4410]/usr/sbin/mysqld(_Z14join_read_lastP7QEP_TAB+0x65)[0xc1f605]/usr/sbin/mysqld(_Z10sub_selectP4JOINP7QEP_TABb+0x11b)[0xc25e4b]/usr/sbin/mysqld(_ZN4JOIN4execEv+0x3b8)[0xc1ea78]/usr/sbin/mysqld(_Z12handle_queryP3THDP3LEXP12Query_resultyy+0x238)[0xc8e408]/usr/sbin/mysqld[0x770ccf]/usr/sbin/mysqld(_Z21mysql_execute_commandP3THDb+0x3403)[0xc51103]/usr/sbin/mysqld(_Z11mysql_parseP3THDP12Parser_state+0x3ad)[0xc531bd]/usr/sbin/mysqld(_Z16dispatch_commandP3THDPK8COM_DATA19enum_server_command+0x817)[0xc53a47]/usr/sbin/mysqld(_Z10do_commandP3THD+0x18f)[0xc54faf]/usr/sbin/mysqld(handle_connection+0x278)[0xd108d8]/usr/sbin/mysqld(pfs_spawn_thread+0x1b4)[0xe90784]/lib/x86_64-linux-gnu/libpthread.so.0(+0x80a4)[0x7f64325730a4]/lib/x86_64-linux-gnu/libc.so.6(clone+0x6d)[0x7f6430e1b87d]

可以推断出当时MySQL是正在执行查询, 这些查询中有join, 也有subquery, 且查询的表包含了分区表。

可以预料到在crash的时候, MySQL执行这些语句时肯定需要申请一部分join用的buffer, 同时子查询也会建立临时表, 都需要占用内存空间。

同时还有分区表的使用, 看了一下当时候分区表的大小，发现当天的数据超过了BP的大小, 且用到分区表的查询走的全表扫描, 并且还有order by, 会用到sort的buffer, 且由于全表扫描的数据很多, 这个buffer有可能是需要申请满的。

综合这些信息, 基本确认是内存耗尽造成了MySQL crash。

那么根据堆栈的信息尝试还原crash时的场景:

在内存占用率很高的情况下, MySQL thread在执行较大表的查询时, 无法再申请到足够的内存(sort的buffer, join的buffer等), 因此发生了crash;

处理方式:

最终把BP从9.6G调整为9G, 并把sort, read等buffer的数值调整到了4M, 其他的buffer也调低了。

事情并不简单

嗯，做了上述调整了，不可能再出现内存不够的现象了。MySQL又崩溃了。

报错信息除了pointer不同以外, 堆栈的信息也是完全一致。

在之前出问题的时候, 记录了一条语句:

select * from test where time>='2016-07-29 00:00:00' and time<='2016-07-29 23:59:59' and tag in (2,3,6) order by id desc limit 2000

在后来重现的时候, 两次crash的语句中, 记录的是同样的语句, (而且堆栈的输出信息也是完全一样) , 仅仅只是时间不一样。

select * from test where time>='2016-08-09 00:00:00' and time<='2016-08-09 23:59:59' and tag in (2,3,6) order by id desc limit 2000

理智告诉我，不可能有这么巧合的事情, 都是这个语句。

在被拉起来的备库上跑了一下这个语句, 结果MySQL马上就crash了。

那么明显就是这个语句的问题了, order by desc + limit, 看上去并没什么问题, 看看explain的结果

filtered在100%的情况下, rows只有1还是挺奇怪的, 一整张表只有一行数据, 但是还有这种查询一整天的语句;

表结构：关键的部分。

分区表的分区有问题。

考虑到用那条语句可以必现这个crash, 且输出的堆栈信息和之前完全一致,所以确定是这个分区表的分区缺失的前提下, 触发那个查询语句的时导致了MySQL的Crash;

处理方式:
虽然最后还是找到了问题所在, 但是最开始的时候还是被buffer和内存使用率的现象误导了。

本来还是觉得分区表在5.7改进了一点以后, 应该还挺好用的.....恩, 现在持保留意见。

应该不会再有后续了。

数据与人

聚焦技术和人文，分享干货，共同成长。

最新文章

8种特“坑”的 SQL 写法，性能降低100倍，你不来看看？？

初创公司技术开发心酸事

面试被要求斗地主？你都经历过哪些奇葩面试？

程序员找房子的正确姿势

你了解 localhost 与 127.0.0.1 的区别吗？

"顺着网线去打你" 这种情况是否存在可行性？

select count(*) 会不会导致全表扫描？

开发都认为运维工程师很Low？我反手一个大嘴巴子

面试了一个 46 岁的程序员，我思绪万千!

MySQL 中的 distinct 和 group by 哪个效率更高？

月薪15000，在西安的生活现状。

《黑神话·悟空》员工工资收入曝光，对比自己在哪一级

取代数据岗，中国又一新兴岗位在崛起！这才是数据人未来5年最好的就业方向！

MySQL 慢查询定位优化技巧，从10s优化到300ms

得知公司打算“优化”你，但是没有出正式通知，应该怎么做？

莫名其妙，MySQL coredump 了

为什么博客园快要“凉凉”，CSDN还活得风生水起?

2024年，大厂外包：你知道我这三年是怎么过的吗？

互联网大厂招聘学历鄙视链，你在第几层

从华为离职了

运维总监让我管理 4 万台服务器，这可能吗？

不懂就问：left join 后用 on 还是 where？

争议 | 要不要去 IT 外包公司工作？

七夕将近，用 Python 实现浪漫表白程序

那些在大厂呆了10年以上的财富自由了嘛？

写了个 insert into select，就被开了？

大专码农和 985 程序员有什么区别？

MySQL 中 Varchar(50) 和 varchar(500) 有什么区别？

程序员是怎么做到写了 Bug 还理直气壮的？

看电脑就知道一家公司好不好？

谁用 kill -9 关闭程序就开除！

读懂的 Prometheus 告警原理

大厂的背调是如何开展的

入职第一天，误删生产库，公司要起诉，我该怎么办？

离职后，前公司会调查你的去向吗？

集群被入侵，服务器变矿机。

为了摸鱼，我用AI自动清洗数据

史上最严重的 20 起数据泄露事件，有你知道的吗

外包小哥爱上正式员工小姐姐，网友给我整笑了。

大厂的堡垒机到底是个啥？

盘点那些令人目瞪口呆的 bug！

入职东北国企做程序员，谈谈我的感受。

做个很小众的应用就可以月入数万，为什么多数程序员都不做个人独立开发？

慢 SQL 是如何拖垮数据库的？

为什么运维难招？这些回答犀利又扎心。

周六，我删除了公司数据库。

遇到一个满嘴 “骚话” 的 HR

不吐不快：不必取悦所有人！

2024年了，2000万的行数还是 MySQL 表的限制吗？

自己亲手引发运维事故是一种什么样的体验？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉