PostgreSQL Internals之路 Part-III 第15章内存结构上的锁详细介绍

文摘科技 2024-10-23 09:00 北京

微信群：数据库Hacker, 已超200人，无法通过扫描直接加入。需要入群的朋友，请直接微信联系我(个人微信：_iihero)，标上您的全名_数据库Hacker作为备注。

15. 内存结构上的锁

15.1 自旋锁

要保护共享内存上的数据结构，PostgreSQL使用了几种轻量级的、不那么昂贵的锁，而没有使用普通的重量级锁。

最简单的锁就是自旋锁（spinlocks）。它们通常在非常短的时间内获得（不超过几个CPU时钟周期），用于在并发更新中保护指定的内存单元。

自旋锁基于原子的CPU指令，例如比较和交换(compare-and-swap^[1])。它们只支持排它的锁模式。如果需要的资源已经被锁，进程处于忙等待，重复该命令（它在循环中“旋转”，因此得名）。如果锁在指定的时间间隔内没能得到，进程将暂停一段时间，接着启动另一个循环。

在冲突预计比较低的情况下，这个策略还是有效的，在不成功的尝试下，锁有可能在几条指令以内就能得到。

自旋锁既没有死锁检测，也没有可调性(instrumentation)。从实践角度来看，我们应该简单的知道它们的存在；它们正确的实现的整个责任完全在于PostgreSQL的开发人员。

15.2 轻量级锁

下一节，有所谓的轻量级锁，或叫lwlocks^[2]。轻量级锁获取它，并处理一个数据结构所花的时间一般都很短（如，hash表或者指针链表）；但是，在保护I/O操作方面，所花的时间就会长些。

轻量级锁支持两种模式：排它模式（用于数据修改）和共享模式（用于只读操作）。没有这样的队列：如果多个进程都在等一个锁，其中一个将以或多或少随机的方式去访问该资源。在高负载多个并发进程的系统中，它会导致令人不愉快的结果。

没有提供死锁检测；我们不得不相信PG开发人员，轻量级锁的实现是正确的。但是，这些锁提供有调试的方法，所以，不像自旋锁，它们是可以被观察的。

15.3 实例

想知道自旋锁和轻量级锁如何用和在哪里被用，我们可以看看两种共享存储的结构：缓冲缓存和WAL缓冲。我会只对某些锁命名；完整的图太复杂了，应该只对PG核心开发人员有吸引力。

缓冲缓存(Buffer Cache)

要访问用于定位特定缓存中缓冲的hash表，进程必须获得一个BufferMapping的轻量级锁，可以是用于读操作的共享模式，也可以是用于任意修改操作的排它模式。

hash表访问起来非常频繁，这样该锁就经常会成为瓶颈。为了最大化锁粒度，它的结构是tranche，128个单个轻量级锁的一部分，每个锁保护哈希表^[3]的单独部分。

一个hash表锁会被转换成16个锁的层级(tranche)，于2006年实现，对应于PG8.2; 10年过去了，当9.5发布时，这个层级的大小增加到128，但是对于现在多核系统而言，可能仍显不够。

要想访问缓冲头，进程需要获得缓冲头的自旋锁^[4]（名字是随意的，因为自旋锁没有用户可见的名字）。有些操作，像增加使用的计数器，不需要显式地获取锁，完全可以借用原子的CPU指令得以执行。

要读缓冲中的一页，进程需要获得在这个缓冲的头部的BufferContent锁。它通常在元组指针被读的时候持有；后来，由缓冲绑定提供保护就已足够。如果缓冲内容必须要修改，这个BufferContent锁就必须以排它模式获得。

当缓冲要从磁盘上读取（或写入磁盘），PG也要获得缓冲头部的BufferIO锁；它事实上只是锁的一个属性，而不是一个真正的锁。它通知其它进程要请求该页，必须等到I/O操作完成。

指向空闲缓冲的指针和刷出机制的时钟指针都被单个通用的缓冲策略自旋锁保护^[5]。

WAL缓冲

WAL缓存也使用了hash表，将页映射到缓冲。不像buffer cache那样的hash表，它是被单个WALBufMapping轻量级保护，因为WAL缓存很小（通常只是buffer cache大小的1/32），并且缓冲的访问更加有序^[6]。

将WAL页写到磁盘受WALWrite轻量级锁保护，它也确保了该操作同时只被一个进程执行。

要创建一个WAL条目，进程先预留WAL页上的一些空间，然后向里边添加数据。空间预留严格有序；进程必须获得一个插入位置的自旋锁来保护插入指针。但是一旦空间被预定，它将会被多个并发进程填充。基于此目的，每个进程必须获取8个轻量级锁中的任意一个，来组成WALInsert的层级(tranche^[7])。

15.4 监控等待 (Monitoring Waits)

毫无疑问，正确的PG操作离不开锁，但是它们也会导致不必要的等待。跟踪这样的等待有助于更好的理解它们的初衷。

最简单的方式是将log_lock_waits（默认为off）开关打开，然后观察一下长期锁的全貌；它支持大量记录所有导致事务等待时间超过deadlock_timeout(默认1秒)的锁。此数据在死锁检查完成时显示，因此有了参数名。

但是，视图pg_stat_activity提供了更多完整有用的信息。无论何时一个进程 --- 或者是系统进程或者是后端进程---不能继续执行任务，因为它在等待某一样东西，这个等待就反映在wait_event_type和wait_event字段上，它们分别显示了等待的类型和名字。

所有等待可以做如下分类：

等待不同种类的锁形成一个特别大的组：

Lock --- 重量级锁

LWLock --- 轻量级锁

BufferPin --- 栓定的缓冲

但是进程一样也可以等待其它事件：

IO --- 输入/输出，当需要读或写数据的时候

Client --- 客户端发送的数据（psql有相当大一部分时间是处于此状态）

IPC --- 由其它进程发送的数据

Extension --- 由扩展注册的一种特殊的事件

有时候一个进程简单的不做任何有用的工作。这样的等待通常是“正常的”，意味着它们不会提示有任何问题。这一组由下边的等待构成：

Activity --- 后台进程在它们的主循环当中

Timeout --- 计时器

每个等待类型的锁可以按等待名进一步划分。例如，在轻量级锁上等待，获得锁的名字或者对应的tranche(层级)^[8]。

您应该记住，pg_stat_activity视图只显示在源码中以恰当方式处理的那些等待^[9]。除非等待名在视图中出现，进程不会出现等待任何已知类型的状态。这样的时间应该被认为是没有解释的;这并不一定意味着这个过程不需要等待任何东西——我们只是不知道此刻正在发生什么。

=> SELECT backend_type, wait_event_type AS event_type, wait_event
FROM pg_stat_activity;
         backend_type         | event_type |     wait_event
------------------------------+------------+---------------------
 autovacuum launcher          | Activity   | AutoVacuumMain
 logical replication launcher | Activity   | LogicalLauncherMain
 logical replication worker   | Activity   | LogicalApplyMain
 walsender                    | Client     | WalSenderWaitForWAL
 walsender                    | Activity   | WalSenderMain
 client backend               |            |
 background writer            | Activity   | BgWriterMain
 checkpointer                 | Activity   | CheckpointerMain
 walwriter                    | Activity   | WalWriterMain
(9 rows)

这里所有的后台进程都处于空闲状态，当视图被采样的时候，而客户端后端忙于执行查询，并且不在等待。

15.5 采样

不幸的是，pg_stat_activity视图显示的只是当前的等待信息；而且这些统计不是累积的。随着时间的推移收集等待数据的唯一方法是定期对视图进行采样。

我们必须考虑采样的随机性质。等待相对于采样间隔时间如果越短，发现这个等待的机会就越少。

这样，更长的采样间隔就需要更多的能反映真实状态的采样（您可以增加采样频率，总体开销也会提升）。也是相同的原因，采样对于分析短期会话基本上没有用。

PostgreSQL没有提供构建好的工具用于采样；但是，我们还是可以使用pg_wait_sampling^[10]插件来试一下。我们必须在参数shared_preload_libraries里头指定它的库，并且重启服务器：

=> ALTER SYSTEM SET shared_preload_libraries = 'pg_wait_sampling';
postgres$ pg_ctl restart -l /home/postgres/logfile

现在我们将插件装到数据库里头：

=> CREATE EXTENSION pg_wait_sampling；

这个扩展可以显示等待的历史，保存在自己的环缓冲里。但是，更有趣的是获得等待的配置--- 整个会话期间累积的统计信息。

例如，我们可以看下基准测试期间的等待。我们需要启动pgbench工具，确定运行期间它的进程ID：

postgres$ /usr/local/pgsql/bin/pgbench -T 60 internals
=> SELECT pid FROM pg_stat_activity
WHERE application_name = 'pgbench';
pid
−−−−−−−
36380
(1 row)

一旦测试结束，等待的配置看起来如下：

=> SELECT pid, event_type, event, count
FROM pg_wait_sampling_profile WHERE pid = 36380
ORDER BY count DESC LIMIT 4;
pid | event_type | event | count
−−−−−−−+−−−−−−−−−−−−+−−−−−−−−−−−−−−+−−−−−−−
36380 | IO | WALSync | 4067
36380 | IO | WALWrite | 98
36380 | Client | ClientRead | 26
36380 | IO | DataFileRead | 4
(4 rows)

默认情况下（通过设置pg_wait_sampling.profile_period参数）采样大概是每秒100次。因此预测以秒为单位的持续等待，需要将它除以100。

在这个的例子中，大部分等待都与WAL日志刷盘有关。这是一个不计时间的好示例：WALSync事件直到PG12才可以调试；更低的版本，一个等待的配置不包含第一行，尽管它自己仍在那里。

下边是一个配置的基本情况，如果我们把文件系统的每个I/O操作降慢到0.1秒（使用slowfs^[11]达到此目的）：

http://mp.weixin.qq.com/s?__biz=MzAxODk3Nzg5Nw==&mid=2247488042&idx=1&sn=513e22560aee7662ed0c1d4a8c0dc546

数据库杂记

数据库技术专家，PostgreSQL ACE,SAP HANA,Sybase ASE/ASA,Oracle,MySQL,SQLite各类数据库, SAP BTP云计算技术, 以及陈式太极拳教学倾情分享。出版过三本技术图书，武术6段。

最新文章

针对开发人员: work_mem在PostgreSQL中的应用

MongoDB 认证考试活动年底免费送名额

PostgreSQL Internals之路 Part-IV 第20章索引扫描

DuckDB是真火！PolarDB都跑来蹭热度了

PostgreSQL Internals之路 Part-IV 第19章索引访问方法

“丁奇MySQL Seed” 群答疑: 最快地恢复表结构的方案

回忆我的外公外婆

PostgreSQL Internals之路 Part-IV 第18章表访问方法

能载舟也能覆舟,也聊聊商业(数据库)软件中的license

PostgreSQL Internals之路 Part-IV 第17章关于统计

PostgreSQL Internals之路 Part-IV 第16章查询执行各阶段

PostgreSQL Internals之路 Part-III 第15章内存结构上的锁详细介绍

PostgreSQL17为事件触发器添加LOGIN事件

如何优化Postgres表布局以获得最大的效率

太极拳给我带来了什么

实锤！SAP大中华区总裁黄陈宏去职，“在中国，为中国”谁来扛旗？

对想学习PG数据库的朋友的一些建议

PostgreSQL Internals之路 Part-III 第14章其它各类锁

PostgreSQL中有许多个timeout，逐个弄懂它们的含义和使用

压测也不难，使用HyBench对PostgreSQL进行简单压测尝尝鲜

强烈推荐！！！阿里顶级Java开源项目Top20

一文简单搞懂PostgreSQL中OOM几个重要的相关内核参数

PostgreSQL Internals之路 Part-III 第13章行级锁

10月5日WTT中国大满贯国乒双打单打全收老将新将尽显风采

为什么PostgreSQL的端口访问不了了，是配置错误还是防火墙原因

周日005 西甲赫罗纳VS毕尔巴鄂竞技深度分析！这场比较稳，跟上节奏，吃香喝辣！

周日009 英超切尔西VS诺丁汉森林比分推荐！全网最稳短串，英超近20场未尝败绩

周日012 英冠布里斯托尔城VS加的夫城手拿把掐，闭眼跟！

PG备份出来的数据库表文件比原数据库还大,为啥？

SAP BTP Cloud中JDK11到JDK17的巨大性能提升及改进

PostgreSQL Internals之路 Part-III 第12章关系级锁

SAP BTP Cloud中PostgreSQL版本升级的有意思的案例

王楚钦 - 悲情英雄? 王楚钦止步中国大满贯男单32强, 林诗栋或将崛起!

从2024安全可靠国测结果看如何学习与对待国产

PostgreSQL Internals之路 Part-II 第11章 WAL模式

最新完整版:　PostgreSQL 17 Release Notes

善用佳软之PostgreSQL的rust终端界面客户端工具：rainfrog

聊聊这两天的股市及股票

PostgreSQL 17 发布：摊牌了，我不装了！

PostgreSQL Internals之路 Part-II 第10章 WAL日志

从Oracle过渡到PostgreSQL: 理解模式的概念

PostgresQL使用btrfs文件系统, 估计很有前途

即将大火的Linux文件系统

Linux那个很强大、却被怀疑不太稳定的文件系统就它了？btrfs文件系统2种功能初探

联想的起源

1994年爆发的“倪柳之争”

2001年联想集团分拆出神州数码并上市

PostgreSQL是Oracle的一个可行的替代方案——原因如下

说说你了解的分布式锁实现

MySQL 锁详解

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

PostgreSQL Internals之路 Part-III 第15章 内存结构上的锁详细介绍

15. 内存结构上的锁

15.1 自旋锁

15.2 轻量级锁

15.3 实例

缓冲缓存(Buffer Cache)

WAL缓冲

15.4 监控等待 (Monitoring Waits)

15.5 采样

PostgreSQL Internals之路 Part-III 第15章内存结构上的锁详细介绍