checkpoint机制的盲区

pantsuel 发布于 2026-03-07 02:34postgresql, WAL日志30 次浏览抢沙发

终极盲区一：谁在替 Checkpoint 负重前行？（`bgwriter` 进程的暗中协助）

面试官的陷阱：“既然 Checkpoint 是每 5 分钟才爆发一次大扫除，那在这 5 分钟内，内存里的脏页越积越多，难道就任由它堆积，直到 Checkpoint 瞬间被压垮吗？”
你的底层反杀（LRU 算法与分工机制）： “绝不能任由它堆积！在 checkpointer（检查点进程）的背后，一直隐藏着另一个极其隐秘的 C 语言进程——bgwriter（后台写进程）。 物理分工：checkpointer 就像‘月度大扫除’，负责全局刷盘和推进 REDO LSN；而 bgwriter 则是‘日常保洁’。在这漫长的 5 分钟间隔里，bgwriter 一刻也没有停歇。它按照 LRU（最近最少使用）算法，悄悄地把那些很久没被业务访问的冷脏页，一点点地提前偷运到物理硬盘上。定性：正是因为有了 bgwriter 的暗中泄压，当 Checkpoint 真正爆发的那一微秒，它在第三阶段扫描出的‘待刷盘名单’才会大幅度缩小，从而彻底避免了 I/O 链路的瞬间崩溃。”

终极盲区二：平滑机制的“强行撕毁”（`CHECKPOINT_IMMEDIATE` 状态）

灾难现场：你为了重启数据库修改参数，执行了 pg_ctl stop -m fast（快速关机）。结果你发现，敲下命令的瞬间，整个服务器的磁盘 I/O 被瞬间打到了 100%，系统直接卡死了整整 3 分钟才关机。为什么？我们在第四阶段讲过的 checkpoint_completion_target（平滑调度）去哪了？
架构师的物理透视： “平滑调度被内核极其冷酷地强行撕毁了！当 DBA 手动执行 CHECKPOINT; 命令，或者数据库执行 fast 关机时，内核会给 checkpointer 进程下达一个极其暴戾的 C 语言标志位：CHECKPOINT_IMMEDIATE（立即执行）。 物理后果：一旦打上这个标记，checkpointer 会瞬间发疯。它直接无视 checkpoint_completion_target 的平滑滴漏算法，极其粗暴地把几百 GB 的脏页在一秒钟内全部砸向操作系统，疯狂调用 fsync()，直到把底层磁盘队列彻底塞爆。定性：这是用‘毁灭前台性能’为代价，换取‘最快速度安全停机’的底层交易。所以，在营业高峰期，高级 DBA 绝对、绝对不能手动敲下 CHECKPOINT;。”

终极盲区三：WAL 风暴的早期预警雷达（`checkpoint_warning`）

运维绝境：你接手了一个极度糟糕的系统，发现 I/O 经常毫无征兆地飙升，但由于太卡，你根本连不上数据库去查视图。
原厂排障法宝：高级架构师在建库的第一天，就会死死盯住 postgresql.conf 里的一个冷门参数：checkpoint_warning（默认 30 秒）。 逻辑推演：我们之前推演过，如果写入量极大，会导致日志瞬间写满 max_wal_size，从而无视时间锁，强行提前引爆 Checkpoint。如果这种“被迫提前引爆”的频率太高（比如两次 Checkpoint 的间隔竟然小于 30 秒），内核会在操作系统的系统日志（pg_log）里极其绝望地疯狂输出一行红字报错： “checkpoints are occurring too frequently (X seconds apart)” 定性：当你看到这行日志，什么都不用查了，直接断定：底层的 max_wal_size 被设得太小了！业务的写入狂潮正在把 Checkpoint 机制当成皮球一样踢。解药极其简单：立刻把 max_wal_size 调大 5 倍！

终极微操一：物理磁头的“电梯调度算法”（排序与合并）

常规思维的死角：刚才我们在第三阶段推演，checkpointer 扫描内存建了一张“待刷盘名单”。普通人会以为，它拿着名单从头到尾挨个调 fsync() 刷盘就完了。
物理灾难：如果名单里的 8KB 块在物理硬盘上是极其分散的（比如先刷表 A 的头，再刷表 B 的尾，再刷表 A 的中间），对于机械硬盘（甚至 SSD 的内部映射），这会引发灾难性的随机 I/O 磁头寻道风暴（Thrashing）。
内核的极限压榨（smgr 排序）： checkpointer 在拿到那个庞大的脏页名单后，绝对不会立刻下发。它会在内存里调用底层的 qsort（快速排序）C 函数。 排序规则：极其冷酷地按照 RelFileNode（文件路径）和 BlockNumber（块号）从小到大进行绝对物理排序。定性：这就像电梯一样，强制把无数个杂乱无章的随机 I/O，在下发给操作系统之前，强行拼接、重组成了一条近似顺序 I/O 的平滑写入流。这是在用 CPU 的微秒级排序算力，去拯救底层硬盘极其昂贵的毫秒级物理寻道开销！

终极微操二：`write` 与 `fsync` 的物理割裂（Sync Queue 机制）

面试官的极致刁难：“如果 checkpointer 每次刷一个 8KB 都要调用一次 fsync() 等待硬盘返回成功，那它就算拉长到 4 分钟也刷不完几百 GB 的数据，系统早卡死了。”
你的底层反杀（两段式落盘）： “checkpointer 根本不是写一个就 fsync 一个！在 Linux 底层，它将落盘动作极其精妙地劈成了两半：
1. 第一波疯狂倾泻（pwrite）：它先顺着刚才排好序的名单，疯狂调用 OS 的 write()。此时数据只是从 PG 的共享内存，被挪到了 **Linux 操作系统的 Page Cache（内核缓存）**里，这步极快，根本没碰到物理硬盘。
2. 第二波统一收网（Sync Request Queue）：在把所有数据都 write 进 OS 缓存后，它把这些文件句柄塞进一个**同步请求队列（Sync Queue）**里。最后，再统一、批量地对这些文件发起 fsync()。定性：这种将‘写入 OS 缓存’与‘强制落底物理介质’彻底解耦的设计，最大程度地利用了 Linux 内核本身的 I/O 调度合并能力（比如 pdflush/flush 线程），避免了数据库进程被物理硬盘的延迟彻底锁死。”

终极微操三：战后验尸报告（`log_checkpoints`）

架构师的 X 光机：当你接手一个极其复杂的 TB 级系统，不要去猜 Checkpoint 到底卡在哪里。高级 DBA 会直接在 postgresql.conf 里开启 log_checkpoints = on（PG 15 之后默认开启）。
底层流转：每次 Checkpoint 结束的那一微秒，内核会在系统日志里打出一份极其详尽的“验尸报告”。里面包含：
- 这次 Checkpoint 到底写了多少个 8KB 的脏页（buffers written）。
- 占了整个共享内存的百分之几（% of total）。
- 耗费了多少秒（write_time, sync_time）。
- 距离上次 Checkpoint 产生了多少兆的 WAL 日志。定性：这行日志，就是你调整 max_wal_size、checkpoint_timeout 和 shared_buffers 的绝对数学依据。没有任何性能调优是靠猜的，全部都是对着这份报告算出来的。

了解 www.876873.xyz 的更多信息

订阅后即可通过电子邮件收到最新文章。

postgresql WAL日志

【上一篇】WAL日志的结构，深入结构体分析
【下一篇】lsn的结构：

您可能还会对这些文章感兴趣！

checkpoint机制的盲区：等您坐沙发呢！

发表评论

您必须[ 登录 ] 才能发表评论！

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

www.876873.xyz

checkpoint机制的盲区

终极盲区一：谁在替 Checkpoint 负重前行？（`bgwriter` 进程的暗中协助）

终极盲区二：平滑机制的“强行撕毁”（`CHECKPOINT_IMMEDIATE` 状态）

终极盲区三：WAL 风暴的早期预警雷达（`checkpoint_warning`）

终极微操一：物理磁头的“电梯调度算法”（排序与合并）

终极微操二：`write` 与 `fsync` 的物理割裂（Sync Queue 机制）

终极微操三：战后验尸报告（`log_checkpoints`）

赞过：

相关

了解 www.876873.xyz 的更多信息

您可能还会对这些文章感兴趣！

checkpoint机制的盲区：等您坐沙发呢！

发表评论

菜单栏

最活跃的读者

最新评论

标签云集

热门日志

www.876873.xyz

checkpoint机制的盲区

终极盲区一：谁在替 Checkpoint 负重前行？（bgwriter 进程的暗中协助）

终极盲区二：平滑机制的“强行撕毁”（CHECKPOINT_IMMEDIATE 状态）

终极盲区三：WAL 风暴的早期预警雷达（checkpoint_warning）

终极微操一：物理磁头的“电梯调度算法”（排序与合并）

终极微操二：write 与 fsync 的物理割裂（Sync Queue 机制）

终极微操三：战后验尸报告（log_checkpoints）

分享到：

赞过：

相关

了解 www.876873.xyz 的更多信息

您可能还会对这些文章感兴趣！

checkpoint机制的盲区：等您坐沙发呢！

发表评论

菜单栏

最活跃的读者

最新评论

标签云集

热门日志

终极盲区一：谁在替 Checkpoint 负重前行？（`bgwriter` 进程的暗中协助）

终极盲区二：平滑机制的“强行撕毁”（`CHECKPOINT_IMMEDIATE` 状态）

终极盲区三：WAL 风暴的早期预警雷达（`checkpoint_warning`）

终极微操二：`write` 与 `fsync` 的物理割裂（Sync Queue 机制）

终极微操三：战后验尸报告（`log_checkpoints`）