技术译文 | EXPLAIN 迎来全新 JSON 格式

科技 2024-11-11 18:31 上海

作者：Magnus Brevik，Oracle 软件工程师。

本文和封面来源：https://blogs.oracle.com/，爱可生开源社区翻译。

本文约 2400 字，预计阅读需要 8 分钟。

1EXPLAIN 的格式

MySQL 提供了两个用于分析查询计划的强大工具：EXPLAIN 和 EXPLAIN ANALYZE^[1]。EXPLAIN 会显示优化器选择的执行计划，并在执行前停止；而 EXPLAIN ANALYZE 实际上会执行查询，并收集关于处理时间以及每个操作返回的行数的统计信息。

输出格式可以是表格形式（传统格式）、树形或 JSON 格式。前两种格式是为人类设计的，而 JSON 格式主要针对机器，但仍然具有人类可读性。JSON 格式应该是自动查询分析的理想格式，但自从我们切换到基于迭代器的执行计划以来，它一直未能正确表示计划结构。这使得无法将 JSON 格式与 EXPLAIN ANALYZE 一起使用，因为 EXPLAIN ANALYZE 与计划的迭代器结构直接相关。

在 MySQL 8.3 社区版中，我们为 EXPLAIN 和 EXPLAIN ANALYZE 引入了一种新的 JSON 格式，并提供了系统变量 explain_json_format_version={1,2} 来在不同格式之间进行切换。新的 JSON 格式反映了迭代器的构建方式，并且与树形格式直接匹配。JSON 格式中的每个对象对应于树形格式中的一行，但 JSON 格式以机器可读的格式包含更多信息，例如可以通过 EXPLAIN INTO 或客户端应用程序进行访问。这对于新 JSON 格式支持的 EXPLAIN ANALYZE 以及最近添加的 EXPLAIN INTO 和 EXPLAIN FOR SCHEMA 功能^[2] 特别有用。因此，EXPLAIN 树中的所有值都可以通过 JSON 格式进行访问，并通过编程进行分析。

2如何使用新的 JSON 格式

如果没有一个例子，我们就无法谈论一个新特性，所以让我们来看一个简单的 SELECT 查询。

mysql> EXPLAIN FORMAT=TREE SELECT name, quantity FROM orders JOIN items i ON item_id = i.id WHERE quantity > 1000;
-> Nested loop inner join  (cost=49828 rows=76470)
    -> Filter: ((orders.quantity > 1000) and (orders.item_id is not null))  (cost=23063 rows=76470)
        -> Table scan on orders  (cost=23063 rows=229432)
    -> Single-row index lookup on i using PRIMARY (id=orders.item_id)  (cost=0.25 rows=1)

树形格式虽然紧凑且易于人类读者阅读和理解，但在代码中进行分析时需要手动解析。使用 EXPLAIN FORMAT=JSON，你可以得到一个 JSON 对象，它可以在你喜欢的编程语言的客户端使用 JSON 函数进行处理，或者在 MySQL 中使用 EXPLAIN INTO 进行处理。这种 JSON 格式在 MySQL 5.6 中被引入，并且反映了当时的计划结构。随着向基于迭代器的计划的转换，这种旧的 JSON EXPLAIN 格式不再代表内部计划结构。

# Old JSON EXPLAIN format, default
mysql> SET explain_json_format_version=1;
mysql> EXPLAIN FORMAT=JSON SELECT name, quantity FROM orders JOIN items i ON item_id = i.id WHERE quantity > 1000\G
{
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "49827.84"
    },
    "nested_loop": [
      {
        "table": {
          "table_name": "orders",
          "access_type": "ALL",
          "possible_keys": [
            "fk_item_id"
          ],
          "rows_examined_per_scan": 229432,
          "rows_produced_per_join": 76469,
          "filtered": "33.33",
          "cost_info": {
            "read_cost": "15416.48",
            "eval_cost": "7646.97",
            "prefix_cost": "23063.45",
            "data_read_per_join": "1M"
          },
          "used_columns": [
            "item_id",
            "quantity"
          ],
          "attached_condition": "((`customer`.`orders`.`quantity` > 1000) and (`customer`.`orders`.`item_id` is not null))"
        }
      },
      {
        "table": {
          "table_name": "i",
          "access_type": "eq_ref",
          "possible_keys": [
            "PRIMARY"
          ],
          "key": "PRIMARY",
          "used_key_parts": [
            "id"
          ],
          "key_length": "4",
          "ref": [
            "customer.orders.item_id"
          ],
          "rows_examined_per_scan": 1,
          "rows_produced_per_join": 76469,
          "filtered": "100.00",
          "cost_info": {
            "read_cost": "19117.42",
            "eval_cost": "7646.97",
            "prefix_cost": "49827.84",
            "data_read_per_join": "19M"
          },
          "used_columns": [
            "id",
            "name"
          ]
        }
      }
    ]
  }
}

从这个例子中我们可以看到，树形格式中显示的实际执行计划的迭代器结构在旧的 JSON 格式中没有得到体现。过滤迭代器在订单表的表扫描中更像是一个脚注，并且关于连接的行数和成本的所有信息都在两个表对象之下。虽然值是正确的，但结构是错误的，这使得使用这些信息来优化你的查询变得更加困难。

随着新的 MySQL 优化器 hypergraph^[3] 的开发（在 HeatWave MySQL 中可用），引入了一种新的 JSON EXPLAIN 格式，因为旧格式与传统、规划过程或优化器创建的最终计划都没有关系。在使用超图优化器并设置 EXPLAIN FORMAT=JSON 时，将始终生成这种新的 JSON 格式。如果你正在使用旧的优化器并且运行 MySQL 8.3 或更高版本，可以通过将系统变量 explain_json_format_version 设置为 2 来访问新的 JSON 格式。

# New JSON EXPLAIN format
mysql> SET explain_json_format_version=2;
mysql> EXPLAIN FORMAT=JSON SELECT name, quantity FROM orders JOIN items i ON item_id = i.id WHERE quantity > 1000;
{
  "query": "/* select#1 */ select `i`.`name` AS `name`,`customer`.`orders`.`quantity` AS `quantity` from `customer`.`orders` join `customer`.`items` `i` where ((`i`.`id` = `customer`.`orders`.`item_id`) and (`customer`.`orders`.`quantity` > 1000))",
  "inputs": [
    {
      "inputs": [
        {
          "operation": "Table scan on orders",
          "table_name": "orders",
          "access_type": "table",
          "schema_name": "customer",
          "used_columns": [
            "item_id",
            "quantity"
          ],
          "estimated_rows": 229432,
          "estimated_total_cost": 23063.45
        }
      ],
      "condition": "((orders.quantity > 1000) and (orders.item_id is not null))",
      "operation": "Filter: ((orders.quantity > 1000) and (orders.item_id is not null))",
      "access_type": "filter",
      "estimated_rows": 76469.68433094025,
      "estimated_total_cost": 23063.45
    },
    {
      "alias": "i",
      "covering": false,
      "operation": "Single-row index lookup on i using PRIMARY (id = orders.item_id)",
      "index_name": "PRIMARY",
      "table_name": "items",
      "access_type": "index",
      "schema_name": "customer",
      "used_columns": [
        "id",
        "name"
      ],
      "estimated_rows": 1,
      "lookup_condition": "id = orders.item_id",
      "index_access_type": "index_lookup",
      "estimated_total_cost": 0.25000130770776513
    }
  ],
  "join_type": "inner join",
  "operation": "Nested loop inner join",
  "access_type": "join",
  "estimated_rows": 76469.68433094025,
  "join_algorithm": "nested_loop",
  "estimated_total_cost": 49827.83951582908
}

我们不会详细介绍新 JSON 格式中的每个字段，因为它们中的大多数与旧格式相同或是旧格式的重命名版本，或者很容易理解，但我会提到其中的几个。

如前所述，新的 JSON 格式与树形格式直接匹配。树形格式的顶级迭代器是 JSON 格式中的顶级对象，子迭代器可以在 JSON 对象的 inputs 字段中找到。要将每个迭代器映射到相关的 JSON 对象，可以查看 JSON 中的 operation 字段，这就是在树形格式中打印的内容。

旧 JSON 格式中一个现在行为略有变化的字段是 table_name。在旧格式中，table_name 实际上是表的别名，而不是底层表的名称。在新格式中，这一点已经改变，现在 table_name 是基表名称，并且当表有别名时，新的 alias 字段已被添加到表访问迭代器中。在表访问的父迭代器中仍然引用别名。

3EXPLAIN ANALYZE 中使用新的 JSON 格式

新 JSON 格式的另一个巧妙功能是，由于旧的 JSON 格式不适合显示 EXPLAIN ANALYZE 的输出，而新格式基于与树形格式相同的迭代器结构，所以我们现在可以以 JSON 格式获取 EXPLAIN ANALYZE 的输出。这允许对执行时间进行编程分析，因为 EXPLAIN ANALYZE FORMAT=JSON 包含几个字段，其中的信息以前必须从树形格式手动解析。

让我们来看一下前面查询的 EXPLAIN ANALYZE：

mysql> EXPLAIN ANALYZE FORMAT=TREE SELECT name, quantity FROM orders JOIN items i ON item_id = i.id WHERE quantity > 1000\G
-> Nested loop inner join (cost=49828 rows=76470) (actual time=1.95..5182 rows=227103 loops=1)
    -> Filter: ((orders.quantity > 1000) and (orders.item_id is not null)) (cost=23063 rows=76470) (actual time=1.82..1271 rows=227103 loops=1)
        -> Table scan on orders (cost=23063 rows=229432) (actual time=1.76..1135 rows=229376 loops=1)
    -> Single-row index lookup on i using PRIMARY (id=orders.item_id) (cost=0.25 rows=1) (actual time=0.0164..0.0164 rows=1 loops=227103)

以下是相同计划的 FORMAT=JSON 格式：

mysql> SET explain_json_format_version=2;
mysql> EXPLAIN ANALYZE FORMAT=JSON SELECT name, quantity FROM orders JOIN items i ON item_id = i.id WHERE quantity > 1000\G
{
  "query": "/* select#1 */ select `i`.`name` AS `name`,`customer`.`orders`.`quantity` AS `quantity` from `customer`.`orders` join `customer`.`items` `i` where ((`i`.`id` = `customer`.`orders`.`item_id`) and (`customer`.`orders`.`quantity` > 1000))",
  "inputs": [
    {
      "inputs": [
        {
          "operation": "Table scan on orders",
          "table_name": "orders",
          "access_type": "table",
          "actual_rows": 229376.0,
          "schema_name": "customer",
          "actual_loops": 1,
          "used_columns": [
            "item_id",
            "quantity"
          ],
          "estimated_rows": 229432.0,
          "actual_last_row_ms": 1123.953248,
          "actual_first_row_ms": 1.868662,
          "estimated_total_cost": 23063.45
        }
      ],
      "condition": "((orders.quantity > 1000) and (orders.item_id is not null))",
      "operation": "Filter: ((orders.quantity > 1000) and (orders.item_id is not null))",
      "access_type": "filter",
      "actual_rows": 227103.0,
      "actual_loops": 1,
      "estimated_rows": 76469.68433094025,
      "actual_last_row_ms": 1252.748685,
      "actual_first_row_ms": 1.92276,
      "estimated_total_cost": 23063.45
    },
    {
      "alias": "i",
      "covering": false,
      "operation": "Single-row index lookup on i using PRIMARY (id = orders.item_id)",
      "index_name": "PRIMARY",
      "table_name": "items",
      "access_type": "index",
      "actual_rows": 1.0,
      "schema_name": "customer",
      "actual_loops": 227103,
      "used_columns": [
        "id",
        "name"
      ],
      "estimated_rows": 1.0,
      "lookup_condition": "id = orders.item_id",
      "index_access_type": "index_lookup",
      "actual_last_row_ms": 0.016049919261304342,
      "actual_first_row_ms": 0.015992197227689638,
      "estimated_total_cost": 0.25000130770776513
    }
  ],
  "join_type": "inner join",
  "operation": "Nested loop inner join",
  "access_type": "join",
  "actual_rows": 227103.0,
  "actual_loops": 1,
  "estimated_rows": 76469.68433094025,
  "join_algorithm": "nested_loop",
  "actual_last_row_ms": 5071.693038,
  "actual_first_row_ms": 2.071419,
  "estimated_total_cost": 49827.83951582908
}

通过 EXPLAIN ANALYZE，我们会得到一些以 actual_ 开头的额外字段，这些字段包含有关执行的信息。在树形格式中，这些与迭代器中的执行信息相同，例如 (actual time=<actual_first_row_ms>..<actual_last_row_ms> rows=<actual_rows> loops=<actual_loops>)。

4总结

EXPLAIN 和 EXPLAIN ANALYZE 的新 JSON 格式首先在 MySQL 8.3 社区版中引入，现在也在 MySQL 8.4 LTS 和 9.x 创新版本中在包括 OCI、AWS 和 Azure 上的 HeatWave MySQL 在内的所有平台上可用。这种新格式允许基于实际执行计划进行详细的查询分析，可以在本地进行，也可以在服务器上使用 EXPLAIN INTO 进行。在树形格式中找到的所有信息都可以通过 JSON 函数轻松访问，因此你不必手动解析树形输出。这对于 EXPLAIN ANALYZE 特别有用，因为在早期版本中它没有 JSON 格式。

原文链接：https://blogs.oracle.com/mysql/post/new-json-format-for-explain

参考资料

[1]

EXPLAIN: https://dev.mysql.com/doc/refman/8.4/en/explain.html

[2]

EXPLAIN INTO: https://blogs.oracle.com/mysql/post/explain-into-and-explain-for-schema-in-mysql-81-and-82

[3]

hypergraph-optimizer: https://blogs.oracle.com/mysql/post/the-mysql-hypergraph-optimizer-now-available-in-heatwave-mysql

本文关键字：#MySQL# #EXPLAIN# #JSON# #新特性#

Google 在推进 MySQL 支持向量搜索方面超越 Oracle

MySQL 添加主键可以节省磁盘空间吗？

为什么 MySQL 添加一个简单索引后表大小增长远超预期？

MySQL 通用表空间的这几个选项你会用吗？

一文了解 MySQL 全新版本模型

MySQL 和 MariaDB 版本管理的历史背景及差异

✨ Github：https://github.com/actiontech/sqle

📚 文档：https://actiontech.github.io/sqle-docs/

💻 官网：https://opensource.actionsky.com/sqle/

👥 微信群：请添加小助手加入 ActionOpenSource

🔗 商业支持：https://www.actionsky.com/sqle

http://mp.weixin.qq.com/s?__biz=MzU2NzgwMTg0MA==&mid=2247518482&idx=2&sn=a3f0be31460c8dabc8a241affddfe7ac

爱可生开源社区

爱可生开源社区，提供稳定的MySQL企业级开源工具及服务，每年1024开源一款优良组件，并持续运营维护。

最新文章

SQL 质量管理 | 一键检测，全面掌控数据源连接状态

11/29 上海 | DAMS 峰会，了解 AI 技术在数据库中的应用与实践

MySQL 核心模块揭秘 | 41 期 | insert on duplicate 加锁分析（2）

直播文稿 | ChatDBA：数据库根因分析智能助手的实践与应用

直播活动 | Bob大叔《整洁架构之道》新书分享会

SQLE 3.2410.0 发布，轻松掌握数据库结构差异

技术译文 | EXPLAIN 迎来全新 JSON 格式

SQLE 3.2410.0 发布，轻松掌握数据库结构差异

雍正荐书 | P9 工作法，职场人的升级宝典

MySQL 核心模块揭秘 | 40 期 | insert on duplicate 加锁分析（1）

OB 运维 | Oracle 迁移到 OB 过程中的函数改造案例

明天合肥 | OceanBase城市交流会联合讯飞开源，共探AI与数据库未来！

OB 开发 | 多源数据库支持升级！达梦到 OceanBase，一步到位！

11/6 合肥 | OceanBase城市交流会联合讯飞开源，共探AI与数据库未来！

SQL 质量管理 | 结构对比：轻松掌握数据库结构差异

11/2-11/3 北京 | COSCon'24 | 爱可生邀您逛开源集市！

MySQL 核心模块揭秘 | 39 期 | 死锁案例分析（1）插入意向锁

OB 运维 | OAT 初始化报错？原来是 PAM 配置惹的祸！

故障分析 | MySQL 8.0 中多字段虚拟列引发的宕机

SQL 质量管理 | 一键转工单：SQL 工作台操作更省心

1024 | SQLE 三周年体验打卡活动，来啦~

MySQL 核心模块揭秘 | 38 期 | 非唯一索引范围查询加什么锁？

11/29 上海 | DAMS 中国数据智能管理峰会

OB 运维 | 进程崩溃定位难？日志分析五步安！

第 58 期：MySQL Slave 异常掉电后主从同步出现异常怎么排查？

SQL 质量管理 | 全局 Dashboard：一屏掌控全局

2024 OSCAR 开源产业大会在京召开

雍正荐书 | 数据建模和模式设计系列 - MongoDB

OB 运维 | OB4.X-Follower 节点时钟偏差导致合并卡住？

10/23 北京 | 2024 OceanBase 年度发布会亮点抢先看！

技术分享 | 数据库源码学习调试利器之 CGDB

SQLE 3.2409.0 发布，变更记录支持版本管理

10/18 上海 | AI革新软件：从底层到应用的全面升级！字节、阿里、腾讯齐聚 QCon

报名中 | 爱可生开源社区邀您参与天工开物“开源毕设”活动

MySQL 核心模块揭秘 | 36 期 | 非唯一索引等值查询加什么锁？

故障分析 | 哪些情况下 MySQL 配置文件会被截断？

10/16 北京 | 秋日相邀！与爱可生一起逛 OSCAR 开源产业大会开源市集

10/16 北京 | 2024 OSCAR 开源产业大会完整议程揭晓

SQL 质量管理 | 使用智能水印，守护您的数据安全

雍正荐书 | 这是一本成为 Redis 高手的秘籍！

9/27 线上 | 开源漫谈第 14 期

MySQL 核心模块揭秘 | 35 期 | 主键索引等值查询加什么锁？

故障分析 | 查询 ps.data_locks 导致 MySQL hang 住

紧急避坑 | MySQL 含有下划线的数据库名在特殊情况下导致权限丢失

当数据库有了Copilot，DBA不用再灭火了！

9/21 DataFunSummit2024：生成式AI技术峰会

OB 运维 | 存储过程慢？可能是 plan cache 失效了

9/21 深圳 | OceanBase 城市交流会解锁新玩法

MySQL 核心模块揭秘 | 34 期 | RC 隔离级别插入记录，唯一索引冲突加什么锁？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉