Elasticsearch聚合查询实战：深入掌握指标聚合、桶聚合及管道聚合

文摘 2024-10-10 20:08 广东

一、聚合查询概述
二、聚合查询类型
三、聚合查询应用
四、doc_values与fielddata
五、multi-fields（多字段）
六、聚合查询示例
七、聚合排序
八、优化建议

一、聚合查询概述

Elasticsearch中的聚合查询是一种功能强大的数据分析工具，它能够提供从索引中提取和计算有关数据的复杂统计信息的能力。聚合查询支持多种类型，包括指标聚合、桶聚合和管道聚合，每一种都有其特定的应用场景和使用方法。

二、聚合查询类型

Metric Aggregations（指标聚合）

概述：指标聚合返回基于字段值的度量结果，如总和、平均值、最小值、最大值等。这些度量结果可以直接用于分析数据中的特定指标。
常用类型：Sum：计算字段的总和。Avg：计算字段的平均值。Min/Max：查找字段的最小值和最大值。Stats：提供包括count、sum、min、max和avg在内的多种统计信息。
应用场景举例：销售数据的总销售额和平均订单金额分析、用户行为的平均访问时长和最大访问深度分析等。

Bucket Aggregations（桶聚合）

概述：桶聚合类似于SQL中的GROUP BY操作，它将文档分组到不同的桶中，并对每个桶中的文档进行聚合计算。桶聚合可以基于字段值、时间间隔或数值范围进行分组。
常用类型：Terms：根据字段的值将文档分配到不同的桶中，常用于分析文本字段的不同取值及其分布情况。Date Histogram：根据日期字段的值，将文档按时间间隔（如天、周、月等）分组到桶中，适用于时间序列数据的分析。Range：根据定义的范围将文档分配到不同的桶中，适用于分析数值字段在特定范围内的文档数量。
应用场景举例：按作者分组的博客文章数量统计、按月份统计的销售记录分析、按价格区间统计的产品数量等。

Pipeline Aggregations（管道聚合）

概述：管道聚合以其他聚合的结果作为输入，并对其进行进一步的处理或计算。这种聚合类型允许对聚合结果进行复杂的转换和分析。
常用类型：Avg Bucket：计算每个桶的平均值，通常用于对分组数据进行平均值分析。Sum Bucket：计算每个桶的总和，适用于对分组数据进行求和操作。Max/Min Bucket：找出所有桶中的最大值或最小值，有助于识别分组数据中的极端情况。
应用场景举例：在按月份统计的销售记录中找出平均销售额最高的月份、分析不同价格区间产品的销售额总和等。

三、聚合查询应用

与查询语句结合：聚合查询通常与查询语句结合使用，可以在满足特定条件的文档集合上进行聚合操作。通过查询语句过滤出符合条件的文档集合，然后对这些文档进行聚合分析，可以得到更加准确和有用的结果。
嵌套聚合：Elasticsearch支持嵌套聚合，即在一个聚合内部可以包含其他聚合。通过嵌套聚合，用户可以构建复杂的查询和分析逻辑，满足各种复杂的数据分析和统计需求。

四、doc_values与fielddata

在Elasticsearch中，聚合操作主要依赖于doc_values或fielddata 来进行。用于聚合的字段可以是精确值字段（如keyword类型）或分词字段（如text类型）。这两类字段在聚合查询时的处理方式有所不同。

4.1 exact value字段

精确值字段通常用于存储不需要分词和全文搜索的数据，如用户ID、产品类别等。对于这类字段，Elasticsearch默认使用doc_values数据结构来支持高效的聚合、排序和统计操作。doc_values以列式存储格式在磁盘上保存字段值，并在需要时加载到JVM堆内存中进行计算。由于doc_values直接在磁盘上操作，因此性能通常很高，且适用于大规模数据集。

4.2 分词字段

分词字段（如text类型）通常用于存储需要分词和全文搜索的文本数据。对于这类字段，Elasticsearch默认不启用fielddata，因为fielddata会将字段值加载到堆内存中，导致在处理大数据集时容易引发内存溢出（OOM）问题。然而，有时我们确实需要在分词字段上执行聚合操作（例如，按产品名称分组统计销售数据）。在这种情况下，有几种解决方案可供选择：

使用.keyword子字段：在定义字段映射时，可以为text字段添加一个.keyword子字段。这个子字段不会被分词器处理，而是作为一个完整的字符串存储。通过使用该子字段进行聚合操作，可以获得更准确的结果，同时避免启用fielddata带来的性能问题。
更新映射启用fielddata：如果你确实需要在text字段上启用fielddata（虽然不推荐），可以通过更新字段映射来实现。但请注意，这样做可能会导致内存消耗过大，特别是在处理大数据集时。因此，在启用fielddata之前，请务必评估其对系统性能的影响，并考虑其他可能的解决方案。

4.3 doc_values与fielddata的性能权衡

在Elasticsearch中，聚合操作主要依赖于doc_values或fielddata来访问文档中的字段值。了解这两种数据结构的差异和适用场景，有助于优化聚合查询的性能。

Doc Values

优势：适用于精确值字段和数字类型字段，提供高效的聚合、排序和统计操作。由于直接在磁盘上操作，性能通常很高。
适用场景：大多数精确值字段默认启用doc_values，无需额外配置。

Fielddata

优势：支持复杂的文本分析和聚合操作，允许对分词字段进行聚合查询。
劣势：需要占用大量堆内存资源，处理大数据集时容易引发OOM问题。默认情况下，Elasticsearch禁用了对text字段的fielddata访问。
适用场景：在确实需要在text字段上执行聚合查询，且系统资源允许的情况下，可以考虑启用fielddata。但请务必谨慎评估其对性能的影响。

总之, 对于精确值字段，利用doc_values可以获得高效且准确的聚合结果；对于分词字段，通过添加.keyword子字段或使用其他解决方案来避免启用fielddata带来的性能问题。通过合理配置字段映射和选择聚合查询策略，可以充分发挥Elasticsearch在数据分析领域的强大功能。

五、multi-fields（多字段）

描述：在Elasticsearch中，一个字段可以被定义为multi-fields类型，这意味着同一份数据可以被索引为不同类型的字段。通过为text字段添加keyword子字段，用户可以在保留全文搜索功能的同时，为精确值搜索、排序和聚合操作提供支持。
使用建议：对于需要进行聚合操作的text字段，强烈建议在索引设计阶段添加keyword子字段，并使用该子字段进行聚合操作。这样可以避免在text字段上启用Fielddata带来的性能问题，并提高聚合查询的效率和准确性。

六、聚合查询示例

Terms 分桶聚合

示例场景：统计每个作者写了多少篇文章，并按文章数量降序排序。查询语句：

POST /blog/_search
{
  "size": 0,
  "aggs": {
    "articles_per_author": {
      "terms": {
        "field": "author.keyword",
        "size": 10,
        "order": { "_count": "desc" }
      }
    }
  }
}

Date Histogram 直方图聚合

示例场景：分析每月的销售记录数量。查询语句：

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month",
        "format": "yyyy-MM"
      }
    }
  }
}

Range 范围聚合

示例场景：分析不同价格区间的产品数量。查询语句：

post /products/_search
{
  "size": 0,
  "aggs": {
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          { "to": 100 },
          { "from": 100, "to": 500 },
          { "from": 500 }
        ]
      }
    }
  }
}

Nested 嵌套聚合

示例场景：分析每个订单中不同产品的平均价格。假设数据：一个订单可以有多个产品，每个产品都有一个价格。查询语句：

POST /orders/_search
{
  "size": 0,
  "aggs": {
    "orders": {
      "nested": {
        "path": "products"
      },
      "aggs": {
        "avg_price_per_order": {
          "avg": {
            "field": "products.price"
          }
        }
      }
    }
  }
}

Pipeline 管道聚合

示例场景：在按月份统计的销售记录中找出销售额最高的月份，并计算该月的平均销售额。查询语句：

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "top_sales_month": {
          "top_hits": {
            "sort": [
              { "total_sales": { "order": "desc" } }
            ],
            "size": 1
          }
        },
        "avg_sales_top_month": {
          "avg_bucket": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}

Derivative（导数聚合）

示例场景：分析销售数据的变化趋势，计算销售额的日增长率。查询语句：

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "day"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "sales_derivative": {
          "derivative": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}

我们首先按天对销售数据进行分组，并计算每天的总销售额。然后，我们使用derivative管道聚合来计算销售额的日增长率。

Cumulative Sum（累计和聚合）

示例场景：计算销售数据的累计和，展示销售额的累计增长情况。查询语句：

POST  /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "cumulative_sales": {
          "cumulative_sum": {
            "buckets_path": "total_sales"
          }
        }
      }
    }
  }
}

我们按月对销售数据进行分组，并计算每月的总销售额。然后，我们使用cumulative_sum管道聚合来计算销售额的累计和。

Moving Average（移动平均聚合）

示例场景：分析销售数据的移动平均线，以平滑数据波动并识别趋势。查询语句：

POST /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_over_time": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "day"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "moving_avg_sales": {
          "moving_avg": {
            "buckets_path": "total_sales",
            "window": 7  // 计算7天的移动平均
          }
        }
      }
    }
  }
}

我们按天对销售数据进行分组，并计算每天的总销售额。然后，我们使用moving_avg管道聚合来计算7天的移动平均销售额。

Bucket Script（桶脚本聚合）

示例场景：计算每个销售桶中不同产品的销售额占比。查询语句（假设每个销售桶中按产品分组）：

POST  /sales/_search
{
  "size": 0,
  "aggs": {
    "sales_by_product": {
      "terms": {
        "field": "product.keyword"
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "amount"
          }
        },
        "sales_percentage": {
          "bucket_script": {
            "buckets_path": {
              "thisSales": "total_sales",
              "totalSales": "_sum"  // 假设外层还有一个求和聚合来计算总销售额
            },
            "script": "params.thisSales / params.totalSales * 100"
          }
        }
      }
    },
    "total_sales": {
      "sum": {
        "field": "amount"
      }
    }
  }
}

bucket_script引用了两个buckets_path，其中_sum是Elasticsearch中的一个特殊变量，它引用了当前聚合上下文中所有桶的总和。

Filters 过滤器聚合

示例场景：分析不同分类产品的销售情况。查询语句：

POST /products/_search
{
  "size": 0,
  "aggs": {
    "sales_by_category": {
      "filters": {
        "filters": {
          "electronics": { "term": { "category": "electronics" }},
          "books": { "term": { "category": "books" }},
          "other": { "match_all": {} }
        }
      },
      "aggs": {
        "total_sales": {
          "sum": {
            "field": "price"
          }
        }
      }
    }
  }
}

使用filters聚合来按产品分类过滤文档，并在每个过滤器内部使用sum聚合来计算总销售额。

七、聚合排序

基于count排序：通过聚合的_count字段对桶进行排序，可以展示销售量最高或最低的产品、访问量最大的网页等。
基于key排序：对于Terms聚合，可以使用_key字段对桶的键（即分组字段的值）进行排序。这有助于按字母顺序或数值顺序展示分组数据。

八、优化建议

避免不必要的大聚合：对于大数据集，执行复杂的聚合操作可能会消耗大量计算资源并影响性能。因此，建议根据实际需求合理设计聚合查询，避免执行不必要的大聚合操作。
缓存聚合结果：对于频繁执行的聚合查询，可以考虑使用Elasticsearch的缓存功能来缓存聚合结果。这样可以减少重复计算的开销并提高查询性能。
合理设计索引和映射：根据查询需求和数据特点，合理设计索引和映射是优化聚合查询性能的关键。例如，选择适当的字段类型和属性、合理设置分片数和副本数等。
监控和分析：定期监控和分析Elasticsearch的性能指标和日志可以帮助及时发现和解决潜在的性能问题。通过监控聚合查询的执行时间、内存使用情况等指标，可以评估聚合查询的性能并进行相应的优化调整。

太强 ! SpringBoot中出入参增强的5种方法 : 加解密、脱敏、格式转换、时间时区处理

太强 ! SpringBoot中优化if-else语句的七种绝佳方法实战

SpringBoot使用EasyExcel并行导出多个excel文件并压缩zip下载

提升编程效率的利器: Google Guava库中双向映射BitMap

从MySQL行格式原理看：为什么开发规范中不推荐NULL？数据是如何在磁盘上存储的？

SpringBoot中使用Jackson实现自定义序列化和反序列化控制的5种方式总结

提升编程效率的利器: Google Guava库之RateLimiter优雅限流

深入JVM逃逸分析原理：且看其如何提高程序性能和内存利用率

必知必会！MySQL索引下推：原理与实战

深入解析JVM内存分配优化技术：TLAB

SpringBoot中基于JWT的双token（access_token+refresh_token）授权和续期方案

SpringBoot中基于JWT的单token授权和续期方案

SpringBoot中Token登录授权、续期和主动终止的方案(Redis+Token)

微服务中token鉴权设计的4种方式总结

提升编程效率的API利器：精通Google Guava库区间范围映射RangeMap

SpringBoot中Jackson控制序列化和反序列化的注解和扩展点总结【收藏版】

SpringBoot中大量数据导出方案：使用EasyExcel并行导出多个excel文件并压缩zip后下载

SpringBoot中基于XXL-JOB实现大量数据灵活控制的分片处理方案

关注『 码到三十五 』，日有所获

点赞和在看就是最大的支持

http://mp.weixin.qq.com/s?__biz=MzkxNDY2NTAxNg==&mid=2247485546&idx=1&sn=b3f0eaa311e2482bdc281ad6a32c709c

码到三十五

主要分享正经的开发技术(原理，架构，实践，源码等），以输出驱动输入；当然偶尔会穿插点生活琐碎，顺便吃个瓜，目的嘛，搞点精准流量，看能不能发发广告。

最新文章

【Elasticsearch系列】深入解析Elasticsearch中脚本原理

Spring Boot中Druid连接池与多数据源切换的方案

Java设计模式：组合模式之透明与安全的两种实现

探索MyBatis Dynamic SQL：发展历程、核心原理及实践应用

十个方法破解Java生成随机密码的小窍门

全文检索技术RedisSearch与Elasticsearch对比

深入解析JVM内存优化：压缩指针技术详解

lua脚本在redis的实战案例

提升编程效率的API利器：精通Google Guava库之多值Multimap

Redis为什么速度快：数据结构、存储及IO网络原理总结

Java设计模式深度解析：利用享元模式实现高效对象共享与内存优化

跨越知识盲区：解读MySQL InnoDB线程模型

Elasticsearch揭秘：高效写入与精准检索的流程原理全解析

MySQL高级优化技巧：使用Hints精准控制查询优化器的选择

提升编程效率的API利器：40个示例精通Google Guava库常用工具

每个后端开发人员都应该问的发人深省的问题

SpringBoot中基于AOP和Semaphore实现API限流

为什么Java中1==1为真，而128==128为假？基于享元模式的整数缓存原理分析

Java编程设计原则终结回顾：构建稳健、可维护的软件基石

解锁RSA算法奥秘：透视原理及其安全性机制

加密算法理论总结：分类与典型算法

最全ThreadLocal总结：InheritableThreadLocal、FastThreadLocal原理应用及高频面试题

MySQL索引面试秘籍：精选面试题与深度解析汇总

提升编程效率的API利器：精通Google Guava库之RangeSet范围集合

Elasticsearch聚合查询实战：深入掌握指标聚合、桶聚合及管道聚合

聊聊Spring中两种创建Bean的方式：BeanDefinition和FactoryBean

fastjson自定义序列化和反序列化(扩展点)方法总结

总结回顾MyBatis插件：功能特性、工作原理、实战应用、场景分析及最佳实践指南

提升编程效率的API利器：精通Google Guava库之IO工具类

深入浅出：MongoDB聚合管道技术的全面解析与实战指南

MongoDB技术架构总结回顾

全面透视HTTPS：深入剖析其安全机制与回顾

java stream实战：30个案例精通集合筛选、归约、分组与聚合操作

揭秘MySQL范围查询优化：MRR（多范围读取优化）如何将随机IO转化为顺序IO

10个解放双手的IDEA插件，少些冤枉代码

SpringBoot中基于XXL-JOB实现大量数据灵活控制的分片处理方案

提升编程效率的API利器：精通Google Guava库二维映射表Table

SpringBoot中大量数据导出方案：使用EasyExcel并行导出多个excel文件并压缩zip后下载

重温设计模式：桥接模式实现灵活组合，超越单一继承的设计之道

接口性能优化的 15 个技巧

提升编程效率的API利器：精通Google Guava库区间范围映射RangeMap

SpringBoot中Jackson控制序列化和反序列化的注解和扩展点总结【收藏版】

SpringBoot中基于JWT的双token（access_token+refresh_token）授权和续期方案

SpringBoot中基于JWT的单token授权和续期方案

SpringBoot中Token登录授权、续期和主动终止的方案(Redis+Token)

Java NIO 总结: Channel 通道

SpringBoot使用EasyExcel并行导出多个excel文件并压缩zip下载

AES加解密算法：原理、应用与安全性解析

MySQL常用函数总结复习

万字详解MySQL Online DDL : 历史演进到原理及使用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉