深入解析 Elasticsearch IK 分词器：ik_smart 和 ik_max_word 的区别与应用场景

科技 2024-12-12 10:00 安徽

👉 欢迎加入小哈的星球，你将获得: 专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论
新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17..., 点击查看项目介绍；
《从零手撸：前后端分离博客项目（全栈开发）》 2期已完结,演示链接：http://116.62.199.48/;
截止目前，累计输出 72w+ 字，讲解图 3088+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，Spring Cloud Alibaba 等等，戳我加入学习，解锁全部项目，已有2500+小伙伴加入

1、Elasticsearch ik 分词器常见问题

最近在 git 上看看 ik 的相关问题，发现大家问的比较多的是 ik 分词器的 ik_smart 和 ik_max_word 两个分词模式，以及它俩之间的分词差异。

这里来集中解释一波，期望对大家有帮助。

2、ik_smart 与 ik_max_word 的异同

首先来看下官方的FAQs

What is the difference between ik_max_word and ik_smart?

ik_max_word: Performs the finest-grained segmentation of the text. For example, it will segment "中华人民共和国国歌" into "中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌", exhaustively generating various possible combinations, suitable for Term Query.

ik_smart: Performs the coarsest-grained segmentation of the text. For example, it will segment "中华人民共和国国歌" into "中华人民共和国,国歌", suitable for Phrase queries.

Note: ik_smart is not a subset of ik_max_word.

官方这里简单的描述了一下使用用途，即：

ik_smart 比较适合 match_phrase query，而 ik_max_word 更合适 term query。

ik_smart 的分词结果并不是 ik_max_word 的分词结果的子集。

那这两个分词器在具体实现上会有什么不一样呢？

哪些场景两个分词器的分词结果肯定不同呢？

造成分词结果不一样的原因是什么？

3、ik 分词器源码分析

3.1. 量词处理源码剖析

这里先看一下这段代码。

  private void compound(Lexeme result){

  if(!this.cfg.isUseSmart()){
   return ;
  }
     //数量词合并处理
  if(!this.results.isEmpty()){

   if(Lexeme.TYPE_ARABIC == result.getLexemeType()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
    if(Lexeme.TYPE_CNUM == nextLexeme.getLexemeType()){
     //合并英文数词+中文数词
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CNUM);
    }else if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
     //合并英文数词+中文量词
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
    }
    if(appendOk){
     //弹出
     this.results.pollFirst(); 
    }
   }
   
   //可能存在第二轮合并
   if(Lexeme.TYPE_CNUM == result.getLexemeType() && !this.results.isEmpty()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
     if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
      //合并中文数词+中文量词
      appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
     }  
    if(appendOk){
     //弹出
     this.results.pollFirst();       
    }
   }

  }
 }

这里由 smart 模式触发的 合并英文数词+中文量词 的处理中，把 token 的属性修改成了 TYPE_CQUAN （中文数量词）。

这是 smart 模式下拥有而 max 模式下没有的分词方式和 token 类型。

举个例子：“7天” 这个词的分词结果，结果中分别展示了位置：内容：类型

ik_max_word:
0-1 : 7 :  ARABIC
1-2 : 天 :  COUNT

ik_smart
0-2 : 7天 :  TYPE_CQUAN

也就是说 ik_max_word 与 ik_smart 在‘英文数词+中文量词’的分词场景下，分词结果必定不一样。

3.2. 切分模式和歧义消除剖析

ik分词器的算法原则还是基于中文字典进行字典树的匹配。

也就是说词元匹配的前提是丰富的中文字典库（ik 已经默认加载了几十万的字典库了）。

我们先来看 ik_max_word 的切分模式：执行文本的最细粒度分割，将分段详尽地生成各种可能的组合。

来看下“中华人民共和国国歌”的例子，这里为了更加直观的体现字典树的匹配模式，我们把字典库的内容也列出来。

文本：中华人民共和国国歌

字典库：中华人民共和国国歌,中华人民,中华,华人,人民共和国,人民,共和国,共和,国国,国歌

ik_max_word 分词结果：
0-9 : 中华人民共和国国歌 :  CN_WORD
0-4 : 中华人民 :  CN_WORD
0-2 : 中华 :  CN_WORD
1-3 : 华人 :  CN_WORD
2-7 : 人民共和国 :  CN_WORD
2-4 : 人民 :  CN_WORD
4-7 : 共和国 :  CN_WORD
4-6 : 共和 :  CN_WORD
6-8 : 国国 :  CN_WORD
7-9 : 国歌 :  CN_WORD

可以看出 ik_max_word 分词器把所有的字典结果都匹配出来了，同时也看到了好几个词元的位置是有重叠的，比如：“中华人民”“中华”“华人”这几个词元，位置在0-4这段有着不同的重叠。

这也就是造成了代码中所需要处理的“歧义”，我们这里可以把“歧义”理解为多个词元组合去代表一段内容。

而 ik_smart 分词器主要作用就是通过对词元组合进行歧义裁决来消除词元间的歧义，消除歧义后的直观体现就是不再会有位置重叠的词元（这也是 ik_smart 更适合 match_phrase 查询的原因）。

ik_smart 遵循歧义裁决的主要原则顺序如下：

比较有效文本长度，越长越好;
比较词元个数，越少越好;
路径跨度越大越好;
根据统计学结论，逆向切分概率高于正向切分，因此位置越靠后的优先;
词元位置权重比较，词长越平均越好。

同样的文本内容，同样的字典库，ik_smart 的分词结果如下：

ik_smart 分词结果：
0-9 : 中华人民共和国国歌 :  CN_WORD

由于字典库中“中华人民共和国国歌”可以覆盖整个文本，并满足上诉大多数条件，ik_smart 就只保留了第一个词元。

为了更直观的感受，我们把“中华人民共和国国歌”从词库中去除。

字典库：中华人民,中华,华人,人民共和国,人民,共和国,共和,国国,国歌

ik_smart 分词结果：
0-4 : 中华人民 :  CN_WORD
4-7 : 共和国 :  CN_WORD
7-9 : 国歌 :  CN_WORD

对于 ik_smart 歧义裁决原理有兴趣的同学可以看源码中 LexemePath 类的 compareTo 方法。

4、使用建议

召回要求高，对分词词元匹配精准的，使用 ik_max_word，并结合 term 查询。
召回要求低，分词切分要求较低，节省存储，比如日志场景，可以考虑 ik_smart 进行 match_phrase查询。
索引分词器和搜索分词器原则上保持一致，如果索引使用 ik_max_word 而搜索使用 ik_smart，则有词元匹配失败的可能。

👉 欢迎加入小哈的星球，你将获得: 专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论
新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17..., 点击查看项目介绍；
《从零手撸：前后端分离博客项目（全栈开发）》 2期已完结,演示链接：http://116.62.199.48/;
截止目前，累计输出 72w+ 字，讲解图 3088+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，Spring Cloud Alibaba 等等，戳我加入学习，解锁全部项目，已有2500+小伙伴加入


1. 我的私密学习小圈子，从0到1手撸企业实战项目！
2. SpringBoot 在一次 http 请求中耗费了多少内存？
3. 面试回答 Redis 是单线程的所以很快，让我回去等通知....
4. Spring Boot 性能提升的核武器，速度提升 500%！

最近面试BAT，整理一份面试资料《Java面试BATJ通关手册》，覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。
获取方式：点“在看”，关注公众号并回复 Java 领取，更多内容陆续奉上。
PS：因公众号平台更改了推送规则，如果不想错过内容，记得读完点一下“在看”，加个“星标”，这样每次新文章推送才会第一时间出现在你的订阅列表里。
点“在看”支持小哈呀，谢谢啦

小哈学Java

码龄9年，前某厂中台研发。专注于Java领域干货分享，不限于BAT面试, 算法，数据库，Spring Boot, 微服务,高并发, JVM, Docker容器，ELK相关知识，期待与您一同进步。

最新文章

弃用 RestTemplate，来了解一下官方推荐的 WebClient 吧！

疯传Java界，堪称最强！

MySQL中这14个神仙功能，惊艳到我了！！！

抱歉，最近我劝各位真的别轻易离职.....

直接问懵圈，MySQL一次批量插入多少条数据性能最佳？

线程池坑中之王！

如果 MySQL 的自增 ID 用完了，怎么解决？

RedisTemplate 的序列化策略和配置处理

五行代码 —— 接口吞吐量提升了10倍！

一个注解，优雅的实现接口幂等性

MySQL 中 Varchar(50) 和 varchar(500) 区别是什么?

工作中最常用的 8 种设计模式

取代后端岗，国内又一新兴岗位在崛起！这才是程序员未来5年最好的就业方向！

放弃Websocket，使用 SSE 仅用几行代码就能搞定这些功能！

深入解析 Elasticsearch IK 分词器：ik_smart 和 ik_max_word 的区别与应用场景

SpringBoot 在一次 http 请求中耗费了多少内存？

面试回答 Redis 是单线程的所以很快，让我回去等通知....

Spring Boot 性能提升的核武器，速度提升 500%！

为了方便开发，我打算实现一个Redis 工具集

裁员了，很严重，今年千万别离职！

Nginx 性能优化全方案：打造一个高效服务器

如何设计一个高并发系统？

腾讯低代码平台正式开源！可拖拽生成手机项目、PC项目、TV项目！接私活福利啊！

面试官：线程池提交一个任务占多大内存？

Postman 最强平替诞生了！

领导：将公司项目重构成 DDD 架构！

如何防止被恶意刷接口？

明明硬件比软件难，但为什么硬件工程师待遇还不如软件?

代码越“整洁”，性能越“拉胯”？

本地 SSL 证书生成神器，轻松搞定 HTTPS

优雅实现多系统一致性补偿方案

阿里开源的 JetCache-Alibaba 缓存框架，来了解一下？

别提桶跑路，MySQL 误删数据救命指南来了！

谈一谈三方接口调用方案设计

Java找工作太逆天了。。

原来count(*)是接口性能差的真凶

Java就业市场是真癫了。

百万级任务重试框架 Fast-Retry

手撸一个动态Feign，实现一个“万能”接口调用

Arrays.asList() 数组转换成集合酿成的线上事故，差点要滚蛋了！

OMG，数据库主从延迟了！！！

弃用 Nginx后，Pingora成为Web服务器界的新王者！

系统上线前，SQL脚本的9大坑

美团二面：为什么不推荐使用 MyBatis 二级缓存？大部分人都答不上来！

为什么官方不推荐使用 @Autowired？

Spring Boot 插件化开发模式，真香！

一文彻底搞懂 zookeeper 核心知识点

Java 导出 Excel 利器：JXLS

简化本地Feign调用，老手教你这么玩

玩转 Spring 状态机：打造灵活高效的业务逻辑流，太优雅了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉