MySQL 模糊查询再也不用like+%了

科技 2024-11-11 11:55 上海

👉 这是一个或许对你有用的社群
🐱 一对一交流/面试小册/简历优化/求职解惑，欢迎加入「芋道快速开发平台」知识星球。下面是星球提供的部分资料：
《项目实战（视频）》：从书中学，往事中“练”
《互联网高频面试题》：面朝简历学习，春暖花开
《架构 x 系统设计》：摧枯拉朽，掌控面试高频场景题
《精进 Java 学习指南》：系统学习，互联网主流技术栈
《必读 Java 源码专栏》：知其然，知其所以然

👉这是一个或许对你有用的开源项目
国产 Star 破 10w+ 的开源项目，前端包括管理后台 + 微信小程序，后端支持单体和微服务架构。
功能涵盖 RBAC 权限、SaaS 多租户、数据权限、商城、支付、工作流、大屏报表、微信公众号等等功能：
Boot 仓库：https://gitee.com/zhijiantianya/ruoyi-vue-pro
Cloud 仓库：https://gitee.com/zhijiantianya/yudao-cloud
视频教程：https://doc.iocoder.cn
【国内首批】支持 JDK 21 + SpringBoot 3.2.2、JDK 8 + Spring Boot 2.7.18 双版本

来源：网络

小结

前言

我们都知道 InnoDB 在模糊查询数据时使用 "%xx" 会导致索引失效，但有时需求就是如此，类似这样的需求还有很多，例如，搜索引擎需要根基用户数据的关键字进行全文查找，电子商务网站需要根据用户的查询条件，在可能需要在商品的详细介绍中进行查找，这些都不是B+树索引能很好完成的工作。

通过数值比较，范围过滤等就可以完成绝大多数我们需要的查询了。但是，如果希望通过关键字的匹配来进行查询过滤，那么就需要基于相似度的查询，而不是原来的精确数值比较，全文索引就是为这种场景设计的。

全文索引（Full-Text Search）是将存储于数据库中的整本书或整篇文章中的任意信息查找出来的技术。它可以根据需要获得全文中有关章、节、段、句、词等信息，也可以进行各种统计和分析。

在早期的 MySQL 中，InnoDB 并不支持全文检索技术，从 MySQL 5.6 开始，InnoDB 开始支持全文检索。

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址：https://github.com/YunaiV/ruoyi-vue-pro
视频教程：https://doc.iocoder.cn/video/

倒排索引

全文检索通常使用倒排索引（inverted index）来实现，倒排索引同 B+Tree 一样，也是一种索引结构。它在辅助表中存储了单词与单词自身在一个或多个文档中所在位置之间的映射，这通常利用关联数组实现，拥有两种表现形式：

inverted file index：{单词，单词所在文档的id}
full inverted index：{单词，（单词所在文档的id，再具体文档中的位置）}

上图为 inverted file index 关联数组，可以看到其中单词"code"存在于文档1,4中，这样存储再进行全文查询就简单了，可以直接根据 Documents 得到包含查询关键字的文档；而 full inverted index 存储的是对，即（DocumentId,Position），因此其存储的倒排索引如下图，如关键字"code"存在于文档1的第6个单词和文档4的第8个单词。相比之下，full inverted index 占用了更多的空间，但是能更好的定位数据，并扩充一些其他搜索特性。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序，支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能
项目地址：https://github.com/YunaiV/yudao-cloud
视频教程：https://doc.iocoder.cn/video/

全文检索

创建全文索引

「1、创建表时创建全文索引语法如下：」

CREATE TABLE table_name (
    id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY, 
    author VARCHAR(200), 
    title VARCHAR(200), 
    content TEXT(500), 
    FULLTEXT full_index_name (author,title,content) 
) ENGINE=InnoDB;

输入查询语句：

SELECT table_id, name, space 
from INFORMATION_SCHEMA.INNODB_TABLES
WHERE name LIKE 'test/%';

上述六个索引表构成倒排索引，称为辅助索引表。当传入的文档被标记化时，单个词与位置信息和关联的DOC_ID，根据单词的第一个字符的字符集排序权重，在六个索引表中对单词进行完全排序和分区。

「2、在已创建的表上创建全文索引语法如下：」

CREATE FULLTEXT INDEX full_index_name ON table_name(col_name);

使用全文索引

MySQL 数据库支持全文检索的查询，全文索引只能在 InnoDB 或 MyISAM 的表上使用，并且只能用于创建 char,varchar,text 类型的列。

其语法如下：

MATCH(col1,col2,...) AGAINST(expr[search_modifier])
search_modifier:
{
    IN NATURAL LANGUAGE MODE
    | IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
    | IN BOOLEAN MODE
    | WITH QUERY EXPANSION
}

全文搜索使用 MATCH() AGAINST()语法进行，其中，MATCH() 采用逗号分隔的列表，命名要搜索的列。AGAINST()接收一个要搜索的字符串，以及一个要执行的搜索类型的可选修饰符。全文检索分为三种类型：自然语言搜索、布尔搜索、查询扩展搜索，下面将对各种查询模式进行介绍。

Natural Language

自然语言搜索将搜索字符串解释为自然人类语言中的短语，MATCH()默认采用 Natural Language 模式，其表示查询带有指定关键字的文档。

接下来结合demo来更好的理解Natural Language

SELECT
    count(*) AS count 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( 'MySQL' );

上述语句，查询 title,body 列中包含 'MySQL' 关键字的行数量。上述语句还可以这样写：

SELECT
    count(IF(MATCH ( title, body ) 
    against ( 'MySQL' ), 1, NULL )) AS count 
FROM
    `fts_articles`;

上述两种语句虽然得到的结果是一样的，但从内部运行来看，第二句SQL的执行速度更快些，因为第一句SQL（基于where索引查询的方式）还需要进行相关性的排序统计，而第二种方式是不需要的。

还可以通过SQL语句查询相关性：

SELECT
    *,
    MATCH ( title, body ) against ( 'MySQL' ) AS Relevance 
FROM
    fts_articles;

相关性的计算依据以下四个条件：

word 是否在文档中出现
word 在文档中出现的次数
word 在索引列中的数量
多少个文档包含该 word

对于 InnoDB 存储引擎的全文检索，还需要考虑以下的因素：

查询的 word 在 stopword 列中，忽略该字符串的查询
查询的 word 的字符长度是否在区间 [innodb_ft_min_token_size,innodb_ft_max_token_size] 内

如果词在 stopword 中，则不对该词进行查询，如对 'for' 这个词进行查询，结果如下所示：

SELECT
    *,
    MATCH ( title, body ) against ( 'for' ) AS Relevance 
FROM
    fts_articles;

可以看到，'for'虽然在文档 2，4中出现，但由于其是 stopword ,故其相关性为0

参数 innodb_ft_min_token_size 和 innodb_ft_max_token_size 控制 InnoDB 引擎查询字符的长度，当长度小于 innodb_ft_min_token_size 或者长度大于 innodb_ft_max_token_size 时，会忽略该词的搜索。在 InnoDB 引擎中，参数 innodb_ft_min_token_size 的默认值是3，innodb_ft_max_token_size的默认值是84

Boolean

布尔搜索使用特殊查询语言的规则来解释搜索字符串，该字符串包含要搜索的词，它还可以包含指定要求的运算符，例如匹配行中必须存在或不存在某个词，或者它的权重应高于或低于通常情况。例如，下面的语句要求查询有字符串"Pease"但没有"hot"的文档，其中+和-分别表示单词必须存在，或者一定不存在。

select * from fts_test where MATCH(content) AGAINST('+Pease -hot' IN BOOLEAN MODE);

「Boolean 全文检索支持的类型包括：」

+：表示该 word 必须存在
-：表示该 word 必须不存在
(no operator)表示该 word 是可选的，但是如果出现，其相关性会更高
@distance表示查询的多个单词之间的距离是否在 distance 之内，distance 的单位是字节，这种全文检索的查询也称为 Proximity Search，如 MATCH(context) AGAINST('"Pease hot"[@30](https://my.oschina.net/u/3380933)' IN BOOLEAN MODE)语句表示字符串 Pease 和 hot 之间的距离需在30字节内
>：表示出现该单词时增加相关性
<：表示出现该单词时降低相关性
~：表示允许出现该单词，但出现时相关性为负
* ：表示以该单词开头的单词，如 lik*,表示可以是 lik，like，likes
" ：表示短语

下面是一些demo，看看 Boolean Mode 是如何使用的。

「demo1：+ -」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( '+MySQL -YourSQL' IN BOOLEAN MODE );

上述语句，查询的是包含 'MySQL' 但不包含 'YourSQL' 的信息

「demo2：no operator」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( 'MySQL IBM' IN BOOLEAN MODE );

上述语句，查询的 'MySQL IBM' 没有 '+'，'-'的标识，代表 word 是可选的，如果出现，其相关性会更高。

「demo3：@」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( '"DB2 IBM"@3' IN BOOLEAN MODE );

上述语句，代表 "DB2" ，"IBM"两个词之间的距离在3字节之内

「demo4：> <」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( '+MySQL +(>database <DBMS)' IN BOOLEAN MODE );

上述语句，查询同时包含 'MySQL'，'database'，'DBMS' 的行信息，但不包含'DBMS'的行的相关性高于包含'DBMS'的行。

「demo5: ~」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( 'MySQL ~database' IN BOOLEAN MODE );

上述语句，查询包含 'MySQL' 的行，但如果该行同时包含 'database'，则降低相关性。

「demo6：」 *

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( 'My*' IN BOOLEAN MODE );

上述语句，查询关键字中包含'My'的行信息。

「demo7："」

SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH ( title, body ) AGAINST ( '"MySQL Security"' IN BOOLEAN MODE );

上述语句，查询包含确切短语 'MySQL Security' 的行信息。

Query Expansion

查询扩展搜索是对自然语言搜索的修改，这种查询通常在查询的关键词太短，用户需要 implied knowledge（隐含知识）时进行，例如，对于单词 database 的查询，用户可能希望查询的不仅仅是包含 database 的文档，可能还指那些包含 MySQL、Oracle、RDBMS 的单词，而这时可以使用 Query Expansion 模式来开启全文检索的 implied knowledge

通过在查询语句中添加 WITH QUERY EXPANSION / IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION 可以开启 blind query expansion（又称为 automatic relevance feedback），该查询分为两个阶段。

第一阶段：根据搜索的单词进行全文索引查询
第二阶段：根据第一阶段产生的分词再进行一次全文检索的查询

接着来看一个例子，看看 Query Expansion 是如何使用的。

-- 创建索引
create FULLTEXT INDEX title_body_index on fts_articles(title,body);
-- 使用 Natural Language 模式查询
SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH(title,body) AGAINST('database');

使用 Natural Language 查询结果如下：

-- 当使用 Query Expansion 模式查询
SELECT
    * 
FROM
    `fts_articles` 
WHERE
    MATCH(title,body) AGAINST('database' WITH QUERY expansion);

使用 Query Expansion 后查询结果如下：

由于 Query Expansion 的全文检索可能带来许多非相关性的查询，因此在使用时，用户可能需要非常谨慎。

删除全文索引

「1、直接删除全文索引语法如下：」

DROP INDEX full_idx_name ON db_name.table_name;

「2、使用 alter table 删除全文索引语法如下：」

ALTER TABLE db_name.table_name DROP INDEX full_idx_name;

小结

本文从理论与实践结合的角度对 fulltext index 做了介绍，如对 MySQL 感兴趣可继续关注 MySQL 官方文档进行学习：https://dev.mysql.com/doc/refman/8.0/en/fulltext-search.html。

欢迎加入我的知识星球，全面提升技术能力。

👉 加入方式，“长按”或“扫描”下方二维码噢：

星球的内容包括：项目实战、面试招聘、源码解析、学习路线。

文章有帮助的话，在看，转发吧。
谢谢支持哟 (*^__^*）

http://mp.weixin.qq.com/s?__biz=MzUxOTc4NjEyMw==&mid=2247587260&idx=2&sn=be99b5a472f1a0baf312fff620731cd2

Java基基

一个苦练基本功的 Java 公众号，所以取名 Java 基基

最新文章

实现 SpringBoot 程序加密，禁止 jadx 反编译

SpringBoot+ElasticSearch实现文档内容抽取、高亮分词、全文检索

SpringBoot+Redis自定义注解实现发布订阅

公司大佬对 Excel 导入、导出的封装，那叫一个妙啊！

Spring Boot + liteflow 规则引擎，太香了！

SpringBoot+Vue实现了一个日志监控可视化平台

SpringBoot实现电子文件签字+合同系统！

史上最全的微服务权限控制方案，完美实现！

为什么大厂一边大规模裁员，又一边招聘？

性能爆表：SpringBoot利用ThreadPoolTaskExecutor批量插入百万级数据实测！

支付系统高可用架构设计，写得太好了！（建议收藏）

年终奖10w的同事，写的代码那叫一个优雅！

SpringBoot 接口加密解密，新姿势！

SSO 单点登录和 OAuth2.0 的区别和理解

Redis大key多key拆分方案

为什么 B 站的弹幕可以不挡人物

面试官：单核 CPU 支持 Java 多线程吗？为什么？被问懵了！

一个小公司的技术开发心酸事（已倒闭）

一口气说出前后端 4 种鉴权方案

微信为什么使用 SQLite 保存聊天记录？

太震撼了，自愿离职！每人补偿 400 万!

效率爆表！EasyExcel合并单元格这样实现才是yyds

代码更新不停机：Spring Boot应用实现零停机更新！

面试官：如果要存ip地址，用什么数据类型比较好

不引入ES，如何利用MySQL实现模糊匹配？

只需20个Linux命令，让你的工作效率翻倍！

换掉ES！Redis官方搜索引擎来了，性能炸裂！

PO、VO、DAO、BO、DTO、POJO 能分清吗？

无需解压，一键修改Jar包内文件，这款IDEA插件太顶了！

SpringBoot 官方强烈推荐，连接池，太快了！

程序员缺乏经验的 7 种表现！

为什么你的 Linux 开发效率不高？试试这10款神器！

Java 8 Stream 之 collect() 的奇技淫巧

发现 XSS 漏洞？别急，用这招 SpringBoot 技巧轻松搞定！

SQL中为什么不要使用1=1?

Spring Boot + 事务钩子函数，太强了！

MySQL 模糊查询再也不用like+%了

SpringBoot 项目 Jar 包加密，防止反编译！

比裁员更侮辱人的事情发生了。。。

推荐一款完全开源的多端仓库管理系统

MapStruct 超神进阶用法，让你的代码效率提升十倍！

你的编程能力从什么时候开始突飞猛进？一个腾讯小哥哥是这样回答的！

离谱！深圳这家公司重新定义8小时工作制！

SpringBoot优雅停机指南

放弃使用UUID，ULID才是更好的选择！

17 岁高中生，三人团队，一款AI应用，月入百万美金，创始人感概，难道是命运的安排吗？

MySQL中各种日志、缓冲区都是干嘛的？

SpringBoot + Disruptor 实现特快高并发处理，支撑每秒 600 万订单无压力！

90 后程序员梦碎 A 股，进场四天亏 32 万

一款高颜值、跨平台的 Redis 桌面客户端神器！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉