全文检索[ES系列] - 第495篇

全文检索是一种通过对文本内容进行全面索引和搜索的技术。它可以快速地在大量文本数据中查找包含特定关键词或短语的文档，并返回相关的搜索结果。全文检索广泛应用于各种信息管理系统和应用中，如搜索引擎、文档管理系统、电子邮件客户端、新闻聚合网站等。它可以帮助用户快速定位所需信息，提高检索效率和准确性。

（1）查询：有明确的搜索条件边界。比如，年龄 15~25 岁，颜色 = 红色，价格 < 3000，这里的 15、25、红色、3000 都是条件边界。即有明确的范围界定。

（2）检索：即全文检索，无搜索条件边界，召回结果取决于相关性，其相关性计算无明确边界性条件，如同义词、谐音、别名、错别字、混淆词、网络热梗等均可成为其相关性判断依据。

说明：显示了符合包含java和设计模式的搜索结果，并且对于java、设计模式进行了高亮显示。

1.2 用传统关系型数据库实现搜索存在的问题

设想一个关于全文检索的场景，比如搜索Java设计模式：

思考一下：用传统关系型数据库实现有什么问题？

如果是用MySQL存储文章，我们应该会使用这样的 SQL 去查询：

select * from t_blog where content like "%Java设计模式%"

这种需要遍历所有的记录进行匹配，不但效率低，而且搜索结果不符合我们搜索时的期望。

二、全文检索的原理

在全文检索中，首先需要对文本数据进行处理，包括分词、去除停用词等。

然后，对处理后的文本数据建立索引，索引会记录每个单词在文档中的位置信息以及其他相关的元数据，如词频、权重等。这个过程通常使用倒排索引（inverted index）来实现，倒排索引将单词映射到包含该单词的文档列表中，以便快速定位相关文档。

当用户发起搜索请求时，搜索引擎会根据用户提供的关键词或短语，在建立好的索引中查找匹配的文档。搜索引擎会根据索引中的信息计算文档的相关性，并按照相关性排序返回搜索结果。用户可以通过不同的搜索策略和过滤条件来精确控制搜索结果的质量和范围。

三、什么是倒排索引

正排索引（Forward Index）和倒排索引（Inverted Index）是全文检索中常用的两种索引结构，它们在索引和搜索的过程中扮演不同的角色。

3.1正排索引（正向索引）

正排索引是将文档按顺序排列并进行编号的索引结构。每个文档都包含了完整的文本内容，以及其他相关的属性或元数据，如标题、作者、发布日期等。在正排索引中，可以根据文档编号或其他属性快速定位和访问文档的内容。正排索引适合用于需要对文档进行整体检索和展示的场景，但对于包含大量文本内容的数据集来说，正排索引的存储和查询效率可能会受到限制。

在MySQL 中通过 ID 查找就是一种正排索引的应用。

3.2倒排索引（反向索引）

倒排索引是根据单词或短语建立的索引结构。它将每个单词映射到包含该单词的文档列表中。倒排索引的建立过程是先对文档进行分词处理，然后记录每个单词在哪些文档中出现，以及出现的位置信息。通过倒排索引，可以根据关键词或短语快速找到包含这些词语的文档，并确定它们的相关性。倒排索引适用于在大规模文本数据中进行关键词搜索和相关性排序的场景，它能够快速定位文档，提高搜索效率。

我们在创建文章的时候，建立一个关键词与文章的对应关系表，就可以称之为倒排索引。如下图所示：

我就是我，是颜色不一样的烟火。
我就是我，是与众不同的小苹果。

à悟纤学院：

学院中有Spring Boot相关的课程！点击「阅读原文」进行查看！

SpringBoot视频：http://t.cn/A6ZagYTi

SpringBoot交流平台：https://t.cn/R3QDhU0

SpringSecurity5.0视频：http://t.cn/A6ZadMBe

ShardingJDBC分库分表：http://t.cn/A6ZarrqS

分布式事务解决方案：http://t.cn/A6ZaBnIr

JVM内存模型调优实战：http://t.cn/A6wWMVqG

Spring入门到精通：https://t.cn/A6bFcDh4

大话设计模式之爱你：https://dwz.cn/wqO0MAy7

http://mp.weixin.qq.com/s?__biz=MzA4ODIyMzEwMg==&mid=2447538305&idx=1&sn=e52ba5f45e6454c2c76feb9ba55962dc

SpringBoot

Suno AI制作音乐,Viggle AI - 照片跳舞,AI音乐,Noisee AI制作MV。Spring Boot技术。博客已有400+，文章特色：一个知识点一个系列、让技术变得简单、文章轻松幽默，悟纤和师傅趣谈更是轻松有趣。

最新文章

Suno V4 API 接入 – 最新的Suno模型，音质很炸裂

Suno V4上线啦，来听听V3和V4的区别，效果太炸裂了 —— V4 IS HERE

Suno V4版本震撼来袭，音质与歌词双提升

Spring Boot实用小技巧10 - 第532篇

AI视频生视频，一次支持20秒的视频，效果挺震撼 - 模仿爆款抖音账号制作爆款视频[AI视界]

Spring Boot实用小技巧9 - 第531篇

Viggle API开放，接入到自己的产品中，让照片跳起舞来

双十一狂欢11天，买越多，送越多，多次购买可叠加使用

Spring Boot实用小技巧8 - 第530篇

Spring Boot实用小技巧7

又一款AI对口型神器，让照片开口说话唱歌，1分钟教会（附保姆级教程）

Spring Boot实用小技巧6 - 第528篇

Spring Boot实用小技巧5 - 第527篇

Suno新上线Covers翻唱新 - 实现音频风格任意转换

万物皆能舞，AI让你秒变“舞”林高手 – Viggle AI“舞”所不能

Spring Boot实用小技巧4 - 第526篇

Suno AI API接入 - 将AI音乐接入到自己的产品中，支持120并发任务

Spring Boot实用小技巧3 - 第525篇

Spring Boot实用小技巧2 - 第524篇

Spring Boot实用小技巧 - - 第523篇

情人节 - 什么礼物最能打动女生的心？

SpringBoot基本原理，轻松应对面试官 - 第522篇

SpringBoot多例模式，在同一个类中注入两次是否是同一个对象 – 一不小心就会写出一个重大BUG！！ - 521篇

SpringBoot开发的AI导航站技术架构剖析 —— 技术如何选型 - 第520篇

SpringBoot 中多例模式的神秘世界：用法区别以及应用场景，最后的灵魂拷问会吗？- 第519篇

SpringBoot异常处理机制之自定义404、500错误提示页面 - 518篇

Spring的SmartLifecycle可以没用过，但没听过就不好了！ - 第517篇

Noisee AI中文站网页版 AI 音乐生成视频全新登场，快来抢先体验——国内第一个登场的中文站来袭 - 516篇

idea springboot woff/woff2/eot/ttf/svg等小图标不显示的问题 - 第515篇

一文讲清楚SpringBoot项目打包jar后运行报错template might not exist - 第514篇

Transaction rolled back because it has been marked as - 第512篇

Spring Boot整合ElasticSearch实战 - 第511篇

抖音主播/电商人员有福了，利用Suno创作产品宣传，让产品动起来-小米Su7 - 第510篇

ES 深度分页问题及针对不同需求下的解决方案[ES系列] - 第509篇

ES全文检索[ES系列] - 第508篇

如何让AI生成自己喜欢的歌曲-AI音乐创作的正确方式 - 第507篇

日赚800，利用淘宝/闲鱼进行AI音乐售卖实操 - 第506篇

AI音乐，8大变现方式——Suno：音乐版的ChatGPT - 第505篇

ES高级查询语法DSL实战 - 第504篇

ElasticSearch文档批量操作[ES系列] - 第503篇

ElasticSearch文档操作[ES系列] - 第502篇

国内最全的Spring Boot系列之七

ElasticSearch重建/创建/删除索引操作 - 第501篇

ElasticSearch扫盲概念篇[ES系列] - 第500篇

Elasticsearch安装分词插件[ES系列] - 第499篇

Elasticsearch可视化平台Kibana [ES系列] - 第498篇

ElasticSearch详细搭建以及常见错误high disk watermark [ES系列] - 第497篇

ElasticSearch应用场景以及技术选型[ES系列] - 第496篇

全文检索[ES系列] - 第495篇

15篇MyBatis-Plus系列集合篇「值得收藏学习」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉