来源:DeepHub IMBA 本文约7200字,建议阅读14分钟
本文深入探讨如何通过多模型集成技术提升检索系统的性能,并详细介绍RAPTOR框架的实现机制。
在现代信息检索领域,单一检索模型的局限性日益显现。本文深入探讨如何通过多模型集成技术提升检索系统的性能,并详细介绍RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)框架的实现机制。这一研究建立在之前探讨的RAG Fusion技术基础之上,旨在提供更全面的信息检索解决方案。
索引系统是信息检索的基础架构,其设计直接影响检索效率。本文讨论检索系统中使用的技术和策略,特别是集成方法、其应用和带来的好处。
但为此,需要对检索系统中使用的技术和策略进行更深入的分析,这是本文的主要内容。
信息检索系统的核心组件
信息检索是一项复杂的任务。即使在今天,人们也不完全依赖检索系统来进行信息检索。大多数用户使用检索系统进行基本检索,然后自行筛选检索到的数据。
如何解决这个问题?要开发一个既可靠又高效的信息检索系统,必须关注以下核心组件或"支柱":
索引
索引是组织数据以便于高效检索的过程。从传统的倒排索引到更复杂的向量空间模型,有许多方法可以实现索引。
传统的倒排索引是信息检索系统(如搜索引擎)使用的数据结构,用于将单词和数字的内容映射到文档或一组文档中的位置。
向量空间模型将文档表示为高维空间中的向量,其中每个维度对应于词汇表中的一个术语。在该模型中,查询和文档都表示为向量。
词语是空间的基向量。文档向量在给定基向量中的系数表示相应词语在文档中出现的频率。查询也表示为向量,因为它们将在同一空间中被视为"伪文档"。
查询处理
查询处理阶段解释用户查询并将其转换为适合搜索的格式。自然语言处理(NLP)技术可以增强查询理解。具体来说:
同义词识别:NLP可以识别同义词和相关术语,使系统能够理解"car"和"automobile"指的是同一个概念。这扩大了搜索结果的范围。
上下文理解:NLP算法可以分析查询的上下文,以区分同一个词的不同含义。例如,"bank"可能指金融机构,也可能指河岸,这取决于上下文。
查询扩展:通过理解用户的意图,NLP可以扩展查询以包含相关术语和概念,提高检索相关文档的机会。例如,搜索"heart attack"也可能包含"myocardial infarction"的结果。
实体识别:NLP可以识别和分类查询中的实体(如人名、地名、组织名)。这有助于提供更精确的搜索结果。例如,识别"Apple"是一家公司而不是水果。
情感分析:理解查询背后的情感可以帮助定制搜索结果。例如,带有负面情感的查询可能会优先考虑不同于中性或正面查询的结果。
自然语言查询:NLP允许用户使用自然语言而不是特定关键词输入查询。这使搜索过程更直观和用户友好。例如,使用"What's the weather like in Bengaluru today?"而不是"Bengaluru weather today"。
处理拼写错误:NLP可以检测和纠正查询中的拼写错误或打字错误,确保即使用户出错也能获得相关结果。
相关性排序
在检索文档后,必须根据它们与用户查询的相关性对其进行排序。这个过程使用各种算法,如BM-25和神经网络排序模型。
用户交互
整合用户反馈可以帮助随时间改进搜索结果,使系统更具适应性和个性化。
信息检索的全景
理解信息检索模型
信息检索就是根据用户查询从大型数据集中找到相关信息。这个领域存在许多模型,各有其优势和劣势:
布尔模型
布尔模型是最早也是最简单的信息检索模型之一,它使用AND、OR和NOT等逻辑运算符来处理查询。在这个模型中,文档和查询都被视为术语集合,这允许基于精确匹配进行简单的检索。
例如:
AND检索包含所有指定术语的文档。
OR检索包含任何指定术语的文档。
NOT排除包含某些术语的文档。
尽管它为用户提供了对搜索结果的清晰性和控制,但它往往无法捕捉用户的意图。它可能会带来问题,因为用户可能难以表达复杂的查询,这可能导致结果数量不足或过多,因为它不能使用部分匹配或对文档进行排序。
向量空间模型(VSM)
向量空间模型是一个数学框架,将文档和查询表示为多维空间中的向量。每个维度对应于整个语料库中的一个唯一术语,这使得文本数据的细致表示成为可能。
向量表示:使用词频-逆文档频率(TF-IDF)将文档和查询转换为向量。在这里,根据术语在文档中的频率相对于它们在所有文档中的频率来分配权重,这使得表示更加相关。
余弦相似度:在VSM中使用余弦相似度来度量向量之间的相似性很重要。这个度量是通过计算两个向量之间角度的余弦值来实现的,得到一个分数,表示它们之间的相关程度。更高的余弦相似度分数意味着文档与查询更相关。
排序机制:文档根据其与查询向量的余弦相似度分数进行排序。这种排序允许比传统布尔模型更细致的检索过程,后者只考虑术语的二元包含或排除。
语义理解:VSM依赖于词频,而不考虑单词的上下文或语义。这意味着如果我们试图捕捉查询和文档背后的含义,特别是当涉及同义词或上下文相似术语时,可能会遇到挑战。
独立性假设:该模型假设查询术语是独立的,这可能导致在处理应该作为单一实体处理的短语或多词查询时表现不佳。
概率模型
概率模型为估计文档与给定查询相关的可能性提供了一个强大且良好的统计框架。概率模型的一个最好的例子是BM25(Best Match 25)。
BM25评分时考虑的因素
相关性估计:概率模型使用多种因素来计算文档基于其内容和相关查询的相关概率。这种估计受到许多因素的影响,比如:
词频(TF):查询词在文档中出现的频率。出现次数越多通常表示相关性越高。
逆文档频率(IDF):这衡量一个词在整个文档集合中的稀有或常见程度。在较少文档中出现的词获得更高的IDF分数,这有助于在相关性评估中优先考虑它们。
文档长度归一化:为了避免对较长文档的偏向,BM25根据文档长度对分数进行归一化,这确保较长的文档不会仅仅因为其大小而自动获得更高的相关性分数。
虽然像BM25这样的概率模型提供了一个统计学基础的方法,但它们实现起来可能很复杂。
可能面临的主要挑战:
参数优化:BM25使用两个可调参数,k1和b,它们显著影响词频和文档长度如何影响相关性分数。如果想找出这些参数的最优值,通常需要大量实验和领域专业知识。
计算资源:计算可能会消耗大量资源,特别是在分析大型数据集或为特定应用调整参数时。
BM25的优势
动态排序:与TF-IDF等静态模型不同,BM25根据文档集合中的词语分布调整其排序,这使得它更适合处理不同类型的查询和文档。
适合长查询:BM25在处理较长查询时表现良好,并解决了词语饱和问题,提高了整体排序准确性。
BM25的局限性
缺乏语义理解:BM25不考虑查询词或文档背后的语义含义。
示例:它难以区分同一个词的不同上下文(例如,"apple"作为水果与"Apple"作为科技公司),这会在搜索中产生相关性和质量较低的输出。
个性化问题:该算法统一处理所有用户查询,这可能导致非个性化的搜索结果,无法满足个人偏好或搜索历史。
示例:如果你搜索苹果水果而不是科技公司,它可能会继续给你显示关于Apple Inc的结果,即使你可能以各种方式多次搜索寻找苹果水果。
基于神经网络的模型
虽然深度学习在提高基于神经网络模型的能力方面取得了巨大进展,但这种进步主要发生在自然语言处理(NLP)和信息检索领域。
用于语言的架构有时使用嵌入和上下文信息,以促进非常细粒度的理解和在一系列应用中获得更好的性能。
上下文理解:基于神经网络的模型使用嵌入,这些嵌入捕获词语之间的语义关系,因此可能理解上下文。这样,它们可以确定语言中的差异,这些差异在使用标准对应物时可能无法感知。例如,当更传统的模型可能按照字面价值解释词语时,神经网络允许根据使用词语的更大上下文来辨别意图。
增强检索准确性:这些模型提高检索准确性,因为它不仅基于术语,还基于文档和查询的含义进行匹配。这对于有效管理复杂的用户意图和模糊查询是必需的。通过注意力机制和transformer架构等技术,神经网络可以更好地表示数据中的关系,从搜索查询中获得更相关的结果。
基于神经网络的模型在各个领域都有广泛的应用:
搜索引擎:它们通过在上下文中理解用户查询来提高搜索结果的相关性。
推荐系统:这些模型通过根据学习到的用户偏好和行为提供个性化推荐来增强用户体验。
对话式AI:在聊天机器人和虚拟助手中,它们通过准确解释用户意图并适当响应来促进更自然的交互。
集成技术的力量
什么是集成技术?
在集成技术中,结合多个模型以实现比任何单一模型更优越的性能。其逻辑是不同的算法可能捕获数据相关性的不同方面,从而提高准确性和鲁棒性。因此使用"集成"一词,意思是"一起"。
不同的集成方法
Bagging(Bootstrap Aggregating):在训练数据的不同子集上训练多个模型。每个模型独立进行预测,最终输出通过平均或投票决定。
Boosting:Boosting按顺序训练模型,其中每个新模型都专注于纠正其前任的错误。Boosting可以显著提高准确性,但可能增加过拟合风险。
Stacking:在stacking中,多个模型被训练来进行预测,元模型从它们的输出中学习以做出最终预测。
Blending:与stacking类似,但通常使用保留集而不是交叉验证
检索系统中的集成技术
倒数排名融合(RRF)
信息检索中最有效的集成技术之一是倒数排名融合(RRF)。RRF基于倒数排名聚合多个检索系统的文档排名。研究表明,RRF持续优于单个系统和其他融合方法。要了解更多,可以查看之前详细讨论这一点的文章。
混合检索方法
混合检索方法结合了生成和基于检索的策略。例如,一个集成系统可能检索许多候选响应,然后基于这些候选生成新的响应,提高相关性和信息量。
多策略检索
系统可以同时使用各种检索策略。例如,将基于关键词的搜索与语义搜索技术结合起来可以产生更全面的结果,涵盖用户查询的不同方面。
实现集成技术
结合检索模型
将多个检索算法集成到单个系统中时,可以考虑多种策略:
分数融合:使用线性组合或加权平均等方法组合各种模型的分数,使整体性能得到增强。
排名融合:基于不同系统的位置合并排名列表,允许更细致的结果。
动态重新排序:在初始检索之后,可以使用考虑所有单个模型输出的元模型对结果进行重新排序。
联邦搜索系统
在联邦搜索环境中,查询同时发送到多个资源。使用机器学习方法估算不同来源之间的可比较分数,将结果合并成单个列表。
对话代理
在对话式AI系统中,结合多个指标来评估响应已被证明是有效的。将预训练的上下文嵌入与传统指标结合使用,能够更好地评估响应的相关性。
结合多个模型的优势
提高准确性
通过集成技术利用多个算法,系统可以在信息检索任务中实现更高的精确率和召回率。
抗错误能力
集成方法通过提供多种数据解释视角来增强对错误的鲁棒性。如果一个模型失败或产生不准确的结果,其他模型可以弥补这个缺点。
更大的灵活性
集成技术允许在处理各种类型的查询和数据格式时具有更大的灵活性。
结合多个模型的问题
集成技术提供了许多优势,但也有很多问题:
计算复杂性:结合多个模型可能导致计算需求增加。
模型多样性:确保组合模型之间的多样性非常重要;否则,集成可能不会提供比单个模型显著的改进。
超参数调优:性能通常取决于跨所有包含模型的超参数的仔细调优。
检索系统的集成技术
检索系统中集成技术的未来是什么样的?
深度学习集成:对深度学习技术的更多探索可能产生更复杂的检索模型,能够理解复杂的查询。
实时适应:开发基于用户反馈动态适应的系统可以随时间增强相关性。
跨领域应用:研究组合检索模型在不同领域的表现可能揭示关于其有效性的新见解。
RRF与其他集成方法的主要区别
排名机制
RRF:
使用倒数排名,这意味着它更显著地强调在多个系统中一致排名较高的文档。这允许RRF优先考虑在多个系统中排名都较高的文档。
其他方法:
分数融合:通常对分数进行平均或使用加权和,而不一定考虑文档的排名顺序。
排名融合(一般):可能涉及更复杂的算法,这些算法不关注倒数排名,而是关注位置合并。
处理冗余性
RRF:
通过关注倒数排名,RRF通过给予在多个系统中排名较低的文档较少的权重来减少冗余。
其他方法:
许多基于分数的融合技术可能无意中通过平等对待所有分数来放大冗余,可能导致结果较少的多样性。
对排名变异性的敏感度
RRF:
设计用于对不同系统的排名变化敏感。其评分机制的倒数特性有助于捕获不同算法对文档排名的细微差别。
其他方法:
像boosting这样的技术可能主要关注纠正错误,而不充分处理来自不同模型的排名变异性。
计算效率
RRF:
与更复杂的集成方法(如stacking或boosting)相比,通常需要较少的计算开销,这些方法涉及训练多个模型或元模型。
其他方法:
像stacking这样的技术需要额外的训练阶段,在结合许多模型时可能计算密集。
灵活性和适应性
RRF:
可以轻松集成来自任何数量检索系统的结果,而无需对其框架进行重大调整。
其他方法:
一些集成技术在整合新模型或更改现有模型时可能需要特定的配置或调整。
为什么倒数排名融合比其他集成方法更简单?
直接的评分机制
RRF使用一个简单的数学公式,基于文档在各种检索系统中的排名来计算每个文档的综合分数。公式如下:
其中:
d 是文档,
N 是检索系统的数量,
ri(d) 是文档d在第i个系统中的排名,
k 是一个常数,用于帮助控制排名较低文档的影响。
这种直接的方法避免了与其他方法使用的更复杂评分系统相关的复杂性,如加权平均或复杂算法。
无需大量调优
与其他严重依赖大量参数调优才能正确使用的集成方法不同,RRF只需很少且几乎最小的配置就能工作得很好。它通常更容易实现和部署在各种应用中,而不需要某种特殊知识或大量实验就能找到令人满意的结果。
关注排名之间的共识
然而,RRF不一定需要不同检索系统的相关性指标能够直接比较。因此,可以在一个框架内灵活地集成多样化的算法,如基于关键词、基于向量和概率模型。其他方法可能需要对齐的评分系统或特殊配置才能最优地组合运行。
减少计算开销
RRF的简单性也意味着比更复杂的集成技术(如stacking或boosting)需要更少的计算要求,这些技术涉及多个模型或元模型。因此,RRF可以在实时系统中应用,而不会影响性能。
易于集成
RRF可以轻松集成到现有的检索框架中,而无需进行实质性修改或添加额外组件。这种集成的便利性使其成为希望增强其信息检索能力而不需要彻底改造整个系统架构的组织的一个吸引人的选择。
对过拟合的鲁棒性
由于其简单性和依赖排名共识而不是复杂的模型交互,RRF较少出现过拟合特定场景或数据集的问题。这个特性符合奥卡姆剃刀原则,当两种方法产生相似结果时,倾向于选择更简单的解决方案。
RAPTOR:用于树形组织检索的递归抽象处理
RAPTOR是一个新的框架,旨在提高检索增强语言模型的能力。它在信息检索和摘要中使用递归方法。这样就可以克服典型检索系统的缺陷,因为大多数系统只关注小的、连续的文本块,从而忽略了文档在更大范围内的内容。
RAPTOR的关键特性
层级结构
RAPTOR构建一个树状结构,在多个抽象层次上组织信息。这个树是通过文本块的递归嵌入、聚类和摘要自下而上构建的。
增强检索
在推理阶段,RAPTOR从这个层级树中检索信息,允许跨大型文档进行整合。这种能力对于需要多步推理的复杂问答任务特别有益。
性能改进
对照实验表明,RAPTOR显著优于传统检索方法。例如,当与GPT-4等模型结合时,在Quality问答任务基准测试中实现了20%的准确率提升。
它是如何工作的?
分块策略
RAPTOR首先将长文档分割成更小的、可管理的块,通常每块约100个标记。这个过程是为了通过确保不会在句子中间切断任何块来维持语义连贯性。
如果一个句子超过100个标记的限制,整个句子会被移到下一个块,而不是被分割。这样可以在每个块内保持文本的上下文完整性,从而更连贯地理解内容。
嵌入技术
一旦创建了文本块,RAPTOR使用高级嵌入技术,特别是Sentence-BERT(SBERT),将这些块转换为数值向量。
这种转换捕获语义关系和上下文含义,使模型能够理解不同块在更广泛文本中的关系。这些嵌入成为进一步处理的基础,确保保持上下文细微差别。
聚类相似块
嵌入之后,RAPTOR使用聚类算法基于语义内容对相似的文本块进行分组。这一步很关键,因为它允许RAPTOR识别和保持相关块之间的主题联系,从而增强整个文档的上下文连贯性。
通过聚类而不是孤立处理每个块,RAPTOR可以捕获可能被忽视的相互依赖关系。
递归摘要
RAPTOR方法论的核心在于其递归摘要过程。聚类之后,使用语言模型对每组相关块进行摘要。这些摘要然后被重新嵌入,嵌入、聚类和摘要的过程递归继续,直到进一步聚类变得不可行。
这种多层摘要创建了一个树状结构,其中每个节点代表不同层次的细节——从叶节点的细粒度摘要到更高层次的更广泛主题洞察。
层级树结构
产生的层级树结构允许RAPTOR在多个抽象层次上组织信息。这种组织有助于保持上下文,因为它使得从原始文本块和它们对应的摘要中进行检索成为可能。
在推理期间,RAPTOR可以导航这棵树来根据用户查询检索相关信息,确保响应同时受到具体细节和总体主题的影响。
动态上下文检索
RAPTOR的设计还促进了适应复杂查询的动态检索过程,这些查询需要多步推理。由于其层级结构,RAPTOR可以比通常依赖扁平检索结构的传统方法更有效地跨长文档整合信息。这种能力使其能够提供更准确和更具上下文相关性的答案。
树结构示例
结果的树结构包括:
叶节点:
这些包含单个块的详细摘要。
中间节点:
这些总结相关块的集群。
根节点:
这提供整个文档的总体摘要。
推理阶段
在推理过程中,RAPTOR基于用户查询从这个层级树结构中检索信息。这个检索过程允许模型在不同抽象层次上整合跨长文档的信息。例如:
需要具体细节的查询可能从叶节点检索数据。
需要主题洞察的更复杂查询可能从更高层节点获取信息。
性能评估
为了评估RAPTOR的有效性,使用QuALITY和QASPER等各种基准进行了对照实验。将性能与传统检索方法和其他最先进的模型进行了比较。
当与GPT-4配对时,RAPTOR达到了82.6%的准确率,显著超过了之前的最佳结果。
QASPER基准该模型创下了55.7%的F1分数新标准,展示了其在处理复杂问答任务方面的能力。
NarrativeQA数据集
RAPTOR在与GPT-3和GPT-4等模型配对时,实现了36.6%的METEOR分数。这表明了RAPTOR在理解复杂叙述和基于人工编写的问题和摘要生成连贯答案方面的有效性。
RAPTOR的优势
通过层级组织信息,RAPTOR与专注于孤立文本片段的传统方法相比,能够更全面地理解文档。
RAPTOR的框架使其能够快速适应知识和上下文的变化,使其适用于信息频繁更新或演变的应用。
递归摘要方法使RAPTOR能够有效管理各种类型的查询,无论它们需要详细的具体信息还是更广泛的主题洞察。
总结
本文深入探讨了现代信息检索领域的技术创新,重点介绍了RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)框架。RAPTOR通过结合多个检索模型,构建层次化的信息组织结构,并采用递归摘要等技术,显著提升了检索系统的性能和适应性。
通过融合多个模型、构建层次化的信息组织结构,并利用递归处理等技术,RAPTOR为提升检索系统的性能和适应性提供了一种全新的解决方案。这一研究不仅推动了信息检索领域的发展,也为其他复杂数据处理任务提供了宝贵的思路和启示。
编辑:于腾凯
校对:杨学俊
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU