RAG总结之知识检索与选择影响分析:兼看知识图谱关系建模技术总结

文摘   2024-10-27 12:20   北京  

今天是2024年10月27日,星期日,北京,天气晴。

本文主要讲了两个工作,一个是回顾下关于考虑关系信息的知识图谱表示进展综述,这个对于知识图谱表示的了解有一些帮助;

一个是不同知识检索与选择对RAG的影响分析,其结论认为,整体RAG性能取决于生成器模型。强生成器模型在全知识设置上的表现优于标准知识设置,弱生成器模型则需要知识选择器来过滤干扰知识,而生成性能随着知识精度和召回率的平滑变化,表明知识精度和召回率共同决定了生成性能。

多看,多思考,总会有更多收获,供大家一起参考并思考。

一、关于考虑关系信息的知识图谱表示进展综述

关于知识图谱进展,《Knowledge Graph Embeddings: A Comprehensive Survey on Capturing Relation Properties》,https://arxiv.org/pdf/2410.14733,探讨了知识图谱嵌入(KGE)技术在处理复杂关系映射、多样化关系模式和实体间的隐含层次关系方面的最新进展,对于关系建模这块的归纳还是不错的。

这两个本身是如何表示知识的问题。

知识图谱通过有向图结构建立实体间的多种关系,使机器能够理解和应用常识或领域特定知识。知识图谱嵌入(KGE)模型旨在将符号化的实体和关系嵌入到数值表示空间中,以便于通过数值计算进行知识检索和推理。

一般而言,KGE模型的基本工作原理为,KGE模型通过学习实体和关系在数值空间中的嵌入,并使用评分函数评估三元组(实体-关系-实体)的合理性。而模型训练阶段的目标是为实体和关系建立数值表示空间,并设计评分函数来训练三元组样本。

这一类问题的研究难点包括:关系的复杂映射特性(如一对一、一对多、多对一、多对多)、对称、反对称、逆和组合关系模式的捕捉,以及实体之间隐含的层次关系

其中:

对于复杂关系映射,通过引入关系依赖的投影机制和动态投影矩阵,模型能够更好地捕捉1-N、N-1和N-N关系的复杂映射特性。例如,TransD模型通过自适应稀疏投影矩阵减少了参数数量,提高了模型的泛化能力。

先看一组问答:

一些模型的示意:

对于多种关系模式,通过使用复数空间、四元数和双四元数空间,模型能够同时捕捉对称、反对称、逆和组合关系模式。例如,ComplEx模型通过复数共轭来同时建模对称和反对称关系;RotatE模型则通过旋转操作来建模多种关系模式。

先看一组问答:

一些模型的示意:

对于层次关系模式,通过引入辅助信息、双曲空间和极坐标系统,模型能够有效地建模实体之间的层次关系。例如,Poincare模型通过将KG嵌入到双曲球面空间中,使得高层次实体更接近球心,低层次实体更远;HAKE模型则通过极坐标系统中的幅度和相位角来分别建模不同层次和同一层次的实体。

先看一组问答:

一些模型的示意:

可看看其相关的工作,TransE模型是最基础的KGE模型,通过平移操作来表示关系;后续的TransH、TransR、STransE、TransD等模型通过引入关系依赖的投影机制来改进TransE;KG2E、ManifoldE、TorusE等模型则将KG嵌入到特定的几何空间中;RESCAL、DistMult、TuckER等模型利用张量分解技术;SME、NTN、ConvE、ConvKB、CapsE、InteractE等模型则基于神经网络来捕捉实体和关系之间的复杂交互。

1、关系感知映射模型

这些模型在TransE的基础上进行改进,通过引入关系依赖的投影机制来实现复杂的关系映射。

例如,TransH模型通过将实体投影到关系特定的超平面上,使得不同关系下的实体具有不同的表示;TransR模型则通过定义每个关系的投影矩阵来实现更灵活的关系表示;STransE模型为每个关系学习两个独立的投影矩阵;TransD模型通过动态投影矩阵来减少参数数量;TransF模型通过放松优化目标来实现多尾实体的独立表示;TransA模型使用加权马氏距离来衡量三元组的合理性;TransM模型则为不同关系分配不同的评分权重。

2、特定表示空间模型

这些模型将KG嵌入到高维空间中,如高斯分布、流形空间和李群环面。

例如,KG2E模型将实体和关系嵌入到高维高斯空间中,通过计算实体对差异与关系的相似度来评估三元组的合理性;ManifoldE模型将实体和关系嵌入到高维球面空间中,要求头实体和关系是球面的中心,尾实体在球面内;TorusE模型将KG嵌入到紧致的李群环面空间中,通过保持不同尾实体在环面上的差异一致来实现1-N关系的建模。

3、张量分解模型

这些模型通过张量分解技术将KG表示为大规模的三阶张量,并通过矩阵乘法来计算三元组的评分。

例如,RESCAL模型通过矩阵乘法计算每个三元组的评分;DistMult模型通过使用对角矩阵来简化参数数量;TuckER模型则通过Tucker分解将三阶张量分解为核心张量和三个因子矩阵,并通过张量乘法计算三元组的评分。

4、神经网络模型

这些模型利用非线性操作和网络架构来捕捉实体和关系之间的复杂交互。

例如,SME模型通过全连接神经网络结合头实体、关系和尾实体的向量嵌入来评分三元组;NTN模型通过关系特定的神经网络输入头实体和尾实体的向量嵌入,并通过张量乘法和激活函数来评分三元组;ConvE和ConvKB模型则通过卷积神经网络提取实体和关系的特征映射;CapsE模型在卷积后使用胶囊网络捕捉特征向量的维度信息;InteractE模型则通过直接堆叠、行循环卷积和元素级交互来增强特征交互。

最后说下未来发展的一些方向:

首先,稀疏和动态知识图谱,当前的研究主要集中在静态知识图谱上,对于稀疏和动态知识图谱中关系特征的建模仍存在挑战;

其次,规则增强的关系模式建模,尽管现有的KGE模型能够自动学习隐含的关系模式,但在稀疏知识图谱中,确保关系嵌入满足每种关系模式的约束仍然困难。未来的研究可以探索自动挖掘表达更广泛关系模式的规则,并利用这些规则来增强实体和关系嵌入;

最后,多模态信息的整合,虽然已有研究开始整合文本描述和视觉特征等多模态信息,但论这些策略对关系特征建模的影响仍需进一步探讨。

二、知识检索与选择对RAG的影响分析

关于RAG的一些实验性分析进展,可以看看《A Systematic Investigation of Knowledge Retrieval and Selection for Retrieval Augmented Generation》,https://arxiv.org/pdf/2410.13258,其通过模拟不同的检索和选择条件,评估知识检索和选择对下游生成性能的影响。

来看看其中的几个点:

1、RAG框架试验设置

一个标准的RAG系统包括三个步骤:(1)知识检索,检索模块根据查询检索出一组候选知识;(2)知识选择,选择模块去除与生成目标不相关的知识;(3)生成步骤,生成器利用查询和选定的知识生成输出文本。

为了系统地分析知识检索和选择的效果,文章通过混合标准知识和干扰知识来模拟不同的检索和选择条件。具体来说,对于每个查询,文章在给定的知识池中以不同的比例采样金标准知识和干扰知识,以模拟检索和选择知识的质量分布。

数据集方面,使用了WoW和HotpotQA两个数据集。WoW数据集用于对话生成任务,HotpotQA数据集用于问答任务。

生成器方面,采用了三种LLMs作为生成器模型:GPT-4o-mini、LLaMA 3.1 8B和Mistral 7B-Instruct。

知识采样方面,知识精度和召回率是常用的知识检索和选择性能指标,通过线性搜索和平面搜索的方式,确保覆盖知识精度和召回率空间中的大部分网格点。

2、试验结论

首先,知识精度和召回率方面,生成性能随着知识精度和召回率的平滑变化,表明知识精度和召回率共同决定了生成性能。

其次知识召回率方面,对于强生成器模型,知识召回率是评估生成性能的最佳单一知识指标。提高知识召回率显著提升了答案F1分数。

然后,生成器能力方面,整体RAG性能取决于生成器模型。强生成器模型在全知识设置上的表现优于标准知识设置,弱生成器模型则需要知识选择器来过滤干扰知识。

最后,任务和数据集方面,相同生成器在不同任务和数据集上的表现差异显著。HotpotQA的干扰知识对性能有显著负面影响,而WoW的干扰知识可能只是相对不相关。

总结

本文主要讲了两个工作,一个是回顾下关于考虑关系信息的知识图谱表示进展综述,一个是不同知识检索与选择对RAG的影响分析,其结论认为,整体RAG性能取决于生成器模型。强生成器模型在全知识设置上的表现优于标准知识设置,弱生成器模型则需要知识选择器来过滤干扰知识,而生成性能随着知识精度和召回率的平滑变化,表明知识精度和召回率共同决定了生成性能。因此,RAG是需要做双头优化,才能有更多的收益。

参考文献

1、https://arxiv.org/pdf/2410.14733

2、https://arxiv.org/pdf/2410.13258

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章