WWW 2023 | IMF: 用于链接预测的交互式多模式融合模型

文摘   科技   2023-04-18 09:30   中国香港  

记得给 “应用机器学习” 添加星标,收取最新干货


作者:清华大学,香港城市大学,南洋理工大学 李昕航

今天给大家分享一篇来自于清华大学,香港城市大学,南洋理工大学的知识图谱链接预测的论文。该文章针对多模态知识图谱链接预测问题中无法高效利用多模态信息的问题,提出了一种新颖的架构,通过多模态和决策,两阶段融合实现多模态信息之间的有效交互。知识图谱补全是知识工程领域的重要问题,对于许多利用知识图谱的下游任务有着重要的意义,而多模态知识图谱的特性在现有的研究中常常被轻视,作者希望通过本文给予相关领域的研究人员一个新颖的视角来提高多模态知识图谱链接预测的效果。

论文:https://arxiv.org/abs/2303.10816

本文聚焦于多模态知识图谱的链接预测任务,针对现有工作中对于多模态信息之间交互捕捉不足的缺陷,提出了新颖的链接预测模型IMF,包括多模态和决策两阶段融合,充分利用多模态信息之间的互补性。

整体而言,本文提出的IMF模型由多模态融合和决策融合两部分组成。其中多模态融合部分对来自不同的模态的编码器的实体表示进行双线性融合,同时引入对比学习,通过额外的损失函数控制不同的实体表示之间的区分度。决策融合部分综合考虑不同模态和多模态融合表示通过评分解码器得到的分数,加权平均得到最终预测结果。

在实验设计部分,本文在广泛使用的DB15K,FB15K,YAGO15K以及FB15K-237数据集上,与最先进的单模态与多模态链接预测模型进行了对比,实验结果显示本文提出的IMF模型可以在所有数据集上实现最优性能,充分验证了IMF模型对于捕捉多模态信息之间互补性的效果。

1 动机

知识图谱链接预测是进行知识图谱补全的方法,对于大量利用知识图谱的下游任务十分关键。在多模态知识图谱中,每个实体都有着多模态的信息表示,如图片,文本描述等。然而,现有的多模态知识图谱链接预测方法大多是知识图谱链接预测方法的简单扩展,没有考虑到多模态场景的复杂性与差异性,因而无法达到令人满意的效果。

如图所示,在预测篮球运动员LeBron James所属球队的样例中,单纯利用知识图谱的结构信息会由于与另一名篮球运动员Stephen Curry有着相同的出生地,被误导预测为Golden State Warriors,单纯利用文本描述信息,则会由于文本内容的杂糅难以捕捉精确的信息,无法准确判断隶属于Cleveland Cavaliers还是Los Angeles Lakers,图像信息则可以相对更精确地定位到正确的结果Los Angeles Lakers。因此,在多模态场景下,知识图谱链接预测模型需要有效地融合来自不同模态的信息来得到正确的结果。

2 整体架构

本文提出的IMF模型的整体架构如图所示,由多模态融合和决策融合两阶段融合组成。在多模态融合中,结构,视觉和文本信息通过各自特定的编码器得到隐式表示,通过双线性融合得到多模态融合表示。在决策融合中,结构,视觉,文本和多模态融合的表示通过各自特定的评分解码器得到各自的预测结果,通过加权平均得到最终预测结果。

3 多模态融合

在不同模态的编码器选择上,本文对结构信息使用图注意力网络GAT,对视觉信息使用卷积网络VGG16,对文本信息使用大规模语言模型BERT。

在多模态融合中,本文使用Tucker分解的双线性融合,显著降低双线性融合的计算复杂度。

同时,为了更好地融合多模态信息,维护多模态之间的共性,本文还设计了对比学习方案,利用损失函数控制同一实体不同模态表示之间的距离小于不同实体之间表示的距离。

4 决策融合

在评分解码器的设计上,本文采用了上下文感知的关系模型,即以关系类型为上下文环境,计算此环境下实体之间的相似度。

在具体实现上,上下文感知的实体表示通过对原始实体表示和关系表示进行双线性运算得到,预测结果为上下文感知的实体表示与原始实体表示之间的余弦相似度。

在得到不同模态与多模态融合表示的预测结果后,通过对预测结果进行加权平均,得到最终的预测结果。

5 实验设计

本文选择了常用的DB15K,FB15K,YAGO15K和FB15K-237数据集进行实验。

通过与最先进的单模态和多模态链接预测模型进行对比,在所有数据集上都实现了最优性能,充分验证了提出的IMF模型的有效性。

本文设计的消融实验,通过去除多模态融合,决策融合以及对比学习后的模型预测结果,验证了提出的各个模块的有效性。

6 实验分析

为了探索各个模态对于模型最终预测结果的影响,本文设计了模态上的消融实验,实验结果表明,各个模态的信息都对于模型性能有着积极的影响,其中结构信息最为重要,其次是文本信息,最后是视觉信息。

本文针对前面的样例,对各个模态的预测结果进行可视化分析,结果表明对各个模态的预测结果加权平均后的结果最为均衡,表明了决策融合的有效性。

本文设计了可扩展性实验,通过替换评分编码器验证提出的IMF模型的可扩展性,实验结果表明,在任何一种现有的链接预测模型上应用IMF的两阶段融合架构,都可以实现显著的性能提升。

本文对来自5支不同篮球球队的数十名篮球运动员的各个模态的表示应用t-SNE算法降维可视化,其中多模态表示的各个球队之间区分度最高,说明了多模态融合的有效性。

7 总结

本文提出了一种新颖的交互式融合的多模态知识图谱链接预测模型IMF,在多个数据集上的实验充分证明了IMF模型优异的性能。然而,IMF依然存在着许多缺陷与不足,如对于模态完整性的需求以及双线性融合的高计算复杂度。

点击左下角 “阅读原文”, 获取原始论文。

应用机器学习
介绍机器学习最近技术进展和资讯
 最新文章