点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息
题目:Integrating Neural-Symbolic Reasoning With Variational Causal Inference Network for Explanatory Visual Question Answering
将神经符号推理与变分因果推理网络相结合,实现解释性视觉问答
作者:Dizhan Xue; Shengsheng Qian; Changsheng Xu
论文创新点
1 神经符号推理与变分因果推断的整合:文章提出了一种名为程序引导的变分因果推断网络(Pro-VCIN)的方法,该方法整合了神经符号推理的过程可解释性和解释性视觉问答(EVQA)的结果可解释性。这种方法通过将推理过程转换为符号框架,并利用变分因果推断来构建预测答案和解释之间的因果关系,提高了模型的可解释性和可信度。 2 多模态程序Transformer的设计:为了将程序转换为相应的解释,文章设计了一种多模态程序Transformer。这个模型能够编码程序模块的执行特征,并解码为多模态解释,包括灵活地生成视觉和文本标记,从而提高了解释的质量和可解释性。 3 变分因果推断的提出:为了增强预测答案和解释之间的一致性,文章提出了一种新颖的变分因果推断方法,用于在推理过程中建立从解释到答案的因果关系。这种方法通过将目标结构因果模型(SCM)转换为深度变分推断框架,增强了模型的鲁棒性和有效性。 4 全面性能的提升:通过在EVQA基准数据集上的广泛实验,文章证明了Pro-VCIN在回答准确率、解释质量和答案-解释一致性方面均优于现有的最先进方法。这表明了所提出方法在提高推理结果的质量和一致性方面的显著性能提升。
摘要
关键字
解释性视觉问答 神经符号推理 因果推断 变分推断 可解释人工智能 视觉与语言
I. 引言
我们提出了一种程序引导的变分因果推断网络(Pro-VCIN),通过设计多模态程序Transformer和通过深度变分推断构建目标SCM,以提高解释性视觉问答(EVQA)的推理结果的可解释性、质量和可信度。 我们设计了一种多模态程序Transformer,将程序和相关视觉特征转换为推理过程的连贯合理解释。所提出的模型由视觉程序编码器组成,用于编码程序模块,以及多模态解释解码器,用于解码多模态解释,它可以灵活地在解释中生成视觉和文本标记。 我们提出了一种新的变分因果推断,以在推理过程中建立从解释到答案的因果关系,显著提高推断结果的答案和解释之间的一致性。特别是,我们将目标SCM转换为深度变分推断,以增强鲁棒性和有效性。 在EVQA基准数据集上进行的广泛实验表明,所提出的方法在推理结果的质量和一致性方面显著优于最新模型。
3 问题定义
4 方法论
4.1 EVQA的因果视角
4.2 变分因果推断
4.3 多模态内容编码器
4.3.1 视觉编码器
4.3.2 视觉程序编码器
4.4 多模态解释解码器
4.5 多模态解释编码器
4.6 答案分类器
4.7 优化
5 实验
5.1 数据集
5.2 基线方法和评估指标
5.3 实施细节
5.4 结果和讨论
5.5 消融研究
VCIN-ANS去除了变分因果推断损失。 VCIN-EXP去除了解释生成损失。 VCIN-E2A去除了从解释到答案的因果关联,并采用答案预测。 VCIN-RBF实现了图4(c)中的联合模型,去除了鲁棒解释特征。
5.6 解释生成中的关键属性
5.7 因果效应分析
5.7.1 解释特征对答案的因果效应
5.7.2 解释特征对答案的因果效应
5.7.3 解释特征对答案的自然直接效应
5.8 神经符号推理分析
5.8.1 视觉程序编码器的可解释性
5.8.2 多模态解释解码器的可解释性
5.9 定性研究
5.10 超参数分析
6 讨论与未来工作
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编