AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

文摘 2024-08-21 17:50 英国

作者单位：浙江大学、网易

论文链接：

https://arxiv.org/pdf/2305.06152

代码链接:

https://github.com/zjukg/Structure-CLIP

简介

大规模视觉语言预训练在多模态理解和生成任务中取得了显着的性能。然而，现有的方法通常在需要结构化表示（即对象、属性和关系的表示）的图像文本匹配任务上表现不佳。如图1（a）所示，模型无法区分“宇航员骑着马”和“马骑着宇航员”。这是因为他们在学习多模态场景中的表示时未能充分利用结构化知识。本文论。首先，使用场景图来指导语义负例的构建，重视学习结构化表示。此外，还提出了知识增强编码器（KEE），利用 SGK 作为输入来进一步增强结构化表示。实验结果表明，Structure-CLIP 在 VG-Attribution 和 VG-Relation 数据集上实现了最先进的 (SOTA) 性能，分别领先多模态 SOTA 模型 12.5% 和 4.1%。同时，MSCOCO 上的结果表明 Structure-CLIP 在保持通用表示能力的同时显着增强了结构化表示。

图 1：图像和对齐/未对齐标题之间的 CLIP 分数（在两个结果之间标准化后）。结果表明，CLIP模型不具备区分具有结构化语义差异的句子的能力。

动机与贡献

尽管多模态模型在各种任务中表现出色，但这些模型是否能够有效捕获结构化知识（即理解对象属性和对象之间关系的能力）的问题仍未解决。例如，如图 1（a）所示，图像和正确匹配的标题（“宇航员正在骑马”）之间的 CLIP 分数（即语义相似性）与图像和不匹配的标题之间的分数相比，表现出较低的值（“一匹马正在骑着宇航员”）。图 1 (b) 说明了两个对象之间交换属性也会给模型准确区分其语义带来挑战。这些发现表明，CLIP 模型产生的通用表示无法区分包含相同单词但在结构化知识方面存在差异的文本片段。换句话说，CLIP模型表现出类似于词袋方法的趋势，它不理解句子中的细粒度语义。

文中提出了 Structure-CLIP，一种利用场景图知识（SGK）来增强多模态结构化表示的新颖方法。首先，与 NegCLIP 中的随机交换方法相比，作者利用 SGK 来构造更符合潜在意图的单词交换。其次，提出一种知识增强编码器（KEE），利用 SGK 提取必要的结构信息。通过在输入级别合并结构化知识，所提出的 KEE 可以进一步增强结构化表示的能力。

论文贡献如下：

（1） Structure-CLIP 是第一种通过构建语义负样本来增强详细结构化表示的方法。

（2）Structure-CLIP 中引入了知识增强编码器，以利用结构化知识作为输入来增强结构化表示。

（3）实验证明 Structure-CLIP 能够在结构化表示下游任务上实现 SOTA 性能，并在结构化表示方面产生显着改进。

Structure-CLIP

Structure-CLIP 的概述如图 2 所示。首先，利用场景图生成具有相同单词组成但详细语义不同的语义负样本来增强细粒度的结构化表示（图 2 的左侧部分）。其次，提出了一种知识增强编码器，利用场景图作为输入，将结构化知识集成到结构化表示中（图 2 的右侧部分）。

图 2：Structure-CLIP 概述。（a）通过场景图进行语义负采样：从标题中提取场景图以帮助构建高质量的负样本（左部分）。(b)知识增强编码器：知识嵌入模块和多个 Transformers 层用于对输入级别的结构化知识进行建模（右部分）。

通过场景图进行语义负采样

构建具有相似的一般表示但不同的详细语义的负样本，通过将负样本与正样本进行比较来增强表示，从而鼓励模型专注于学习结构化表示。

（1）场景图生成 详细的语义，包括对象、对象的属性以及对象之间的关系，对于理解视觉场景和跨模式学习至关重要。跨模式学习旨在增强视觉和语言的联合表征。采用场景图解析器将文本解析为场景图。

（2）语义负样本的选择 对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示。本文目标是构建具有相似组成但详细语义不同的语义负样本。因此，负样本的质量在结构化表示学习中起着至关重要的作用。文中利用场景图指导来构建高质量的语义负样本，而不是随机交换单词位置。

(3)对比学习目标 将原始小批量图像文本对比学习损失和提出的损失结合起来进行联合训练。因此，最终损失为hinger损失和 InfoNCE 损失的结合。

知识增强编码器

知识增强编码器利用场景图作为文本输入来增强结构化表示。首先从所有输入三元组中提取足够的结构化知识，这些知识可以用作有效的结构化知识来提高结构化表示的性能。因此，知识增强编码器可用于获取文本知识嵌入。然而，仅仅依赖结构化知识可能会导致失去表示一般语义的能力。因此，文中整合了文本嵌入和结构化知识嵌入，这样文本表示既包含整个句子携带的单词信息，也包含句子中详细语义组成的结构化知识。

实验结果

Table2：对 VG-Relation 和 VG-Attribution 数据集进行消融研究以分析不同组成部分的结果 (%)。结果表明，每个组件都极大地提高了结构化表示的能力。

图 3：不同方法的预测。红色和蓝色的单词是两个交换的单词。我们将结构CLIP 与 CLIP 进行比较，以计算图像和标题之间的 CLIP 分数（即语义相似度）。

http://mp.weixin.qq.com/s?__biz=MzkxNzY2NDA1OQ==&mid=2247485320&idx=1&sn=a2157696931391e9c5c7d6bfea0e64bb

多模态机器学习与大模型

多模态机器学习与大模型致力于推荐、分享、解读多模态机器学习相关的前沿论文成果，讨论大语言模型先进技术，助力AI研究者进步。合作交流请+V：Multimodal2024，谢谢❤️

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉