论文针对当前视频文本跨模态检索中弱相关数据被忽略,导致不同模态间隐藏的细节信息交互不充分的问题,提出一种外部知识辅助及跨模态信息融合的视频文本检索模型。文中提出了构建单模态外部知识检索模块方法,挖掘视频和文本中的潜在语义信息,设计了自适应交叉注意力的跨模态信息融合模块,去除视频和文本中的冗余信息。同时,利用不同模态间的互补信息进行特征融合,引入模态间和模态内相似性损失函数,以确保数据在融合特征空间、视频特征空间和文本特征空间下信息表征的完整性,实现跨模态数据间的精准检索。
点击即可跳转原文
中国密码学会2024年密码测评学术会议在银川成功举办
《中共中央关于进一步全面深化改革、推进中国式现代化的决定》一图读懂
中国共产党第二十届中央委员会第三次全体会议公报
宁夏大学信息工程学院
文字、图片 | 习怡萌
排版 | 张羽
责任编辑 | 孙莉
~传递信工资讯 | 服务学院师生~
点个“赞”,再点个“在看”,“信”心满满