智慧起航,共创未来
基于场景图知识的文本到图像行人重识别
王晋溪1, 鲁鸣鸣1
1.中南大学 计算机学院 长沙 410083
摘要: 现有的大多数文本到图像的行人重识别方法对CLIP(Contrastive Language-Image Pretraining)等视觉语言模型进行微调以适应行人重识别任务,并获得预训练模型的强大视觉语言联合表征能力,然而,这些方法通常只考虑对下游重识别任务的任务适应,却忽视由于数据差异所需的数据域适应,难以有效捕获结构化知识(理解对象属性及对象间关系).针对这些问题,基于CLIP-ReID,文中提出基于场景图知识的文本到图像行人重识别方法,采用两阶段训练策略.在第一阶段,冻结CLIP的图像编码器和文本编码器,利用提示学习优化可学习提示词,实现下游数据域与CLIP原始训练数据域的适配,解决数据域适应的问题.在第二阶段,微调CLIP的同时引入语义负采样和场景图编码器模块,先通过场景图生成语义相近的难样本,并引入三元组损失作为额外优化目标,再引入场景图编码器,将场景图作为输入,增强CLIP在第二阶段对结构化知识的获取能力.在3个广泛使用的数据集上验证文中方法的有效性.
关键词:场景图, 提示学习, 文本到图像的行人重识别(T2IReID), CLIP
引用本文:
王晋溪, 鲁鸣鸣. 基于场景图知识的文本到图像行人重识别[J]. 模式识别与人工智能, 2024, 37(11): 947-959.
WANG Jinxi, LU Mingming. Scene Graph Knowledge Based Text-to-Image Person Re-identification. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 947-959.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/947
基于文本图像互学习的换衣行人重识别方法
葛斌1, 卢洋1, 夏晨星1, 官骏鸣2
1.安徽理工大学 计算机科学与工程学院 淮南 232001;
2.黄山学院 信息工程学院 黄山 245041
摘要: 针对行人重识别在换衣场景下的小数据集样本中识别精度较低的问题,结合大模型CLIP(Contrastive Language-Image Pre-training)生成伪文本的功能,提出基于文本图像互学习的换衣行人重识别方法.在训练第一阶段,设计伪文本生成器,交换同批次中的样本像素,生成多样性文本,增强文本差异性,并通过语义对齐损失约束文本特征的一致性.在第二阶段,设计局部全局融合网络,融合局部特征和全局特征,在第一阶段文本信息的指导下,增强视觉特征的判别性.在PRCC、Celeb-ReID、Celeb-Light、VC-Clothes数据集上的实验表明,文中方法可提升在小数据集样本中的性能.
关键词:换衣行人重识别, CLIP, 模态交互, 语义对齐, 提示工程
引用本文:
葛斌, 卢洋, 夏晨星, 官骏鸣. 基于文本图像互学习的换衣行人重识别方法[J]. 模式识别与人工智能, 2024, 37(11): 960-973.
GE Bin, LU Yang, XIA Chenxing, GUAN Junming. Clothes-Changing Person Re-identification Method Based on Text-Image Mutual Learning. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 960-973.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/960
无锚框关键点与注意力机制结合的自适应孪生网络目标追踪方法
袁帅1,2,3, 窦慧泽1, 耿金玉4, 栾方军1,2,3
1.沈阳建筑大学 计算机科学与工程学院 沈阳 110168;
2.沈阳建筑大学 辽宁省城市建设大数据管理与分析重点实验室 沈阳 110168;
3.沈阳建筑大学 国家特种计算机工程技术研究中心沈阳分中心 沈阳 110168;
4.沈阳建筑大学 电气与控制工程学院 沈阳 110168
摘要: 目前孪生网络目标追踪算法在目标候选框的生成阶段计算复杂度较高,导致算法存在实时性较差以及在复杂场景中目标追踪精准度较低等缺陷.针对这些问题,文中提出无锚框关键点与注意力机制结合的自适应孪生网络目标追踪方法.首先,在孪生子网络的主干网络中设计大核卷积注意力模块,提取目标全局特征, 提升方法的精准度和泛化能力.然后,设计无锚框多关键点模块,学习目标的多关键点,采用自适应学习权重系数模块,筛选准确的目标关键点,进一步提升方法的精准度和鲁棒性.最后,将关键点转换成预测框,无需生成预定义的目标候选框,可减少计算复杂度,提升目标追踪的实时性.在4个数据集上的实验表明,文中方法在精准度和成功率上都有所提升.
关键词:孪生网络, 无锚框关键点, 注意力机制, 全局特征, 权重系数
引用本文:
袁帅, 窦慧泽, 耿金玉, 栾方军. 无锚框关键点与注意力机制结合的自适应孪生网络目标追踪方法[J]. 模式识别与人工智能, 2024, 37(11): 974-985.
YUAN Shuai, DOU Huize, GENG Jinyu, LUAN Fangjun. Anchor-Free RepPoints and Attention Mechanism Based Adaptive Siamese Network for Object Tracking. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 974-985.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/974
面向皮肤镜图像识别的内卷胶囊网络
王凌翔1, 张莉1
1.苏州大学 计算机科学与技术学院 苏州 215008
摘要: 皮肤镜图像识别能区分皮肤病变,有助于皮肤癌的早期诊断.为了提高皮肤镜图像识别效率,文中提出面向皮肤镜图像识别的内卷胶囊网络(Involutional Capsule Network, InvCNet),融合内卷操作和全局注意力机制(Global Attention Mechanism, GAM),并去除重构部分.内卷操作融合特征图在通道上的信息,提供丰富的细节,增强皮肤镜图像特征.GAM减轻卷积和池化操作引起的空间信息损失,放大跨维度交互.在4个皮肤镜图像数据集上的实验表明,InvCNet大幅减少网络参数量,并在多数数据集上性能较优.
关键词:图像分类, 皮肤病变, 胶囊网络, 全局注意力机制
引用本文:
王凌翔, 张莉. 面向皮肤镜图像识别的内卷胶囊网络[J]. 模式识别与人工智能, 2024, 37(11): 986-998.
WANG Lingxiang, ZHANG Li. Involutional Capsule Network for Dermoscopy Image Recognition. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 986-998.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/986
动态融入k近邻知识的领域机器翻译方法
黄于欣1,2, 申涛1,2, 江姝婷1,2, 曾豪1,2, 赖华1,2
1.昆明理工大学 信息工程与自动化学院 昆明 650504;
2.昆明理工大学 云南省人工智能重点实验室 昆明 650504
摘要: 基于k近邻检索的领域机器翻译方法通过解码器预测分布与k近邻知识的融合提升翻译性能,但检索知识的不准确性可能会对模型预测产生干扰.为此,文中提出动态融入k近邻知识的领域机器翻译方法.首先,通过评估解码器输出分布的置信度,结合门控机制,动态判断是否融合k近邻结果,灵活调整k近邻知识的融合程度.然后,引入自适应k值模块,减少错误知识干扰.同时,设计分布引导损失,引导模型输出逐步逼近目标分布,提高翻译的准确性.最后,在四个德语-英语领域机器翻译数据集上的实验表明文中方法的性能具有一定提升.
关键词:领域翻译,
引用本文:
黄于欣, 申涛, 江姝婷, 曾豪, 赖华. 动态融入k近邻知识的领域机器翻译方法[J]. 模式识别与人工智能, 2024, 37(11): 999-1009.
HUANG Yuxin, SHEN Tao, JIANG Shuting, ZENG Hao, LAI Hua. Domain Machine Translation Method with Dynamic Incorporation of k-Nearest Neighbor Knowledge. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 999-1009.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/999
基于扩散模型的无条件反事实解释生成方法
仲智1, 王宇2, 祝子烨1, 李云1
1.南京邮电大学 计算机学院 南京 210023;
2.中国药科大学 理学院 南京 211198
摘要: 反事实解释通过对输入数据实施最小且具解释性的改动改变模型输出,揭示影响模型决策的关键因素.现有基于扩散模型的反事实解释方法依赖条件生成,需要额外获取与分类相关的语义信息,难以保证语义信息质量并增加计算成本.针对上述问题,文中基于生成扩散模型中的DDIMs(Denoising Diffusion Implicit Models),提出基于扩散模型的无条件反事实解释生成方法.首先,利用隐式去噪扩散模型在反向去噪过程中展现的一致性,将噪声图像视为隐变量以控制输出生成,从而使扩散模型适用于无条件的反事实解释生成流程.然后,充分利用隐式去噪扩散模型在过滤高频噪声和分布外扰动方面的优势,重塑无条件的反事实解释生成流程,生成具有解释性的语义改动.在不同数据集上的实验表明,文中方法的多项指标值较优.
关键词: 深度学习, 可解释性, 反事实解释, 扩散模型, 对抗攻击
引用本文:
仲智, 王宇, 祝子烨, 李云. 基于扩散模型的无条件反事实解释生成方法[J]. 模式识别与人工智能, 2024, 37(11): 1010-1021.
ZHONG Zhi, WANG Yu, ZHU Ziye, LI Yun. Diffusion Models Based Unconditional Counterfactual Explanations Generation. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 1010-1021.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/1010
基于优质样本筛选的离线强化学习算法
侯永宏1, 丁旺1, 任懿2, 董洪伟2, 杨松领1
1.天津大学 电气自动化与信息工程学院 天津 300072;
2.中国科学院软件研究所 空间综合信息系统国家重点实验室 北京 100190
摘要: 针对离线强化学习算法过度依赖数据集样本质量的问题,提出基于优质样本筛选的离线强化学习算法.首先,在策略评估阶段,赋予优势值的样本更高的更新权重,并添加策略熵项,快速识别高质量且在数据分布内概率较高的动作样本,从而筛选更有价值的动作样本.在策略优化阶段,最大化归一化优势函数的同时,保持对数据集上动作的策略约束,使算法在数据集样本质量较低时也可高效利用优质样本,提升策略的学习效率和性能.实验表明,文中算法在MuJoCo-Gym环境的D4RL离线数据集上表现出色,并且可成功筛选更有价值的样本,由此验证其有效性.
关键词:强化学习, 离线强化学习, 分布偏移, 策略约束, 值函数, 样本筛选
引用本文:
侯永宏, 丁旺, 任懿, 董洪伟, 杨松领. 基于优质样本筛选的离线强化学习算法[J]. 模式识别与人工智能, 2024, 37(11): 1022-1032.
HOU Yonghong, DING Wang, REN Yi, DONG Hongwei, YANG Songling. Offline Reinforcement Learning Algorithm Based on Selection of High-Quality Samples. Pattern Recognition and Artificial Intelligence, 2024, 37(11): 1022-1032.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I11/1022
END
往期文章
联系我们
地址:北京市海淀区中关村东路95号(学会秘书处)
北京市海淀区知春路甲63号(学会会员中心)
邮编:100190
电话:010-82544542(综合)
010-62522472(会员)
010-62522248(宣传出版及大赛 )
010-62624980(财务)
010-82544541(学术活动)
传真:010-62522248
邮箱:caa@ia.ac.cn
中国自动化学会新媒体矩阵
点
阅读原文了解更多
喜欢的话点击在看哟~