智慧起航,共创未来
基于目标域增强表示的医学图像无监督跨域分割方法
刘凯1, 卢汝诺1, 郑潇柔1, 董守斌1
1.华南理工大学 计算机科学与工程学院 广东省多模态大数据智能分析重点实验室 广州 510641
摘要: 不同成像模式设备采集的医学图像存在不同程度的分布差异,无监督域自适应方法为了将源域训练的模型泛化到无标注的目标域,通常是将差异分布最小化,使用源域和目标域的共有特征进行结果预测,但会忽略目标域的私有特征.为了解决该问题,文中提出基于目标域增强表示的医学图像无监督跨域分割方法(Enhanced Target Domain Representation Based Unsupervised Cross-Domain Medical Image Segmentation, TreUCMIS).首先,通过共有特征学习获取源域和目标域的共有特征,通过图像重构训练目标域特征编码器,提取目标域完整特征.然后,通过目标域的无监督自学习方式,加强深层特征和浅层特征的共有性.最后,对齐使用共有特征和完整特征得到的预测结果,利用目标域的完整特征分割目标,提高模型在目标域的泛化性.在两个具有CT和MRI双向域自适应任务的医学图像分割数据集(腹部、心脏)上的实验表明TreUCMIS的有效性与优越性.
关键词:无监督域自适应(UDA), 医学图像, 语义分割, 对抗学习, 一致性正则化
引用本文:
刘凯, 卢汝诺, 郑潇柔, 董守斌. 基于目标域增强表示的医学图像无监督跨域分割方法[J]. 模式识别与人工智能, 2024, 37(9): 755-769.
LIU Kai, LU Runuo, ZHENG Xiaorou, DONG Shoubin. Enhanced Target Domain Representation BasedUnsupervised Cross-Domain Medical Image Segmentation. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 755-769.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/755
边界感知引导多层级特征的知识蒸馏交通场景语义分割算法
谢新林1,2, 段泽云1,2, 罗臣彦1,2, 谢刚1,2
1.太原科技大学 电子信息工程学院 太原 030024;
2.太原科技大学 先进控制与装备智能化山西省重点实验室 太原 030024
摘要: 针对交通场景目标细节信息丢失与模型参数量过大等问题,提出边界感知引导多层级特征的知识蒸馏交通场景语义分割算法,以较少的参数量平滑目标分割边界.首先,构建自适应融合多层级特征模块,融合深层语义信息和浅层空间信息的多层级特征,选择性地突出目标边界信息和目标主体信息.然后,提出交互注意力融合模块,建模空间维度和通道维度的长距离依赖关系,增强不同维度间的信息交互能力.最后,提出基于候选边界的边界损失函数,构建基于细节感知的边界知识蒸馏网络,迁移复杂教师网络中的边界信息.在交通场景数据集Cityscapes和CamVid上的实验表明,文中算法能在实现轻量化的同时保持良好的分割性能,并在处理小目标和细长条目标时具有一定优势.
关键词:语义分割, 深度学习, 知识蒸馏, 交通场景, 注意力机制
引用本文:
谢新林, 段泽云, 罗臣彦, 谢刚. 边界感知引导多层级特征的知识蒸馏交通场景语义分割算法[J]. 模式识别与人工智能, 2024, 37(9): 770-785.
XIE Xinlin, DUAN Zeyun, LUO Chenyan, XIE Gang. Traffic Scene Semantic Segmentation Algorithm with Knowledge Distillation of Multi-level Features Guided by Boundary Perception. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 770-785.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/770
结合深度伪造特征对比的人脸伪造检测
李兆威1, 高欣健1, 笪子凯1, 高隽1
1.合肥工业大学 计算机与信息学院 合肥 230009
摘要: 随着AIGC(Artificial Intelligence-Generated Content)技术的不断发展,其伪造技术的多样性对现有检测方法发起巨大的挑战.现有大部分的检测方法是基于各种先进的卷积神经网络提取的人脸伪造特征进行检测,泛化能力不足以解决未知方法伪造的图像鉴伪.因此文中提出结合深度伪造特征对比的人脸伪造检测方法,对未知的伪造技术具有较好的适应能力.方法分为两个阶段:一方面挖掘不同伪造手段的相似特征,提出基于元学习的相似特征融合网络,利用元学习的学习能力获取不同伪造手法之间的相似性特征;另一方面结合具体任务下的独特伪造特征,提出具体任务下的独特性微调方法,提高模型对未知伪造方法的适应能力.在跨伪造手法和跨库测试上实验表明文中方法性能有所提升,在面对未知手段攻击时具有较优的检测能力.
关键词:人脸伪造检测, 深度伪造, 元学习, 相似特征融合, 伪造特征挖掘
引用本文:
李兆威, 高欣健, 笪子凯, 高隽. 结合深度伪造特征对比的人脸伪造检测[J]. 模式识别与人工智能, 2024, 37(9): 786-797.
LI Zhaowei, GAO Xinjian, DA Zikai, GAO Jun. Face Forgery Detection Combined with Deep Forgery Features Comparison. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 786-797.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/786
董丙冰1,2, 吴信东1,2
1.合肥工业大学 大数据知识工程教育部重点实验室 合肥 230009;
2.合肥工业大学 计算机与信息学院 合肥 230601
摘要: 点击诱饵的主要目的是通过引导用户点击链接以增加页面浏览量和广告收入.点击诱饵的内容往往具有低质量、误导性或虚假性的特征,对用户产生潜在不利影响.现有的基于预训练语言模型的提示学习方法依赖外部开放知识库以检测点击诱饵,不仅性能受制于外部知识库的质量和可用性,而且不可避免地导致查询和响应的延迟.为此,文中提出基于内部知识扩展的软提示学习点击诱饵检测方法,从训练数据集本身提取扩展词,同时采用层次聚类和优化策略,在提示学习中对获得的扩展词进行微调,避免从外部知识库检索知识.此外,采用软提示学习可获得适合特定文本类型的最佳提示,避免手工模板带来的偏差.在少样本场景下,尽管文中方法只基于内部知识进行扩展,但在三个公开的点击诱饵数据集上可以以较少的时间取得较优的检测效果.
关键词:点击诱饵检测, 软提示, 内部知识扩展, 提示学习
引用本文:
董丙冰, 吴信东. 基于内部知识扩展的软提示学习点击诱饵检测方法[J]. 模式识别与人工智能, 2024, 37(9): 798-810.
DONG Bingbing, WU Xindong. Soft Prompt Learning with Internal Knowledge Expansion for Clickbait Detection. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 798-810.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/798
基于多类型语音信息分层融合的帕金森病检测模型
吴迪1, 季薇1, 郑慧芬2, 李云3
1.南京邮电大学 通信与信息工程学院 南京 210003;
2.南京医科大学附属老年医院 南京 210009;
3.南京邮电大学 计算机学院 南京 210023
摘要: 用于帕金森病检测的语音数据通常包括持续元音、重复音节及情景对话等类型.已有模型大多采用单一类型的语音数据作为输入,容易受到噪声干扰,鲁棒性无法保证.有效整合不同类型语音数据,提取至关重要的病理信息,是当前帕金森病检测任务面临的挑战之一.文中提出基于多类型信息分层融合的帕金森病检测模型,旨在提取全面的病理信息,实现较优的检测性能.首先,针对不同类型的帕金森病语音数据,分别进行多种声学特征的提取.然后,设计挖掘多类型声学特征深层信息的表示学习方案,提取调音和韵律信息,精准反映声学特征中潜在的病理信息.进而针对两类信息,设计解耦的表示学习空间,分别提取各自的私有特征,同时学习它们的共有表示.最后,设计跨类型的注意力分层融合模块,利用交叉注意力机制,以不同粒度交互的方式逐步融合共有表示和私有表示,提升帕金森病检测性能.在公开的意大利语帕金森病语音数据集和自采的汉语帕金森病语音数据集上的实验表明,文中方法性能提升明显.
关键词:帕金森病, 多类型语音, 对比学习, 分层融合
引用本文:
吴迪, 季薇, 郑慧芬, 李云. 基于多类型语音信息分层融合的帕金森病检测模型[J]. 模式识别与人工智能, 2024, 37(9): 811-823.
WU Di, JI Wei, ZHENG Huifen, LI Yun. Parkinson's Disease Detection Model Based on Hierarchical Fusion of Multi-type Speech Information. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 811-823.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/811
面向多域数据场景的安全高效联邦学习
金春花1, 李路路1, 王佳浩1, 季玲1, 刘欣颖1, 陈礼青1,2, 张浩1, 翁健3
1.淮阴工学院 计算机与软件工程学院 淮安 223003;
2.福建师范大学 福建省网络安全与密码技术重点实验室 福州 350007;
3.暨南大学 信息科学技术学院 广州 510632
摘要: 针对联邦学习在不同领域数据训练中面临的泛化能力差、灾难性遗忘和隐私攻击等挑战,文中提出面向多域数据场景的安全高效联邦学习方案.在本地训练阶段,结合知识蒸馏技术,防止模型在不同领域数据训练时发生灾难性遗忘,同时加速知识在各领域间的迁移,提高训练效率.在上传阶段,提出高斯差分隐私机制,分别对本地更新的梯度和各领域间的泛化差异添加高斯噪声,实现安全上传,增强训练过程的保密性.在聚合阶段,采用动态泛化权重聚合算法,减少各领域间的泛化差异,提升模型的泛化能力.理论分析证明该方案具有较强的鲁棒性.在PACS、Office-Home数据集上的实验表明此方案具有较高的准确度和较短的训练时间.
关键词: 联邦学习, 域泛化, 推理攻击, 知识蒸馏, 差分隐私
引用本文:
金春花, 李路路, 王佳浩, 季玲, 刘欣颖, 陈礼青, 张浩, 翁健. 面向多域数据场景的安全高效联邦学习[J]. 模式识别与人工智能, 2024, 37(9): 824-838.
JIN Chunhua, LI Lulu, WANG Jiahao, JI Ling, LIU Xinying, CHEN Liqing, ZHANG Hao, WENG Jian. Secure and Efficient Federated Learning for Multi-domain Data Scenarios. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 824-838.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/824
连续环境中基于语义拓扑图的视觉语言导航推理
谢子龙1, 许明1
1.辽宁工程技术大学 软件学院 葫芦岛 125105
摘要: 针对现有视觉语言导航方法在连续环境中推理能力不足的问题,提出基于语义拓扑图的视觉语言导航推理模型.首先,通过场景理解辅助任务识别导航环境中的区域和物体,构建空间邻近知识库.然后,智能体在导航过程中与环境实时交互,收集位置信息,编码视觉特征,并预测区域和物体的语义标签,逐步生成语义拓扑图.在此基础上,提出辅助推理定位策略,利用自注意力机制,从导航指令中提取物体信息和区域信息,并结合空间邻近知识库和语义拓扑图,对物体和区域进行推理定位,以辅助导航决策,确保智能体的导航轨迹与指令对齐.最后,在公开数据集R2R-CE和RxR-CE上的实验表明,文中模型的导航成功率较高.
关键词:视觉语言导航, 视觉推理, 多模态数据, 具身智能
引用本文:
谢子龙, 许明. 连续环境中基于语义拓扑图的视觉语言导航推理[J]. 模式识别与人工智能, 2024, 37(9): 839-849.
XIE Zilong, XU Ming. Semantic Topological Maps-Based Reasoning for Vision-and-Language Navigation in Continuous Environments. Pattern Recognition and Artificial Intelligence, 2024, 37(9): 839-849.
链接本文:
http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I9/839
END
往期文章
联系我们
地址:北京市海淀区中关村东路95号
邮编:100190
电话:010-82544542(综合)
010-62522472(会员)
010-62522248(宣传出版及大赛 )
010-62624980(财务)
010-82544541(学术活动)
传真:010-62522248
邮箱:caa@ia.ac.cn
中国自动化学会新媒体矩阵
点
阅读原文了解更多
喜欢的话点击在看哟~