【小样本学习+目标检测技术】,旨在利用有限的标注样本实现高效能的目标识别,以此应对数据不足的挑战。这种方法的重要性在于它能够减少人工智能学习系统与人类学习效率之间的差异,增强模型对新类别目标的适应性,进而推动智能检测系统在实际应用中的广泛采纳。通过这种方式,我们可以提高模型在面对新场景和新对象时的识别能力和泛化性,使人工智能技术更加贴近实际需求,增强其在多样化环境中的实用性和有效性。
为了帮助大家全面掌握【小样本学习+目标检测】的方法并寻找创新点,本文总结了最近两年【小样本学习+目标检测】相关的20篇顶会顶刊论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。
需要的同学扫码添加我
回复“小样本目标”即可全部领取
一、FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training
1.方法
这篇论文提出了一个名为FS-DETR(Few-Shot DEtection TRansformer)的模型,用于解决少样本对象检测(FSOD)问题。FS-DETR基于视觉提示的方法,不需要在测试时进行微调(fine-tuning)。具体方法包括:
1.1视觉模板作为视觉提示
在测试时,将新类别的视觉模板作为视觉提示输入模型,通过交叉注意力机制过滤图像特征,并在解码器中与伪类别嵌入结合,预测类别和边界框。
1.2伪类别嵌入
为每个视觉提示动态分配一个伪类别嵌入,这些嵌入在训练时学习,与实际类别信息无关,用于在解码器输出时预测伪类别和边界框。
1.3编码器-解码器架构
使用编码器处理目标图像和模板,通过自注意力和交叉注意力层提取全局上下文信息,解码器则处理对象查询和模板,进行伪类别预测和边界框回归。
2.创新点
2.1无需微调的少样本检测
FS-DETR是首个无需微调即可进行少样本检测的方法,提高了模型的灵活性和实用性。
2.2视觉提示和伪类别嵌入的结合
通过将视觉提示与伪类别嵌入相结合,FS-DETR能够在不需要额外训练的情况下,有效预测新类别的对象。
2.3处理多类别和变样本数量
FS-DETR能够同时处理多个新类别,支持每个类别的可变样本数量,提高了模型的适应性和灵活性。
2.4改进的编码器和解码器设计
通过引入多头部交叉注意力层和类型特定的多层感知机,FS-DETR在保持计算效率的同时,提高了检测性能。
2.5无监督预训练
FS-DETR利用无监督预训练增强模型的泛化能力,减少了对基础类别的过拟合,提高了模型的判别能力。
总的来说,FS-DETR通过其创新的视觉提示框架和无需微调的特性,在少样本对象检测领域实现了性能和灵活性的显著提升。
论文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Bulat_FS-DETR_Few-Shot_DEtection_TRansformer_with_Prompting_and_without_Re-Training_ICCV_2023_paper.pdf
二、DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot Object Detection
1.方法
这篇论文提出了一个名为DiGeo(Discriminative Geometry-aware Learning)的新训练框架,用于改善广义少样本对象检测(Generalized Few-Shot Object Detection, GFSOD)。DiGeo的目标是在保持对基础类别(有大量标注数据的类别)的精确检测的同时,提高对新类别(标注数据有限的类别)的检测泛化能力。具体方法包括:
1.1离散几何特征学习
通过学习类别中心之间的区分度和类别内部的紧凑度,DiGeo旨在实现类别间的分离和类别内的紧凑性。
1.2简单等角紧框架(Simplex Equiangular Tight Frame, ETF)
提出了一个离线ETF分类器,其权重作为类别中心,并且这些中心在特征空间中是最大且等距分布的。
1.3自适应类别特定边界
在分类损失中加入基于实例分布先验的类别特定边界,以推动特征向类别中心靠近。
1.4特征提取的上采样
考虑到基础类别和新类别之间的巨大不平衡,DiGeo通过上采样新类别的图像来促进特征提取。
2.创新点
2.1 ETF分类器的应用
DiGeo利用ETF分类器来引导特征分离,这是一种新颖的方法,用于在少样本对象检测中实现类别中心的等距分布。
2.2自适应边界调整
通过自适应调整类别边界,DiGeo能够更好地适应类别不平衡问题,提高了新类别的检测性能。
2.3无需微调的泛化能力
DiGeo能够在不牺牲基础类别检测精度的情况下,提高对新类别的检测泛化能力,这在以往的研究中是一个挑战。
2.4长尾对象检测的扩展性
DiGeo不仅适用于少样本对象检测,还可以扩展到长尾对象检测,显示了其方法的广泛适用性。
2.5单一模型的双重优化
DiGeo能够在单一模型中同时优化基础类别和新类别的检测性能,这在以往的研究中难以实现。
总的来说,DiGeo通过其独特的几何感知特征学习方法,在少样本对象检测领域提出了一种新的解决方案,有效地平衡了基础类别和新类别的检测性能。
论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Ma_DiGeo_Discriminative_Geometry-Aware_Learning_for_Generalized_Few-Shot_Object_Detection_CVPR_2023_paper.pdf
需要的同学扫码添加我
回复“小样本目标”即可全部领取
三、FEW-SHOT DETECTION OF MACHINE-GENERATED TEXT USING STYLE REPRESENTATIONS
1.方法
1.1风格表示(Style Representations)
该方法不依赖于在训练时使用的目标语言模型(LLM)的样本,而是利用从人类作者文本中估计的写作风格表示。这些表示能够捕捉作者写作的不变特征,从而帮助区分人类和机器作者。
1.2对比训练(Contrastive Training)
为了学习风格表示,论文采用了对比训练策略,通过将同一作者在不同时间点撰写的样本配对作为正样本,将不同作者的样本配对作为负样本,以此来训练模型区分风格特征。
1.3少量样本检测(Few-Shot Detection)
在少量样本设置中,假设对于每个目标LLM,研究者只有少量的样本。该方法通过计算这些样本的风格表示与新文档的风格表示之间的余弦相似度,来估计新文档是否由特定的LLM生成。
1.4多目标和跨域检测
论文还探讨了在有多个目标LLM和跨域情况下的检测性能,通过在不同数据集上训练和评估来测试模型的泛化能力。
2.创新点
2.1不依赖于目标LLM样本
与传统的监督学习方法不同,该方法在训练时不依赖于目标LLM的样本,这使得它能够适应新出现的LLM,而无需重新训练。
2.2利用人类写作风格特征
该方法通过利用人类写作的不变特征来区分人类和机器作者,这在面对越来越能够模仿人类写作的LLM时尤为重要。
2.3少量样本下的检测能力
该方法能够在只有少量样本的情况下有效地检测机器生成的文本,这对于实际应用中快速适应新LLM的能力至关重要。
2.4跨域和多目标检测
论文还探讨了模型在处理新话题、新领域和多个目标LLM时的鲁棒性,这是对现有检测方法的一个重要补充。
2.5公开代码和数据
作者承诺公开代码和数据,以便社区可以复现实验并进一步发展这一领域。
总的来说,这篇论文的主要贡献在于提出了一种新颖的方法来检测机器生成的文本,特别是在样本有限的情况下,以及在不同领域和多个目标LLM的环境下的泛化能力。
论文链接:https://arxiv.org/pdf/2401.06712
需要的同学扫码添加我
回复“小样本目标”即可全部领取