Incorporating Test-Time Optimization into Training with Dual Networks for Human Mesh Recovery
作者及对应单位:聂勇伟(华南理工大学),范铭贤(华南理工大学),徐雪妙(华南理工大学),张青(中山大学),朱鉴(广东工业大学),龙成江(Meta)
论文简介:提出了一种基于优化的从单幅图像中重建人体网格的新方法。(1)将测试时优化纳入训练阶段。在训练过程中,该方法首先执行测试时优化,随后进行训练时优化。(2)设计了一种双网络架构, 该架构由损失项一致的主回归网络和辅助网络组成,增强了测试时优化与训练优化之间的兼容性。实验表明,经过这种新颖训练方案后的优化方法在性能上优于现有方法。
Paper链接:
https://github.com/fmx789/Meta-HMR/blob/main/paper.pdf
Code链接:
https://github.com/fmx789/Meta-HMR
TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control
作者及对应单位:曾维超(中国科学院信息工程研究所), 舒言(中国科学院信息工程研究所),李祯航(中国科学院信息工程研究所),杨东宝(中国科学院信息工程研究所),周宇(南开大学计算机学院)
论文简介:场景文字编辑任务聚焦于文字修改和风格保留,TextCtrl基于扩散模型,引入显式构建的字符结构和文字风格先验信息并改进采样过程,以实现高质量的文字编辑。此外,文章构建了一个真实场景数据集ScenePair以提供兼顾风格和字形的全面评测。
Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification (Spotlight)
作者及对应单位:Zhaorui Tan(西交利物浦大学、利物浦大学),Xi Yang(西交利物浦大学),Qiufeng Wang(西交利物浦大学),Anh Nguyen(利物浦大学),Kaizhu Huang(昆山杜克大学)
论文简介:视觉模型在图像分类方面表现出色,但在处理未见数据时常常面临泛化困难,例如在未见领域进行图像分类或发现新类别。本文探讨了logical reasoning与深度学习在视觉分类中的泛化关系,提出了一种名为 L-Reg 的逻辑正则化方法,旨在将logical analysis framework与图像分类相结合。研究表明,L-Reg 能有效降低模型复杂性,并增强其可解释性,使模型能够提取关键特征,如将面部识别为特定个体进行分类。通过理论分析和实验验证,我们发现 L-Reg 在多种场景下提升了泛化能力,包括多领域泛化和类别发现。在复杂的现实场景中,例如图像同时涉及未知类别和未见领域时,L-Reg 始终能够有效提高泛化性能,彰显其实际应用价值。 Paper链接:
https://arxiv.org/abs/2410.04492
Code链接:
https://github.com/zhaorui-tan/L-Reg_NeurIPS24
Visual Prompt Tuning in Null Space for Continual Learning
作者及对应单位:路悦(西北工业大学),张世周(西北工业大学),程德(西安电子科技大学),邢颖慧(西北工业大学),王楠楠(西安电子科技大学),王鹏(西北工业大学),张艳宁(西北工业大学)
论文简介:本文研究基于视觉提示微调的持续学习问题,针对基于注意力的Transformer模型,通过分析使旧任务特征不随新任务中提示参数更新发生变化的目标方程,推导出提示参数分布变化约束下的两个参数更新正交条件,并通过零空间投影实现,有效减轻了灾难性遗忘。
Paper链接:
https://arxiv.org/abs/2406.05658
Code链接:
https://github.com/zugexiaodui/VPTinNSforCL
Target-Guided Adversarial Point Cloud Transformer Towards Recognition Against Real-world Corruptions
作者及对应单位:王杰(北京理工大学),许廷发(北京理工大学),丁立鹤(香港中文大学),李佳男(北京理工大学)
论文简介:鲁棒的点云目标识别是三维视觉中的核心任务。现有识别模型往往依赖于点云目标中的部分局部特征进行分类,导致其鲁棒性和泛化能力受限。本文提出了一种对抗性训练策略,结合注意力机制,识别并屏蔽模型已学习到的局部特征,促使模型从目标的其他区域挖掘新的判别特征。该策略有效引导模型捕捉更加多样化的特征,进而提升整体识别性能,增强鲁棒性与泛化能力。
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)