项目分享 | 计算机视觉顶级会议-CVPR 2024 中科院自动化研究所论文速览-自动驾驶/多模态/三维重建方向

文摘 2024-10-07 09:45 中国香港

[由于微信公众号调整了推送规则，对于不想错过每期内容的读者，可点击公众号右上角，将TechArt学究科研社“设为星标 ⭐”，可第一时间获取文章消息，感谢各位的关注~]

计算机视觉领域世界三大顶级会议之一的CVPR 2024已在美国西雅图举办。本期内容对中国科学院自动化研究所在该会议中所录用的17篇研究成果进行了简要的介绍（排名不分先后），涵盖自动驾驶、多模态、三维重建等多项技术。对项目内容感兴趣的读者，可以在文后扫取阅读码进行全文在线阅读/下载。

计算机视觉领域业界三大顶会：①CVPR-Computer Vision and Pattern Recognition Conference，②ICCV-International Conference on Computer Vision和③ECCV-European Conference on Computer Vision

关于“CVPR”会议

CVPR全称为IEEE国际计算机视觉与模式识别会议，The IEEE / CVF Computer Vision and Pattern Recognition Conference，是计算机视觉领域三大公认顶级会议之一（另外两大顶会为：ICCV和ECCV），并在学术界享有盛誉。在所有的主题，今年研究比重最大的几个主题分别为：①Image and video synthesis and generation-图像和视频合成与生成、②3D from multi-view and sensors-三维视觉、③Human: Face, body, pose, gesture, movement-人体相关，以及多模态学习、底层视觉、识别等，具体如下：

根据佐治亚理工学院(Georgia Tech)对 CVPR 2024 录用数据的统计分析，左侧栏为Paper Topics

关于“中国科学院自动化研究”

中国科学院自动化研究所以智能科学与技术为主要定位，是中国科学院率先布局成立的“人工智能创新研究院”的总体牵头单位，也是国内首个“人工智能学院”牵头承办单位。自动化所在复杂系统智能集成、模式识别、机器学习、计算机视觉、语音语言信息处理、类脑智能、智能机器人等领域形成了从原始创新、核心关键技术研发到技术转移转化的完整智能技术创新链。现有包括多模态人工智能系统实验室、复杂系统认知与决策重点实验室，数个北京市及中国科学院科研平台，并牵头建设了怀柔国家综合性科学中心的“脑认知功能图谱与类脑智能交叉研究平台”、中国科学院香港创新研究院人工智能与机器人创新中心。

驶向未来：面向自动驾驶的多视图预测与规划的世界模型

🔹论文标题：

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

🔹论文作者：

王宇琪，何嘉伟，范略，李鸿鑫，陈韫韬，张兆翔

🔹论文链接：

https://arxiv.org/abs/2311.17918

最近，世界模型的概念引发了广泛关注。我们首次提出了一种名为Drive-WM的全新多视图世界模型，旨在增强端到端自动驾驶规划的安全性。Drive-WM模型通过多视图世界模型，能够想象不同规划路线的未来情景，并根据视觉预测获取相应的奖惩反馈，从而优化当前的路线选择，为自动驾驶系统的安全提供了保障。Drive-WM是与现有端到端规划模型兼容的第一个驾驶世界模型。通过视图因子分解促进的联合时空建模，我们的模型在驾驶场景中生成了高保真度的多视角视频。在其强大的生成能力基础上，我们首次展示了将世界模型应用于安全驾驶规划的潜力。对真实世界驾驶数据集的评估验证了我们的方法可以生成高质量、一致性和可控性的多视角视频，为真实世界的模拟和安全规划开辟了新的可能性。

Figure1对应：基于多视图世界模型的预测和规划等（更多可下划）

PanoOcc：面向视觉三维全景分割任务的统一栅格占用表示

🔹论文标题：

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

🔹论文作者：

王宇琪，陈韫韬，廖星宇，范略，张兆翔

🔹论文链接：

https://arxiv.org/abs/2306.10013

全面的三维场景感知对于自动驾驶和机器人领域至关重要。基于相机的三维感知取得了迅速发展，但过去的任务如三维目标检测、地图语义分割等，各自关注场景表示的某一方面，且表示方式不统一。我们希望能够探索一种统一的场景表示，使其能统一表达这些任务，并将背景和前景物体统一建模。目前基于鸟瞰图特征的方法在三维目标检测上表现出色，但由于缺失了高度和形状信息，直接应用于三维场景感知任务时性能较差。这启示需要探索适合三维场景的特征表示，这也使得三维的栅格占用表示重新受到关注。然而，与二维空间相比，三维空间更加稀疏，直接将二维鸟瞰图特征扩展到三维体素表示将带来巨大的显存和计算开销。本研究提出PanoOcc模型，将检测和分割任务联合学习，统一了检测和分割任务的输出表示。为实现高效的特征学习，我们设计了从粗到细的解码层结构，并探索了稀疏表示的应用。本研究进行了大量消融研究以验证有效性和效率，在基于相机的机的三维语义分割、全景分割和密集占用栅格预测等任务中都取得了最先进性能。

Figure2对应：PanoOcc的整体模型设计（更多可下划）

基于偏振光融合优化的深度测量增强方法

🔹论文标题：

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

🔹论文作者：

池村敬，黄一鸣，菲利克斯·海德，张兆翔，陈启峰，雷晨阳

🔹论文链接：

https://arxiv.org/abs/2404.04318

本文提出了一个利用偏振成像改进各种深度传感器不准确深度测量的通用框架。现有的深度传感器在存在透明或反射物体的复杂场景中会提供不准确的深度值，而此前基于偏振的深度增强方法主要利用纯物理公式来处理单一传感器的数据。相比之下，本文所提出的方法采用深度学习，通过训练神经网络从偏振数据和来自不同传感器的传感器深度图来获得更稠密准确的深度图。本文提出了一种称为Polarization Prompt Fusion Tuning (PPFT)的策略，其利用在大规模RGB数据集上预训练的模型，在规模有限的偏振数据集上进行融合增强，从而有效地训练出更强大的深度增强模型。本文在一个公共数据集上进行了大量实验证明，与现有的深度增强基准方法相比，所提出的方法表现最佳。

Figure1对应：图中数据来自偏振相机以及d-ToF深度传感器，本方法在具有挑战性的深度增强问题上产生准确的结果，包括深度补全、透明表面的深度修复、形状校正等。如图所示，透明水瓶处的深度被有效修复。Figure3对应：本文所提出的偏振提示融合块（PPFB）将偏振光信息作为额外视觉提示输入，采用递进的方法依次融合到从预训练层提取的特征中（更多可下划）

MemoNav：基于类人工作记忆的视觉导航智能体

🔹论文标题：

MemoNav: Working Memory Model for Visual Navigation

🔹论文作者：

李鸿鑫，王泽禹，杨旭，杨雨然，梅树起，张兆翔

🔹论文链接：

https://arxiv.org/abs/2402.19161

人类导航至多目标时，会回忆起与目标相关的地点特征，忽视其他无关区域的记忆，并利用激活的这部分局部信息来快速规划路线，无需重复探索。MemoNav借鉴人类这种工作记忆机制，结合短期记忆和长期记忆一起提升导航决策性能（对应下图Figure2）。其引入了遗忘机制、长期记忆、和工作记忆三个协同组件：

选择性遗忘机制

由于并非所有地图结点都和导航目标有关，MemoNav提出利用目标注意力机制，计算地图结点和当前目标的注意力分数，然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点，被保留的则用于下游决策。

长期记忆

为了习得场景的全局表征，智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆，不断地通过图注意力机制聚合短期记忆特征。

工作记忆

利用一个图注意力机制编码保留的短期记忆和长期记忆，得到和当前导航任务最相关的工作记忆，输入给下游策略模块以得到最终导航行为。

在Gibson和Matterport3D场景中，该方法的多目标导航性能大幅超越SoTA模型。定性实验显示其可以规划更快捷的路径，且死锁概率更小（对应下图Figure5）。

Figure2对应：MemoNav借鉴人脑工作记忆的导航模型。MemoNav通过注意力机制选择与当前导航目标相关的短期记忆（即地图结点）和长期记忆（即全局结点）一起生成工作记忆，用于下游决策。Figure5对应：MemoNav和现有其它方法的定性对比（更多可下划）

HardMo：一个大规模难例动作捕捉数据集

🔹论文标题：

HardMo: A Large-Scale Hardcase Dataset for Motion Capture

🔹论文作者：

廖佳琪，罗传琛，杜伊诺，王玉玺，殷绪成，张曼，张兆翔，彭君然

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Liao_HardMo_A_Large-Scale_Hardcase_Dataset_for_Motion_Capture_CVPR_2024_paper.pdf

本文介绍了一个大规模的难例动作捕捉数据集——HardMo，旨在弥补现有人体mesh恢复方法（HMR）在处理舞蹈和武术等场景中不常见姿势的不足。由于这些领域的动作具有高速度和高张力特征，而现有数据集大多聚焦于日常动作，缺乏这类复杂动作的样本，导致模型难以有效处理舞蹈和武术场景。为此，我们提出了一套数据收集流程，包括自动爬取、精确标注和难例挖掘，基于此流程快速建立了包含700万张图片的大型数据集HardMo。这些图片覆盖了15类舞蹈和14类武术，每张图片都配有精确的标注。实验发现，舞蹈和武术中的预测失败主要表现在手腕和脚踝的不对齐上。此外针对这两个难点，我们利用提出的自动化流程筛选出相关数据，构建了名为HardMo-Hand和HardMo-Foot的子集。广泛的实验表明，我们的标注流程和数据驱动解决方案的有效性。特别是，经HardMo训练后的HMR方法甚至在我们的基准测试上超过了当前的最先进技术4DHumans。

Figure2对应：HardMo数据集概览，Figure3对应：自动化标注流程（更多可下划）

属性引导的行人检索：跨越行人重识别中的内在属性变化

🔹论文标题：

Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability

🔹论文作者：

黄延、张彰、吴强、钟怡、王亮

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Huang_Attribute-Guided_Pedestrian_Retrieval_Bridging_Person_Re-ID_with_Internal_Attribute_Variability_CVPR_2024_paper.pdf

在智能监控领域中，行人检索（重识别）技术，扮演着至关重要的角色。目前的Re-ID方法常常忽略对行人细微属性变化所导致的外观变化显式建模。针对这一问题，我们的研究提出了视觉属性引导的行人检索（AGPR）任务，旨在通过对特定人体属性查询条件与查询图像的整合来提高行人检索准确性。我们提出的基于ViT属性引导的行人检索（ATPR）框架通过对行人属性组间相关性和属性组内去相关性建立正则化项，有效地融合了全局行人ID识别与局部属性学习。我们基于RAP行人属性数据集构建了新的AGPR任务基准，并进行了广泛实验，结果验证了我们提出的ATPR方法在AGPR任务中的有效性。

Figure1对应：视觉属性引导的行人检索（AGPR）示意图（更多可下划）

多模态提示感知器：为多功能图像复原赋能自适应性、泛化性和保真度

🔹论文标题：

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration

🔹论文作者：

艾雨昂，黄怀波，周晓强，王杰翔，赫然

🔹论文链接：

https://arxiv.org/abs/2312.02918

本文介绍了一种名为MPerceiver的多模态提示学习方法，旨在解决多功能图像复原中面临的复杂真实场景退化问题。MPerceiver通过利用Stable Diffusion中的先验知识来增强自适应性、泛化性和保真度。具体来说，本文提出了一个双分支模块提供多模态提示：文本提示用于整体表征，而视觉提示用于多尺度细节表征。这两种提示通过CLIP图像编码器的退化预测动态调整，能够适应各种未知的退化情况。此外，MPerceiver采用了一个插件式细节精炼模块，通过编码器到解码器的信息跳连，改善了图像复原的保真度。MPerceiver在9个图像复原任务中进行了训练，并且在许多任务中甚至超越了最先进的特定任务方法。在多任务预训练之后，MPerceiver学习到了底层视觉的通用表征，展现了强大的Zero-Shot和Few-Shot能力。在16个复原任务上的实验证明了MPerceiver在自适应性、泛化性和保真度方面的优越性。

Figure3对应：MPerceiver双分支结构（更多可下划）

SfmCAD：基于“草图+特征”建模的无监督CAD重建

🔹论文标题：

SfmCAD:Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations

🔹论文作者：

李朴，郭建伟，李慧斌，Bedrich Benes，严冬明

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SfmCAD_Unsupervised_CAD_Reconstruction_by_Learning_Sketch-based_Feature_Modeling_Operations_CVPR_2024_paper.pdf

SfmCAD通过学习现代CAD工作流中基于草图的特征建模操作来重构三维形状。给定一个体素形式表示的三维形状，SfmCAD能够无监督地学习一种草图+路径参数化表示方法，包括形状部件的二维草图及其三维扫掠路径。SfmCAD利用二维草图来表达局部几何细节，并通过三维路径捕捉整体结构，实现了形状细节与结构之间的解耦。这种转化为参数化形式的方法不仅增强了模型的可解释性，还提高了输出结果的可编辑性，使用户能够方便地编辑形状的几何和结构特征。我们通过将SfmCAD应用于各种不同类型的对象，如CAD部件、ShapeNet形状和树干结构，展示了我们方法的有效性。

Figure1对应“草图+特征”CAD重建结果示意图（更多可下划）

SVDTree：基于语义体素扩散模型的单张图像树木三维重建

🔹论文标题：

SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction

🔹论文作者：

李源、刘志浩、Bedrich Benes、张晓鹏、郭建伟

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Li_SVDTree_Semantic_Voxel_Diffusion_for_Single_Image_Tree_Reconstruction_CVPR_2024_paper.pdf

高效地表示和重建树木的三维几何仍然是计算机视觉和图形领域中的一个极具挑战性的问题。本研究提出了一种新颖的方法，用于从单个视角的照片生成逼真的树木三维模型。本研究将三维信息推理问题转化为语义体素扩散过程，该过程将树木的输入图像转换为三维空间中的新颖语义体素结构（SVS）。SVS编码了几何外观和语义结构信息（例如树干、树枝和树叶），从而保留了复杂的树木内部特征。针对SVS，本研究提出了一种新的混合树木建模方法，SVDTree，包括面向结构的树干重建和基于自组织的树冠重建两部分。本研究使用合成和真实树木的图像对SVDTree进行了算法验证和对比，结果表明，本研究方法能够更好地保留树木细节，并实现了更为逼真和准确的重建结果。

Figure1对应：SVDTree用于单张图像树木三维重建。给定一张带掩码的图像，SVDTree使用扩散模型自动推断出树木的语义体素结构，并通过一个混合几何重建算法，生成具有高视觉保真度的三维树木模型（更多可下划）

如何让交互编码器成为高效图文检索的良师？

🔹论文标题：

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

🔹论文作者：

陈禹昕、马宗扬、张子琦、祁仲昂、原春锋、李兵、蒲俊福、单瀛、齐晓娟、胡卫明

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_How_to_Make_Cross_Encoder_a_Good_Teacher_for_Efficient_CVPR_2024_paper.pdf

针对双流预训练结构简单，难以建模丰富图文关联知识的问题，本文提出了一种基于对比式局部排序蒸馏的图像文本预训练方法。预训练蒸馏方法通常使用具有高匹配精度的单流模型作为教师模型，在预训练的过程中指导计算高效的双流模型对丰富图文知识的学习。现有方法通常采用基于相似度分布蒸馏的方式，然而由于单流模型与双流模型之间的相似度分布差异极大，这种方法难以有效实现知识传递。本文采用了一种排序蒸馏的方法，将单流模型对于不同图像文本对的相似度排序作为知识监督，要求双流模型对这些图文对的相似度排序与单流模型保持一致。同时，本文通过分析及实验发现，只有难负样本对之间的相对顺序包含有效的知识，并且蒸馏损失需要与图文对比学习损失保持协调以免产生干扰。因此，本文专注于蒸馏难负样本之间的相对顺序，忽略简单负样本的排序，并通过对比学习的方式实现知识蒸馏目标，实现了知识的有效传递。实验结果表明，本文方法在两个公开图像文本检索数据集MSCOCO和Flickr30K，以及图像文本匹配数据集CrissCrossed Captions数据集上有效提高了双流模型的图文检索和匹配精度，超越了同期的蒸馏方法。

Figure1对应:（a）双流编码器与交互编码器的相似度分数分布。（b）不同蒸馏方法的蒸馏目标及学生模型输出结果。对于局部排序蒸馏，简单样本之间的相对顺序被忽略。Figure2对应：对比式局部排序蒸馏方法示意图。左侧展示了整体训练流程。右侧展示了图文对齐和对比式局部排序蒸馏的详细计算流程。

用于 3D 半监督物体检测的非对称网络

🔹论文标题：

A-Teacher: Asymmetric Network for 3D Semi-Supervised Object Detection

🔹论文作者：

王汉石、张志鹏、胡卫明、高晋

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_A-Teacher_Asymmetric_Network_for_3D_Semi-Supervised_Object_Detection_CVPR_2024_paper.pdf

本文提出了首个基于LiDAR的3D对象检测的在线非对称半监督框架，即A-Teacher。本文的动机来源于观察到现有的对称教师-学生方法虽简单，但由于要求模型结构和输入数据格式相同，限制了教师与学生之间的知识传递效率。与之相反，复杂的离线非对称方法能生成更精确的伪标签，但共同优化教师和学生模型却具有挑战。因此，我们提出了一种不同的方法，可以利用离线教师的能力同时保留共同更新整个框架的优势，并设计了基于注意力机制的Refine模型，高效处理复杂情况。在Waymo数据集上的实验结果显示，我们的方法在减少训练资源的同时，性能超过了之前的最佳方法。

人脸分割几何信息指导下的三维人脸重建

🔹论文标题：

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation

🔹论文作者：

王子都、朱翔昱、张田硕、王柏钦、雷震

🔹论文链接：

https://arxiv.org/abs/2312.00311

本文面向单目三维人脸重建任务,实现了对人脸极端表情的精确三维重建。我们利用二维人脸分割的几何信息来引导人脸重建，设计了一个强大的几何约束函数。该约束函数首先将人脸部件的分割信息转化为点集，把三维部件形状的拟合问题转化为点集分布的匹配问题。该函数使用一组已知点作为锚点，分别计算锚点与预测点集以及目标点集之间的各种统计距离，并通过减少这些距离的差异来确保预测点集和目标点集具有相同的几何覆盖区域。大量的定量和定性实验证明了我们方法的有效性，它可以非常准确地捕捉不对称和奇怪的面部表情。此外，我们还合成了一个包含皱眉、歪嘴、闭眼等极端表情的人脸数据集，以促进相关研究。

Figure3对应：方法的主要流程图。Figure7对应：与其他SOTA方法进行定性比较（更多可下划）

基于免类别提示学习的域泛化人脸活体检测

🔹论文标题：

CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing

🔹论文作者：

刘阿建、薛帅、甘剑文、万军、梁延研、邓健康、Sergio Escalera、雷震

🔹论文链接：

https://arxiv.org/abs/2403.14333

在基于领域泛化（DG）的面部反欺诈（FAS）领域中，传统方法常依赖于领域标签来对齐不变的特征空间，或是从整体样本中分离出可泛化的特征，这两种方式都可能导致语义特征结构的扭曲，从而限制了模型的泛化能力。本工作针对现有基于域泛化的人脸防伪模型存在的泛化性能不足问题，设计了一种新型的免类别提示学习（CFPL）方法。该方法不直接操作视觉特征，而是利用大规模视觉语言模型（如CLIP）和文本特征，动态调整分类器的权重，以探索可泛化的视觉特征。CFPL通过两个轻量级变换器内容Q-Former（CQF）和风格Q-Former（SQF），利用一组可学习的查询向量，分别根据内容和风格特征学习不同的语义提示。通过引入提示文本匹配（PTM）监督和多样化风格提示（DSP）技术，进一步提升了模型的泛化能力。学到的文本特征通过设计的提示调制（PM）机制来调节视觉特征，以实现泛化。最终在多个数据集上达到了优于现有先进算法的性能。

Figure2对应：基于免类别提示学习的域泛化人脸活体检测框架

基于密度引导和双空间困难采样的3D半监督语义分割

🔹论文标题：

Density-guided Semi-supervised 3D Semantic Segmentation with Dual-space Hardness Sampling

🔹论文作者：

李嘉楠，董秋雷

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Density-Guided_Semi-Supervised_3D_Semantic_Segmentation_with_Dual-Space_Hardness_Sampling_CVPR_2024_paper.pdf

现有的3D半监督语义分割通常使用点对点的对比学习，但这种技术容易受到外点影响，为解决该问题，我们提出了DDSemi。其中，DDSemi使用密度引导的点对锚的对比学习。考虑到聚类中心通常位于密度较大的区域，我们使用特征存储体中密度较大的特征来为每个类别估计一个锚向量。为了从无标签数据中挖掘出有效信息，我们使用不同的数据增强技术处理不同分支中的无标签点云，并分别计算分支内的点对锚对比损失和分支间的点对锚对比损失。除此之外，为了给位于密度较低区域的点更多的关注，我们提出了双空间困难采样技术，该技术能够基于每个点在几何空间和特征空间中的密度为其赋予不同的损失权重。在室内和室外的公开数据集中的分割结果表明DDSemi的性能超过了现有的3D半监督语义分割方法。

Figure2对应：DDSemi的结构图（更多可下划）

CrossMAE: 基于MAE的跨模态区域感知视听预训练模型

🔹论文标题：

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

🔹论文作者：

郭雨欣、孙思洋、马帅磊、郑可成、包笑一、马时杰、邹伟、郑赟

🔹论文链接：

https://openaccess.thecvf.com/content/CVPR2024/papers/Guo_CrossMAE_Cross-Modality_Masked_Autoencoders_for_Region-Aware_Audio-Visual_Pre-Training_CVPR_2024_paper.pdf

模态对齐的表征是视听学习中不可或缺的部分，然而现有视听预训练方法仅关注了全局特征以及分类或检索任务，忽略了细粒度特征的交互和对齐，导致下游密集预测任务出现次优性能。针对上述问题，我们研究了可局部区域感知的视听预训练，提出具有出色的跨模态交互和局部区域对齐能力的通用视听预训练模型：CrossMAE。具体来说，我们提出了像素级和特征级两个难度递进的MAE子任务。以视觉模态为例（反之亦然），首先，被随机掩码的视觉模态在听觉模态的attentive tokens的指导下重建图像像素,从而有效关注细粒度特征并促进区域感知能力；进一步地，视觉模态在可学习learnable queries的指导下重建听觉模态的完整特征，从而有效加强模态间交互。实验表明，CrossMAE能够在分类，检索，定位，分割，事件定位等多个任务上均取得SOTA性能，证明了所提出预训练模型的有效性。同时，我们探究了模态交互及局部区域对齐对于单模态和跨模态表征能力的提升，并深入分析了所提出的attentive tokens和learnable queries具体的作用机理，证明了本模型的有效性。

Figure2对应：CrossMAE框架图。下图：定性分析图（更多可下划）

SC-Tune：解锁视觉语言模型的自洽指代理解能力

🔹论文标题：

SC-Tune:Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

🔹论文作者：

岳同天、程杰、郭龙腾、戴星原、赵子嘉、何兴建、熊刚、吕宜生、刘静

🔹论文链接：

https://arxiv.org/pdf/2403.13263

当前大型视觉语言模型的研究日益聚焦于超越通用图像理解，朝向更细致的、目标级别的指代性理解。在本文中，我们提出并深入探讨了大型视觉语言模型的自恰性。这反映在模型具备既能为特定目标生成准确详细的描述，又能利用这些描述准确地重新定位原始目标的“闭环”式能力。该能力在很大程度上反映了模型细粒度视觉-语言理解的精确性和可靠性。然而先期实验表明，现有模型的自恰性水平未能达到预期，极大限制了它们的实际应用性和潜力。为了解决这一差距，我们引入了一种新颖的微调范式SC-Tune。它实现了模型描述-定位能力的循环式互促学习。这一范式不仅数据高效，而且在多个模型上展现了广泛的泛化能力。实验表明，SC-Tune显著提升了基线模型在一系列目标级视觉-语言基准测试中的性能，并在图像级视觉-语言基准测试中同样具备性能改善。

Figure3对应：SC-Tune训练框架（更多可下划）

联合目标及其部件的精细粒度指代分割

🔹论文标题：

Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation

🔹论文作者：

王文轩、岳同天、张毅思、郭龙腾、何兴建、王鑫龙、刘静

🔹论文链接：

https://arxiv.org/abs/2312.08007

指代分割任务（RES）旨在分割与描述性自然语言表达相匹配的前景实体掩膜。以往的数据集和经典的指代分割方法严重依赖于一个假设，即一条文本表达必须指向对象级目标。在本文中，我们进一步深入探索更细粒度的部件级指代分割任务。为了推动对象级指代分割任务朝着更细粒度的视觉语言理解发展，我们提出了一个全新的多粒度指代分割（MRES）任务，并通过手工注释的方式构建了一个名为RefCOCOm的评估基准。通过使用我们搭建的模型辅助的自动数据生成引擎，我们构建了迄今为止最大的视觉定位数据集，即MRES-32M，它包含提供的100万图像上的超过3220万个高质量视觉掩膜和相应的文本描述。此外，我们设计了一个简单而强大的基线模型UniRES，用以完成统一的对象级和部件级视觉定位任务。在我们的RefCOCOm上针对MRES任务的广泛实验以及三个经典RES任务的数据集（即RefCOCO、RefCOCO+和RefCOCOg）上的实验，证明了我们的方法相较于以往最先进方法的优越性。

Figure1对应：经典的指代分割任务（RES）仅支持表示单一目标对象的自然语言表达，例如(a)。与经典RES相比，我们提出的联合目标及其部件的多粒度指代分割任务（MRES）支持表示目标对象的特定部分级区域的自然语言表达，例如，我们新构建的RefCOCOm基准测试集中的部分级自然语言表达（b）到（e）。Figure3对应：构建MRES-32M视觉定位数据集的数据收集引擎示意图（更多可下划）

本期感谢中国科学院自动化研究所提供的干货内容

推文修改来源：CVPR 2024 | 自动化所新作速览（一）、CVPR 2024 | 自动化所新作速览（二）

基于人工智能战略，中科院自动化所确立“自主进化智能”为核心发展目标，主攻“类脑智能与机器人系统”“多模态认知智能系统”“博弈决策智能系统”三大方向。 “中国科学院自动化研究所”作为自动化所官方微信公众号，会定期发布研究所重大事项、最新科研进展、专家观点以及人员招聘、开放课题申请等信息。

金属质感分割线

博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验
TechArt Research学究科研社，专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授，研发前沿教学模式及课题内容，竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。

TechArt将继续分享前沿学术知识与优质科研资源，为热爱学术的小伙伴们提供满满福利！

更多资讯/项目/服务详情

可长按二维码添加学究科研社的学术顾问进行微信预约

http://mp.weixin.qq.com/s?__biz=MzIxMjMzMTI2MQ==&mid=2247497517&idx=1&sn=896fa568ca3abc05aa8747524b89e76a

TechArt学究科研社

TechArt专注于建筑|城市|交互|艺术|人文|工程|计算机|机器人等跨学科的学术交流合作。我们不断聚集海内外知名学府的博士、教授及工业界专家等，研发创新的教学内容，为学员们提供硕士留学、博士申请、科研产出、工业实践等多方面的咨询服务。