VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

文摘 2024-07-03 23:36 湖北

VLRLab团队在2024年的计算机视觉国际顶会ECCV中斩获佳绩，与百度、Adobe、微软亚洲研究院、字节跳动、阿里巴巴达摩院等机构合作，共有七篇论文成功入选ECCV，展示了在3D目标检测、文字分割、多模态分割、目标识别与解析，以及视频到4D生成等方面的前沿研究。以下将对这七篇论文进行简要介绍，展示其研究的核心思想和主要贡献。

OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection

ECCV2024

准确的深度信息对于提升多视图3D目标检测的性能至关重要。尽管现有的一些方法用点云深度监督取得了成功，但它们忽略了两个重要现象：1）从点云获得的深度GT通常分布在物体表面，从而缺乏3D物体中心的深度，2）对于远距离物体，对整个物体进行细粒度的深度估计更具挑战性。在本文中，我们提出了一种新的多视图3D目标检测器OPEN，其主要思想是以像素级深度图为先验，通过由GT包围盒投影得到的3D物体中心点做额外的物体深度预测监督。然后，我们利用所提出的Object-wise PE将物体深度信息进行编码，从而生成 3D 物体感知特征以供最终检测。大量实验验证了我们提出的方法的有效性。此外，OPEN 在 nuScenes 测试基准上实现了最佳的性能。

作者：Jinghua Hou，Tong Wang，Xiaoqing Ye，Zhe Liu，Shi Gong，Xiao Tan，Errui Ding，Jingdong Wang，Xiang Bai

单位：华中科技大学，百度

SEED: A Simple and Effective 3D DETR

in Point Clouds

ECCV2024

DETR凭借其优雅的框架逐渐在2D目标检测中占据主导地位。然而，基于DETR的3D点云检测器仍然难以达到令人满意的性能。我们认为主要挑战有两个方面：1）由于点云的高度稀疏性和分布不均匀的特性，如何获得合适的Query具有挑战性；2）如何通过利用点云丰富的几何结构实现有效的Query交互尚未被充分探索。为此，我们提出了一种简单有效的3D DETR方法（SEED）用于从点云中检测3D目标，该方法主要有双重查询选择（DQS）模块和可变形网格注意力（DGA）模块。大量消融实验证明了所提出的方法的有效性。此外， SEED 在 Waymo 和 nuScenes 数据集上都实现了最先进的检测性能，说明了我们提出的方法的优越性。

作者：Zhe Liu，Jinghua Hou，Xiaoqing Ye，Tong Wang，Jingdong Wang，Xiang Bai

单位：华中科技大学，百度

Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression

ECCV2024

将基于环视图输入的3D目标检测器部署到自动驾驶等实时要求较高的任务时，推理速度慢是最关键的问题之一。尽管已有许多基于sparse query的方法被提出来提高 3D 检测器的效率，但它们忽略了对backbone部分的优化，仅能得到次优的效率，这一问题在使用Vision Transformer (ViT) 时尤为严重。为了解决这个问题，我们从令牌压缩的角度探索提高环视图时序3D检测效率的方案，并提出了一种简单而有效的方法，称为 TokenCompression3D (ToC3D)。ToC3D首先利用历史object query作为高质量的前景先验，对其中的 3D 运动信息进行建模，并通过注意力机制将其与图像token进行交互，有效地确定图像token的信息密度大小并分割出前景；然后通过所提出的动态路由设计，将更多计算资源倾向给重要的前景token，减小信息损失，从而实现更高效的环视图 3D 检测器。nuScenes 数据集上的大量结果表明，我们的方法几乎可以保持 SOTA 的性能，同时推理加速高达 30%，并且在扩大 ViT 参数量和输入分辨率后，结论依然成立。

作者：Dingyuan Zhang, Dingkang Liang, Zichang Tan , Xiaoqing Ye, Cheng Zhang , Jingdong Wang , Xiang Bai

单位：华中科技大学，百度

WAS: Dataset and Methods for Artistic Text Segmentation

ECCV2024

准确的文字分割结果对于文字相关的图像生成式任务（如文字图像生成、文本编辑、文本擦除和文字风格迁移）至关重要。近年来，一些场景文本分割方法在分割常规文本方面取得了显著进展。然而，这些方法在包含艺术文字的场景中表现较差。因此，本文着眼于更具挑战性的艺术文字分割任务，并构建了一个真实的艺术文字分割数据集。该任务的主要挑战为艺术文字的局部笔画形状多变且复杂，以及全局拓扑结构的复杂性。作者提出了一种具有逐层动量查询的解码器，以防止模型忽略特殊形状的笔画区域；还设计了一个骨架辅助头，以引导模型关注全局结构。此外，还提出了一种基于大型多模态模型和扩散模型的训练数据合成策略。实验结果表明，所提出的方法和合成数据集可以显著提升艺术文字分割的性能，并在其他公共数据集上取得了最先进的结果。

作者：Xudong Xie, Yuzhe Li, Yang Liu, Zhifei Zhang, Zhaowen Wang, Wei Xiong, Xiang Bai

单位：华中科技大学，Adobe

PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects

ECCV2024

PartGLEE是一个多层级的感知基础模型，旨在增强模型对图像中的物体及其对应的各个部分的识别与定位能力。该模型通过一个创新的Q-Former结构有效地构建并组织起物体与其组成部分之间的层级关系。PartGLEE不仅在部分层级的感知任务上表现卓越，同时也在传统物体层级的感知任务上保持了稳定的性能，这主要得益于其中的Q-Former架构以及重新整合后具有层级间对应关系的数据集。实验表明，PartGLEE在各种物体和部分层级的检测评估中均取得了优异的表现，突出显示了其卓越的多层级感知能力。这些能力使得PartGLEE能够实现更深入的图像理解，并可以通过提示（Prompt）的手段让多模态大型语言模型（mLLMs）对图像有更细粒度的理解能力。

作者：Junyi Li，Junfeng Wu，Weizhi Zhao，Song Bai，Xiang Bai

单位：华中科技大学，字节跳动

PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

ECCV2024

PSALM将多模态大模型拓展到了分割任务上。为了克服 LMM 仅限于文本输出的限制，PSALM 增加了一个mask解码器和一系列精心设计的输入来处理各种分割任务。输入包括图像、任务指令、条件指令和一组mask tokens，这使得模型能够有效地生成和分类分割mask。PSALM 的灵活设计支持跨多个数据集和任务的联合训练，从而提高性能和任务泛化能力。PSALM 在几个分割基准测试中取得了优异的成绩，例如 RefCOCO /RefCOCO+/RefCOCOg、COCO 全景分割和 COCO-Interactive，并且在未见过的任务上展示了零样本能力，如开放词表分割、视频目标分割等。具体的代码已经开源在https://github.com/zamling/PSALM

作者：Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai

单位：华中科技大学，微软亚洲研究院

SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer

ECCV2024

当下2D/3D生成模型的最新进展使得单视图视频生成动态3D对象成为可能。现有的方法利用分数蒸馏采样（SDS）来将动态场景建模为动态NeRF或稠密的3D高斯。然而，由于NeRF的隐式特性以及稠密高斯运动预测的复杂性，这些方法难以在单视图条件下的参考图对齐、时空一致性和运动保真度之间取得较好平衡。为了解决这些问题，本文提出了一种高效、基于稀疏控制点的视频到4D框架，称为SC4D。该框架将运动和外观解耦，以实现卓越的视频到4D生成。此外，我们引入了自适应高斯（AG）初始化和高斯对齐（GA）损失，以解决几何退化问题，确保学习的运动和形状的保真度。综合实验结果表明，该方法在质量和效率上均优于现有方法。此外，通过对SC4D的运动和外观进行分离建模，我们设计了一种新颖的应用，能够根据文本描述将学习到的运动无缝地迁移到不同的4D实体上。

作者：Zijie Wu, Chaohui Yu, Yanqin Jiang, Chenjie Cao, Fan Wang, Xiang Bai

单位：华中科技大学，阿里巴巴达摩院

The End

VLRLab

编辑：谢旭东

审核：罗琪頔

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉