VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

文摘   2024-09-27 10:02   湖北  

    VLRLab团队在2024年的人工智能领域国际顶会NeurIPS中斩获佳绩,展示了在3D点云、3D分割、MoE模型方面的前沿研究。以下将对这4篇论文进行简要介绍,展示其研究的核心思想和主要贡献。

PointMamba: A Simple State Space 

Model for Point Cloud Analysis



NeurIPS2024



    Transformers因其卓越的全局建模能力,在点云分析领域崭露头角。然而,其二次复杂度的注意力机制限制了在资源有限的设备上的应用。为此,本文提出了PointMamba,其将状态空间模型Mamba从自然语言处理领域引入到点云分析中。该模型通过空间填充曲线进行多方向点云序列化,并使用Mamba实现全局建模。PointMamba具有线性复杂度算法,有效降低了计算成本,同时保持了全局建模的优势。经过广泛评估,PointMamba在多个数据集上展现了优异的性能,并大幅减少了GPU内存和计算需求。PointMamba证明了Mamba在三维视觉任务中的潜力,并为未来研究提供了新的基准。

论文链接:

https://arxiv.org/abs/2402.10739




作者:Dingkang Liang, Xin Zhou, Wei Xu, Xingkui Zhu, Zhikang Zou, Xiaoqing Ye, Xiao Tan, Xiang Bai

单位:华中科技大学,百度

LION: Linear Group RNN for 3D Object Detection in Point Clouds



NeurIPS2024



    在大规模3D点云感知任务中(如3D目标检测),Transformer的优势受到其在建模长距离关系时计算成本呈二次增长的限制。相比之下,线性RNN具有低计算复杂度,适合进行长距离建模。为此,提出了一种基于线性分组RNN的简单有效的window-based框架(即对分组特征执行线性RNN)用于精确的3D目标检测,称为LION。其关键特性在于能够在比基于Transformer方法更大的分组中实现充分的特征交互。然而,线性分组RNN在处理高度稀疏的点云中的空间建模时存在一定的困难,因此在3D目标检测中应用并不容易。为解决这一问题,引入了3D空间特征描述符,并将其集成到线性分组RNN操作中,以增强其空间特征,而不是盲目增加体素特征的扫描顺序。此外,为了应对高度稀疏点云的挑战,提出了一种3D体素生成策略,通过线性分组RNN的自回归特性自然地密集化前景特征。大量实验验证了所提组件的有效性,以及LION在不同线性分组RNN操作(包括Mamba、RWKV和RetNet)上的通用性。值得一提的是,LION-Mamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上达到了当前最先进的性能。

论文链接:

https://arxiv.org/abs/2407.18232




作者:Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai

单位:华中科技大学,香港大学,百度


A Unified Framework for 3D Scene Understanding



NeurIPS2024



    文章提出一种统一的3D分割方法,能够在单一模型中完成全景分割、语义分割、实例分割、交互式分割、指代分割和开放词汇分割等任务。以往的大多数3D分割方法通常针对单一任务进行专门优化,将其3D场景理解能力限制在了特定任务。相比之下,所提方法采用同一Transformer统一表征六个任务,实现了跨任务的知识共享,促进了全面的3D场景理解。为充分发挥多任务统一的优势,本文设计了知识蒸馏和对比学习方法,以促进多任务协同优化。大量试验表明,所提出的模型在ScanNet20、ScanRefer和ScanNet200三个基准数据集上均显著超越了当前的最先进方法。

论文链接:

https://arxiv.org/abs/2407.03263




作者:Wei Xu, Chunsheng Shi, Sifan Tu, Xin Zhou, Dingkang Liang, Xiang Bai

单位:华中科技大学


MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks



NeurIPS2024



    本文提出MoE Jetpack的框架,旨在利用开源社区中提供的密集激活模型的预训练权重作为混合专家(MoE)模型的初始化。该框架缓解了MoE预训练权重不足的问题,避免了MoE模型在预训练阶段对数据的大量需求和计算资源的高消耗。MoE Jetpack通过两个核心技术实现这一目标:一是checkpoint recycling,它利用不同的采样策略,通过密集激活模型的预训练权重初始化MoE模型;二是SpheroMoE layer,该结构针对微调阶段设计,能提高MoE在微调过程的稳定性并缓解过拟合。实验结果表明,该框架在多个视觉任务中显著提高了模型的收敛速度和准确性。

论文链接:

https://arxiv.org/abs/2406.04801




作者:Xingkui Zhu, Yiran Guan, Dingkang Liang, Yuchao Chen, Yuliang Liu, Xiang Bai

单位:华中科技大学



The End




VLRLab


编辑:祝星馗

审核:罗琪頔


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章