点击下方“计算机书童”卡片,每天获取顶刊论文解读
题目:Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning
Vote2Cap-DETR++:解耦定位与描述的端到端3D密集描述
作者:Sijin Chen; Hongyuan Zhu; Mingsheng Li; Xin Chen; Peng Guo; Yinjie Lei; Gang Yu; Taihao Li; Tao Chen
源码链接:https://github.com/ch3cook-fdu/Vote2Cap-DETR
摘要
3D密集描述要求模型将对输入3D场景的理解转化为与不同对象区域相关的几个标题。现有方法采用复杂的“检测-然后-描述”流程,该流程在具有许多手工制作组件的3D检测器上构建显式关系模块。虽然这些方法已经取得了初步成功,但由于复制的框估计和混乱的3D场景,级联流程往往会累积错误。在本文中,我们首先提出了Vote2Cap-DETR,这是一个简单而有效的变换器框架,通过并行解码将标题生成和对象定位的解码过程解耦。此外,我们认为对象定位和描述生成需要不同程度的场景理解,这对于共享一组查询来说可能是具有挑战性的。为此,我们提出了一个高级版本,Vote2Cap-DETR++,它将查询解耦为定位和标题查询以捕获特定于任务的特征。此外,我们引入了迭代空间细化策略,对投票查询进行操作,以实现更快的收敛和更好的定位性能。我们还在标题头中插入了额外的空间信息,以实现更准确的描述。没有复杂的设计,广泛的实验在两个常用的数据集,ScanRefer和Nr3D上表明,Vote2Cap-DETR和Vote2Cap-DETR++以较大的优势超越了传统的“检测-然后-描述”方法。
关键字
3D密集描述,3D场景理解,多模态学习,变换器。
I. 引言
近年来,3D学习在各种应用领域[16],[23],[27],[37],[46],[67],[69]取得了显著增长。作为这一趋势的一部分,3D密集标题任务[17]出现了,它要求模型定位并为输入3D场景中的所有对象生成描述性句子。鉴于1)点云的稀疏性,以及2)混乱的3D场景,这一问题颇具挑战性。
先前的工作在3D密集标题上取得了巨大的成功。Scan2Cap [17],SpaCap3D [62],MORE [31]和REMAN [44]通过精心设计的关系建模模块提取框估计之间的关系。同时,[75]引入了一个额外的上下文分支来捕获非对象信息。3DJCG [7],D3Net [11]和3D-VLP [32]研究了各种3D视觉语言(3DVL)任务之间的相互促进,包括额外的任务,如3D视觉定位(3DVG),3D问题回答(3DQA)。χ-Trans2Cap [70]还表明,从额外的2D信息转移知识也可以提高生成标题的质量。
在现有方法中,它们都采用了“检测-然后-描述”流程(图1,上部)。具体来说,它们通过在框估计之间建模关系,以串行方式执行对象定位和描述生成。尽管这些方法已经取得了显著的性能,但“检测-然后-描述”流程存在以下问题:1)由于串行和显式推理,后续模块严重依赖于对象检测性能。重复的框预测会导致混淆,并限制检测和标题之间的相互促进。2)该流程需要大量的手工制作组件,例如3D操作符[54],在框估计内的关系图[17],[31],以及用于后处理的非最大抑制(NMS)[49]。这些手工制作的组件引入了额外的超参数,鉴于稀疏的对象表面和混乱的室内场景,导致性能次优。
为了解决上述问题,我们首先提出了一个初步模型,命名为Vote2Cap-DETR,这是一个完整的变换器[60]编码器-解码器模型,它通过并行任务头将3D密集标题中标题生成和对象定位的解码过程解耦。与常规的“检测-然后-描述”流程不同,Vote2Cap-DETR通过应用两个并行任务头,将标题生成过程从对象定位中解耦。通过进一步将3D密集标题转换为集合预测问题,Vote2Cap-DETR将每个目标实例及其语言注释与一个独特的查询关联起来,鼓励模型学习更具辨识力的提议表示,从而帮助识别3D场景中的每个独特对象。为了进一步促进模型的定位能力,Vote2Cap-DETR提出了一种新颖的投票解码器,通过将3DETR[47]中的对象查询重构为投票查询的格式,这是一种由种子点的嵌入和投票空间变换组成的。这也建立了Vote2Cap-DETR中的投票查询与VoteNet[53]之间的联系,但具有更高的定位能力。此外,Vote2Cap-DETR开发了一种新颖的查询驱动标题头,通过自注意力和交叉注意力捕获关系和属性信息,以描述性和以对象为中心的对象标题。
虽然Vote2Cap-DETR建立了一个优雅的解耦解码方法来处理3D密集标题,但它仍然有一定的局限性。对象定位过程依赖于模型对对象3D结构的感知来生成紧密的边界框,而描述的生成则依赖于足够的属性信息和空间关系。由于这些任务需要不同程度的场景理解,对描述和框估计解码相同的查询集使得模型难以捕获任一任务的区分特征,导致次优性能。
为了解决这个问题,我们进一步引入了一个高级框架,即Vote2Cap-DETR++,以消除提取特定于任务特征的障碍。如图1(底部)所示,我们将查询解耦为3D定位查询(“[LOC]”)和标题查询(“[CAP]”),具有共享的变换器解码器用于解耦子任务解码。这两组查询相互对应,因为它们绑定到相同的框-标题估计。我们进一步提出了两种额外的策略,以更好地对象定位和标题生成。首先,我们引入了投票查询的迭代细化策略,以逐步缩短查询点和对象之间的距离。这导致了更快的收敛和更好的检测性能。此外,我们向标题前缀中插入了额外的3D位置编码令牌,并应用了基于排名的位置编码,以帮助标题头识别查询的确切位置,以进行准确的标题生成。我们通过广泛的实验经验性地表明,高级模型Vote2Cap-DETR++的性能始终优于初步版本。
初步版本发表在[14]。与此相比,我们在三个方面进行了重大改进和扩展。我们提出了解耦和对应的查询,以捕获对象定位和标题生成的特定于任务的特征。此外,我们在投票查询上引入了空间细化策略,以实现更快的收敛和更好的检测性能。同时,我们将3D空间信息插入到标题生成过程中,以实现更准确的描述。据我们所知,这是第一个非“检测-然后-描述”方法用于3D密集标题。通过广泛的实验,我们展示了高级框架以较大的优势超越了初步版本。为了促进和启发3D密集标题的进一步研究,我们已经在我们的代码库中提供了我们的代码:https://github.com/ch3cook-fdu/Vote2Cap-DETR。
在两个常用数据集上的实验表明,这两种提出的方法以较大的优势超越了许多手工制作组件的先前“检测-然后-描述”方法。我们的初步框架Vote2Cap-DETR在ScanRefer[9]和Nr3D[1]的验证集上分别实现了73.77%和45.53% C@0.5。值得注意的是,高级版本Vote2Cap-DETR++进一步实现了78.16% C@0.5(+4.39%)和47.62% C@0.5(+2.09%),超越了初步版本,并在两个数据集上都设定了新的最高记录。
总之,本文的主要贡献包括:
我们提出了两种基于变换器的3D密集标题框架,将标题生成从对象定位中解耦出来,以避免在“检测-然后-描述”流程中对框估计的显式推理所带来的累积错误。
我们解耦了3D密集标题中的解码过程和特征提取,以帮助模型学习对象定位和描述生成的区分特征。通过进一步引入查询的迭代空间细化策略,并将额外的空间信息纳入标题生成,我们的方法可以更高质量地生成边界框和描述。
广泛的实验表明,所提出的Vote2Cap-DETR和Vote2Cap-DETR++在Nr3D[1]和ScanRefer[17]上都设定了新的最高记录。
本文的其余部分安排如下。我们首先在第II节中简要介绍3D视觉语言任务、3D密集标题、DETRs和其他视觉标题任务的相关工作。然后,我们在第III节中提供变换器的基本信息,然后介绍我们提出的Vote2Cap-DETR和Vote2Cap-DETR++。之后,我们在第IV节中进行广泛的实验和可视化,以验证我们提出的方法的有效性。最后,我们在第V节中说明我们工作的局限性,并在第VI节中得出结论。
III. 方法
3D密集标题的输入是由一组N个点PC = [pin; fin] ∈ RN×3+F表示的3D场景,其中pin ∈ RN×3表示绝对位置,即每个点的几何特征,fin ∈ RN×F是每个点的额外信息,包括颜色、法线、高度和在[17],[52]中引入的多视图特征。预期的输出由一组K个框-标题配对估计()=()组成,表示输入3D场景中总共K个独特对象的位置和描述。在本节中,我们首先在第III-A节中简要介绍变换器架构[60]的背景。然后,我们在第III-B节中介绍我们的初步模型Vote2Cap-DETR。之后,我们在第III-C节中提出高级版本,即Vote2Cap-DETR++,它深入研究了投票查询设计并引入了指令调整策略。我们还在第III-D和III-E节中介绍了两个模型的训练目标。A. 背景:变换器
自其首次出现[60]以来,变换器架构已被广泛适应于各种应用[6],[21],[22],[35]。变换器由堆叠的编码器/解码器层组成,每个编码器/解码器层由注意力层、前馈网络(FFN)和残差连接[4],[25]组成。注意力层:注意力操作需要输入查询xq ∈ Rn×d,键xk ∈ Rm×d和值xv ∈ Rm×d,其中n,m代表令牌的数量,d表示特征维度。输入首先通过单独的和可学习的全连接(FC)层进行投影:更新的查询特征x'q ∈ Rn×d通过聚合特征从xv获得:在实践中,研究人员采用多头注意力[60],在(1)中的投影输入特征进行分割,在注意力操作前进行切片,并在更新查询特征后进行连接。变换器编码器层:标准变换器编码器层由注意力层和前馈网络(FFN)组成。给定第i个编码器层,查询特征xi通过以下方式更新:变换器解码器层:变换器解码器层与编码器层的区别在于,它需要一个额外的注意力层来聚合来自另一个信息源(表示为y)的特征:B. 初步版本:Vote2Cap-DETR
在本节中,我们展示了Vote2Cap-DETR的流程,如图2所示。输入PC首先被标记化到2,048个点标记,使用一个集合抽象层[54],然后跟随[47]。然后,我们将点标记输入到场景编码器[47]中提取场景特征[penc, fenc] ∈ R1,024×(3+256)。之后,我们从[penc, fenc]生成投票查询[pvq, fvq]作为解码器的初始对象查询。最后,我们采用变换器解码器[60]通过自注意力和交叉注意力捕获查询-查询和查询-场景交互,并并行解码查询特征到框预测和描述。场景编码器:Vote2Cap-DETR采用与3DETR[47]相同的场景编码器,由三个相同的变换器编码器层组成,不同的掩蔽半径[0.16, 0.64, 1.44],以及一个集合抽象层[54]在第一和第二编码器层之间对点标记进行下采样。场景编码器的输出是1,024个点标记[penc, fenc] ∈ R1,024×(3+256),在输入3D场景中均匀分布。投票查询:为了澄清,我们将对象查询格式化为(pquery, f0^query)来表示对象查询的空间位置和初始特征。因此,3DETR[47]中的对象查询可以表示为(pseed, 0),其中pseed是从3D场景中均匀采样的种子点,初始查询特征是零向量。然而,由于混乱的3D场景和稀疏的对象表面,pseed可能远离场景对象,导致收敛缓慢,无法捕获具有区分性的对象特征以及后续的错过检测。先前的工作表明,向初始对象查询引入结构偏差,如锚点[64]和内容标记选择[72],对于DETRs至关重要。因此,Vote2Cap-DETR提出了投票查询(pvq, fvq),引入了3D空间偏差和局部内容聚合,以实现更快的收敛和更好的性能。具体来说,投票查询pvq, fvq的空间位置和初始特征预计会接近具有区分性表示的对象中心。这建立了对象查询和在[53]中广泛研究的投票集预测之间的联系。详细结构可以在图3中找到。在实践中,我们首先使用最远点采样(FPS)从penc中均匀采样256个点作为种子点pseed,如3DETR[47]中所做的。然后,我们使用前馈网络(FFN)FFNvote预测3D空间偏移Δpvote从pseed的相应特征fseed到pvq,如下所示(6)。这里,Δpvote被训练用来估计附近对象的中心。之后,我们使用集合抽象层[54]从场景特征(penc, fenc)中聚合内容特征fvq ∈ R256×256,如[53]中所做的。还值得一提的是,3DETR中的种子查询也是投票查询的一个特例,其中Δpvote = 0且fvq = 0。按照3DETR[47],我们采用一个八层的普通变换器解码器,并更新第i层的查询特征fi^query如下:其中Layeri−1是第i个解码器层,PE(·)是3D傅里叶位置编码函数[58],f0^query = fvq如上所述。解耦和并行解码:我们并行解码对象查询到框估计和标题,使用两个特定的任务头,检测头和标题头。值得一提的是,这两个头对彼此的输出一无所知。检测头。我们采用在所有解码器层中共享的FFNs来估计框角估计和语义类别预测(包含“无对象”类别),如下[8],[47]。标题头。为了在不访问框估计的输出的情况下生成以对象为中心的描述性标题,我们提出了双线索标题生成器(DCC),这是一个两层变换器解码器[60],具有正弦位置嵌入。具体来说,DCC接收两流视觉线索V = (Vq, Vs),其中Vq代表要描述的对象的查询特征,Vs是围绕Vq的空间位置的最近局部上下文标记特征。标题生成过程可以被视为最大化条件概率:C. 高级版本:Vote2Cap-DETR++
为了进一步推动“非检测-然后-描述”方法在3D密集标题中的演变,我们引入了Vote2Cap-DETR++(图2,底部)。两个版本之间的主要区别在于我们在Vote2Cap-DETR++中解耦了查询,以捕获定位头和标题头的特定于任务的特征。此外,我们对投票查询应用了迭代空间细化策略,以更好地在3D空间中定位对象,并向标题头注入额外的3D空间信息,以实现更准确的标题。解耦特定于任务的查询:以前的“检测-然后-描述”方法[17],[62]采用它作为事实上的标准,使用对象提议特征生成标题。上述介绍的Vote2Cap-DETR也采用了相同的一组投票查询,同时进行场景对象的对象定位和标题生成。然而,这两个子任务需要对3D环境有不同的理解。从3D场景中定位对象需要模型感知3D结构以进行紧密的框估计,而生成信息丰富的对象标题需要足够的属性信息以及与周围环境的空间关系。因此,我们提出了解耦和对应的查询,通过变换器解码器捕获特定于任务的特征,如图2(底部)所示。为了澄清,我们将第一组查询命名为“[LOC]”查询,用于对象定位,第二组查询命名为“[CAP]”查询,用于捕获标题生成的特征。解耦。“[LOC]”查询实际上是在第III-B节中提出的投票查询。为了区分这两种查询,我们在空间位置共享的同时,将“[LOC]”查询的特征投影到对应的“[CAP]”查询。对应关系。尽管这两组特定于任务的查询被设计为对3D场景有不同的理解,但每对查询都共享相同的空间位置,并且绑定到相同的框-标题提议。因此,我们通过在每个解码器层中进行令牌级投影,将[LOC]查询和[CAP]查询的令牌联系起来,如图5所示。对投票查询进行迭代空间细化:为了进一步释放投票查询的潜力,我们可视化了查询的空间位置与框估计质量之间的关系,如图6(左)所示。可以看到,查询越接近对象,框估计的质量就越高。然而,将种子点学习转移到对象中心可能是具有挑战性的,特别是对于最初远离对象的查询(图6,右)。为了缓解这个问题,我们提出在(7)中的特征更新的同时更新投票查询的空间位置。具体来说,对于第i层解码器,我们通过一个额外的FFN预测空间细化偏移Δpi^vote。第i层的查询特征更新步骤可以写成:值得一提的是,我们仍然采用解耦解码结构,以绕过“检测-然后-描述”流程所带来的累积错误,这与[72],[77]中提出的迭代框细化策略不同。我们的方法也不同于[74],我们主要关注DETR类架构中对象查询的改进,而[74]在VoteNet[53]上构建投票细化以获得更好的提议。向标题头注入空间信息:一个信息丰富的场景对象描述可能包含“房间的角落”、“房间的中间”等术语。然而,原始的DCC在图4中无法捕获足够的绝对空间信息。因此,我们在标题前缀中插入了一个额外的3D绝对位置标记Vq_pos,以识别查询的空间位置。标题前缀可以写成[Vq; Vq_pos]。值得一提的是,在Vote2Cap-DETR++中,Vq来自[CAP]查询,而不是初步模型中的[LOC]查询。为了进一步通知标题头上下文标记与标题查询之间的空间关系,我们采用了基于排名的位置编码,用于相对于它们与查询的空间距离的上下文标记。我们使用相同的正弦位置嵌入将上下文标记的空间位置编码为Vs_pos,并添加到Vs的词嵌入中进行标题生成。因此,(8)中的条件描述生成过程可以被重新表述为:D. Vote2Cap-DETR的训练目标
Vote2Cap-DETR的损失函数是三个损失的加权和:投票查询损失Lvq、检测损失Ldet和标题损失Lcap。投票查询损失:在实践中,Vote2Cap-DETR使用与VoteNet[53]相同的程序来监督所有1,024个点在penc中的pvote的投票转移过程,其中pseed是从penc中采样的256个点。它采用了投票损失Lvq来促进学习点向对象中心的转移:这里,I(·)是一个指示函数,当条件满足时取值为1,否则为0。变量N_{gt}表示3D场景中存在的实例数量,M计算pvote中的点数,在我们的设置中等于1,024。最后,cntj表示第j个实例的中心,表示为Ij。检测损失:Vote2Cap-DETR采用与3DETR[47]相同的匈牙利算法为每个提议分配真实标签。此外,它还加入了一个更高权重的3D gIoU损失[47]来提高模型的对象定位能力:其中,α1 = 10, α2 = 1, α3 = 5, α4 = 1 是经验设置的值。此外,集合损失L_set在所有ndec层解码器层中进行。标题损失:按照图像标题的标准实践,Vote2Cap-DETR首先使用标准的交叉熵损失(MLE训练)训练标题头,然后使用Self-Critical Sequence Training(SCST)[56]进行微调。在MLE训练期间,模型被训练以预测第(t + 1)个词ct+1_i,给定前t个词c[1:t]_i和视觉条件V。一个T长度句子的损失函数可以定义为:在进行词级监督训练后,使用SCST进行微调。在SCST期间,模型使用束搜索生成多个标题ˆc1,...,k,并使用贪婪搜索生成基线标题ˆg。SCST的损失函数定义如下:这里,奖励函数R(·)在我们的情况下是CIDEr[61],通常用于评估文本生成模型。为了鼓励对不同长度的标题给予同等重视,我们通过其长度|ˆci|对标题ˆci的对数概率进行归一化。集合到集合训练3D密集标题:Vote2Cap-DETR引入了一种易于实现的集合到集合训练策略,用于3D密集标题。具体来说,给定一个3D场景,Vote2Cap-DETR从语料库中随机采样一个句子作为每个注释实例的语言注释。然后,它使用相同的匈牙利算法将每个实例的语言注释分配给相应场景中的一个独特提议。在训练期间,它平均了所有注释实例在批次中的损失Lci以计算标题损失Lcap。为了平衡不同任务的损失,我们在训练过程中采用所有损失函数的加权和:其中,β1 = 10, β2 = 1, β3 = 5 是经验设置的值。E. Vote2Cap-DETR++的训练目标
查询的空间细化损失:在Vote2Cap-DETR++中,我们进一步采用了针对不同解码器层中查询的细化损失Lqr。Lqr与(11)中定义的Lvq具有相似的形式,但仅适用于投票查询:这里,pi^vq是第i层解码器中查询的空间位置,而其他符号相应地定义在(11)中。我们采用Lqr针对每个执行查询空间细化的解码器层。Vote2Cap-DETR++的最终损失函数基于(15)中引入的LVote2Cap-DETR,但进一步考虑了上述提到的细化损失Lqr:其中δ代表执行查询空间细化的所有解码器层。我们经验性地设置β4 = β1 = 10。IV. 实验
在本节中,我们首先在第IV-A节中介绍3D密集标题的基本设置,包括数据集、指标和实现细节。然后,我们在第IV-B节中比较了两种提出的与现有方法。之后,我们在第IV-C和IV-D节中分别对Vote2Cap-DETR和Vote2Cap-DETR++进行了消融研究。最后,我们在第IV-E节中提供了一些定性结果。A. 数据集、指标和实现细节
数据集
我们在两个广泛使用的3D密集标题数据集上进行实验,即ScanRefer[9]和Nr3D[1]。ScanRefer/Nr3D包含36,665/32,919个人类注释的自然语言描述,涉及来自ScanNet[19]的7,875/4,664个对象,用于训练,以及9,508/8,584个描述,涉及来自ScanNet验证集的2,068/1,214个对象,用于评估。评估指标
尽管我们提出的方法对NMS[49]具有鲁棒性,我们遵循[14]、[17]中的相同程序,通过在模型的框-标题预测上应用NMS来获得最终预测,以便进行公平比较。之后,我们将每个实例注释与剩余集中具有最大IoU的对象-标题提议相匹配。这里,我们用(bi, Ci)表示每个实例的注释,其中bi是实例的框角标签,Ci是包含此实例所有标题注释的语料库。为了共同评估模型的定位和标题生成能力,我们采用了m@kIoU指标[17]:这里,N是评估数据集中所有注释实例的数量,m可以是任何指标,包括CIDEr[61]、METEOR[5]、BLEU-4[51]和ROUGE-L[36]。实现细节
我们为不同的基线实现提供了细节。“w/o多视图特征”指的是输入点云PC ∈ R40,000×10包含绝对空间位置以及代表40,000个点的3D场景的颜色、法线和高度。“w/多视图特征”用从多视图图像中提取的128维多视图特征替换上述案例中的颜色信息,遵循[17]。我们首先在ScanNet[19]训练集上预训练整个网络(不包括标题头)1,080个周期,大约163k次迭代(约34小时)。为了训练模型,我们使用AdamW优化器[41],学习率从5×10−4衰减到10−6,使用余弦退火调度器,权重衰减0.1,梯度裁剪0.1,批量大小8,遵循[47]。然后,我们加载预训练的权重,并与MLE标题损失(13)一起联合训练完整模型另外720个周期,ScanRefer大约51k次迭代(约11小时)和Nr3D(约10小时)分别为46k次迭代。为了防止过拟合,我们固定了所有参数在主干的学习率为10−6,并设置标题头的学习率从10−4衰减到10−6,使用余弦退火调度器。在SCST期间,我们使用束搜索生成多个标题ˆc1,...,k,并使用贪婪搜索生成基线标题ˆg。SCST的损失函数定义如下:这里,奖励函数R(·)在我们的情况下是CIDEr[61],通常用于评估文本生成模型。为了鼓励对不同长度的标题给予同等重视,我们通过其长度|ˆci|对标题ˆci的对数概率进行归一化。我们每2,000次迭代评估一次模型,以保持与现有工作的一致性[17]、[62],上述所有实验都在单个RTX3090 GPU上进行。B. 与现有方法的比较
我们在两个广泛使用的数据集上比较了我们提出的两种方法,即Vote2Cap-DETR和Vote2Cap-DETR++,与先前艺术的比较。我们使用C, B-4, M, R作为CIDEr[61]、BLEU-4[51]、METEOR[5]和Rouge-L[36]的缩写。我们主要比较ScanRefer(表I)和Nr3D(表II)上的C@0.5指标,并相应地对两个表中的结果进行排序。在表I中,“-”表示论文或其他后续工作没有提供这样的结果。由于不同的监督对标题性能有显著影响,我们分别对MLE训练和Self-Critical Sequence Training(SCST)进行了比较。在所有列出的方法中,D3Net[11]和UniT3D[10]采用了实例分割模型,PointGroup[30],用于对象定位,而不是传统的3D检测器。3DJCG[7]通过预测从投票点到3D边界框每侧的空间距离来生成框估计,从而提高了VoteNet的定位性能,使用了FCOS[59]头。其他工作都采用了标准的VoteNet[53]作为他们的对象定位骨干。此外,由于先前的工作,包括3DJCG[7]、D3Net[11]、UniT3D[10]和3D-VLP[32],将注意力转移到不同3DVL任务的相互促进上,并在各种任务上训练他们的模型,我们在两个表中报告了他们在3D密集标题上的微调性能。ScanRefer验证集(表I)上的评估表明,Vote2Cap-DETR和Vote2Cap-DETR++超越了先前的艺术。例如,在多视图特征的MLE训练下,Vote2Cap-DETR实现了59.32% C@0.5,而3DVLP[32]使用额外的训练数据实现了54.94%。此外,在SCST下,我们的Vote2Cap-DETR实现了70.63% C@0.5,比当前最先进的模型D3Net[11](62.64% C@0.5)高出7.99%。我们的高级模型Vote2Cap-DETR++进一步提高了64.32% C@0.5(+5.00%)在MLE训练下和74.44% C@0.5(+3.81%)在SCST下。我们还在Nr3D验证集(表II)上展示了评估结果。Scan2Cap[17]的报告结果来自[7]中的最佳报告结果。在训练模型的MLE下,我们提出的Vote2Cap-DETR实现了43.84% C@0.5,比当前艺术(3DJCG 38.06% C@0.5)高出5.78%。高级Vote2Cap-DETR++进一步提高了47.08% C@0.5(+3.24%)在完全相同的设置下。在SCST下,Vote2Cap-DETR也超越了当前艺术(D3Net,38.42% C@0.5)7.11%,达到了43.84% C@0.5,而高级Vote2Cap-DETR++进一步提高了2.09% C@0.5(47.62% C@0.5)。C. Vote2Cap-DETR的消融研究
我们对Vote2Cap-DETR进行了广泛的实验,以研究所提出的组件的有效性。如果没有进一步说明,所有实验都在“w/o多视图特征”设置下进行。投票查询如何改进3DETR?为了进行公平比较,我们首先使用与第IV-A节中描述的相同训练策略训练了一个VoteNet[53]和一个3DETR-m[47]模型作为我们的基线。由于更长和更先进的训练策略,我们的重新实现的VoteNet(表III中的VoteNet*)的表现显著优于[17]中引入的基本版本。所有比较都在ScanNet[19]验证集上进行。如上所述,我们将对象查询格式化为(pquery, f0^query),以便3DETR-m[47]中的种子查询和我们提出的投票查询可以分别写成(pseed, 0)和(pvq, fvq)。我们还在表III中引入了一个投票查询的变体(pvq, 0),它仅引入3D空间偏差。可以看到,仅引入3D空间偏差到查询位置pvq就提高了检测性能(+0.97% mAP@0.5)。然而,它在早期训练周期中的收敛速度比3DETR-m基线慢,这表明投票查询生成模块在早期训练周期中没有很好地学习以预测准确的空间偏移估计。此外,我们可以看到,当同时聚合局部内容以形成初始查询特征fvq时,性能(+2.98% mAP@0.5)和收敛速度都得到了提升。Vote2Cap-DETR的整体性能比3DETR-m基线高出3.95% mAP@0.5,比广泛采用的VoteNet基线高出7.17% mAP@0.5。3D上下文特征如何帮助标题生成?由于3D密集标题的评估协议取决于定位和标题生成能力,我们冻结了除标题头之外的所有参数,并使用标准交叉熵损失进行了公平比较。具体来说,我们采用了基于对象的解码器[62]作为我们的基线,这是一个基于变换器的模型,可以生成以对象特征为前缀的标题。在表IV中,“-”指的是基于对象的解码器基线,“global”是简单地涉及来自场景编码器的所有上下文标记,“local”是我们提出的双重线索标题生成器(DCC),它结合了来自场景编码器的投票查询的ks(ks = 128经验性)最近的上下文标记。结果表明,标题生成性能得益于引入额外的上下文信息。此外,与从整个场景中引入上下文信息的朴素方法相比,引入局部上下文可以获得更好的结果,这支持了我们的观点,即在描述对象时考虑其周围环境至关重要。集合到集合训练是否有助于3D密集标题?为了分析集合到集合训练的有效性,我们使用较小的学习率(10−6)训练所有参数,并在SCST期间冻结这些参数。在表V中,我们将传统训练策略称为“句子训练”,它遍历数据集中的所有句子注释。如图7所示,我们提出的“集合到集合”训练在MLE训练期间实现了与传统策略相当的性能,并且由于在标题头上有更大的批量大小,因此收敛速度更快。从头开始端到端训练:Vote2Cap-DETR还支持从头开始对3D密集标题进行端到端训练。然而,由于ScanRefer和Nr3D都是在有限的场景(562/511场景)上进行注释的,因此直接从头开始训练Vote2Cap-DETR将由于无法同时满足两个目标而表现不佳。如表VI中ScanRefer的实验所示,我们选择的贪婪策略通过在检测任务上预训练主干作为标题生成的良好先决条件,从而实现了更好的性能。Vote2Cap-DETR是否对NMS鲁棒?与其他DETR工作类似,集合损失鼓励模型产生稀疏且不重复的预测。在表VII中,我们比较了在有无NMS[49]的情况下评估3D密集标题(C@0.5)和检测(mAP50, AR50)的性能。由于m@kIoU指标(18)不包含对冗余预测的惩罚,因此去除NMS[49]会导致C@0.5性能提升。结果表明,与基于VoteNet的3D密集标题方法(即SpaCap3D[62]和3DJCG[7])相比,Vote2Cap-DETR展现出更高的稳定性,无需NMS存在。D. Vote2Cap-DETR++的消融研究
在本节中,我们提供了与第IV-C节相同的设置下的全面实验,以研究Vote2Cap-DETR++中提出的不同组件的有效性。我们应该在哪些层细化查询?为了更好地分析Vote2Cap-DETR++中投票查询的迭代空间细化策略的有效性,我们首先评估了Vote2Cap-DETR在ScanNet[19]验证集上不同解码器层的每层检测性能,如表VIII所示。可以看到,随着层的深入,性能也在增长。同时,前三层的性能相对较差且变化较大,而后五层的性能相似(≥ 52.0% mAP@0.5)。因此,我们在表IX中比较了不同的组合。这里,标记为“-”的基线模型没有执行任何细化步骤,即退化为Vote2Cap-DETR。标记为“all”的模型意味着我们在整个解码器层中采用了细化策略。结果标记为“0”、“0,1”、“0,1,2”和“0,1,2,3”的模型表示在不同的层中对投票查询进行了空间细化。例如,“0”代表第一层,“0,1”代表前两层,以此类推。实验表明,在前三层进行空间细化可以获得最佳性能。Vote2Cap-DETR和Vote2Cap-DETR++之间的每层检测性能比较:我们在表X中比较了Vote2Cap-DETR和Vote2Cap-DETR++在不同解码器层的检测性能。第一层的性能相似,而Vote2Cap-DETR++的后续三层性能远优于Vote2Cap-DETR(+1.66%,+2.46%,+2.23% mAP@0.5)。这进一步表明,前三层有效地将查询空间移动到接近对象的精确位置,从而获得了更高质量的框估计。不同解码器层中查询的空间位置:我们在图8中展示了不同解码器层中投票查询的空间位置分布。随着解码器层的深入,查询越来越集中在对象中心。与其他3DETR尝试的比较:由于直接改进3DETR[47]的工作很少,我们在表XI中将我们提出的Vote2Cap-DETR和Vote2Cap-DETR++与混合匹配策略[29]和可学习的锚点[64]进行了比较。在实践中,混合匹配策略维护了另一组由一对多标签分配监督的对象查询,而可学习的锚点是随机初始化的[64]。如表XI所示,这两种方法都不如我们提出的任何一种提出的方法。尽管混合匹配在早期训练周期中加速了3DETR-m的训练,但在模型收敛时仍然落后于Vote2Cap-DETR。此外,高级版本Vote2Cap-DETR++在早期阶段的收敛速度比任何其他方法都快,甚至在模型收敛时比Vote2Cap-DETR有更好的检测性能(+3.35% mAP@0.5)。解耦查询的设计:我们在表XII中的ScanRefer验证集上对特定任务查询的不同设计进行了研究。第一行引用我们的基线方法,该方法生成标题并将具有共享查询的对象本地化为Vote 2Cap-DETR。可以看到,查询的独立解耦会导致性能下降。然而,当我们通过token-wise投影将[CAP]查询与[CAP]查询链接时,我们看到了+1.57%C@0.5的相对性能改进。额外的3D空间信息如何帮助字幕?为了解决空间信息注入的不同设计的有效性,我们评估了不同策略在具有冻结骨架的表XIII中的ScanRefer [9]验证集上的性能。在表XIII中,第一行中的模型降级为DCC,因为没有额外的空间信息注入模型。可以看出,引入额外的位置嵌入标记Vq pos作为字幕前缀大大提高了生成字幕的质量,我们还发现,与绝对3D位置编码相比,使用基于共享排名的上下文标记Vs pos的位置嵌入进一步提高了字幕性能。抗随机性的稳健性:我们对表14中列出的每种方法进行了五次培训,以研究随机性的影响并报告实现的指标范围。我们使用ScanRefer数据集上的标准最大似然估计(MLE)损失训练了所有方法[9]。结果表明,与“检测-然后-描述”SpaCap 3D方法相比,我们提出的Vote 2Cap-DETR和Vote 2Cap-DETR ++对随机性表现出更大的弹性[62]。这表明了“集合到集合训练”(见图7)中更平滑的训练曲线的优点,以及非“检测然后描述”方法中累积错误的减少。使用3D视觉基础模型进行评估:为了进一步分析生成的字幕的质量,我们采用了两种预先训练的3D视觉基础方法,3D-VisTA [79]和3DVG-Transformer [73]来评估表XV中生成的字幕。我们遵循Scan 2Cap [17]中的确切过程,为每个地面实况实例分配一个生成的标题。我们使用缩写“Uni”、“穆尔”和“OAcc”分别表示“Unique”、“Multiple”和“Overall”。“唯一”子集包括其中只有一个来自特定类别的对象与描述匹配的样本。同时,“多个”子集包括模糊的样本,其中存在来自同一类别的多个对象。实验结果表明,该方法生成的字幕更好地描述了对象,尤其是在包含多个同类对象的场景中。Vote 2Cap-DETR ++的改进分析:为了提供Vote 2CapDETR ++实现的改进的详细分析,我们在表XVI中呈现了结果。我们证明了增强的检测有助于+0.76%C@0.5的性能改进,将Vote 2Cap-DETR [14]从61.39%C@0.5提升到62.15%C@0.5(第1行和第3行)。此外,包括绝对查询位置标记作为Vq pos和基于排名的位置嵌入作为Vs pos导致65.00%C@0.5的性能,表示+2.85%C@0.5的显著改进(行3和行4)。此外,当我们联合微调主干和字幕头时,性能进一步提高到66.01%C@0.5(行4和行5)。此外,引入了重复查询和对应查询,达到了67.58%C@0.5(行5和行6),进一步证明了我们的整体设计的优越性。总之,虽然改进的对象定位对于3D密集字幕至关重要,但它本身并不足以提高整体性能。我们改进的标题头和查询的重复和对应也发挥了显着的作用,在显着的性能增长。每类检测性能:我们在表XVII中列出了重新实现的VoteNet [53],3DETR-m [47]以及我们在ScanNet [19]上提出的Vote 2Cap-DETR和Vote 2Cap-DETR ++验证集在IoU阈值为0.5下的每类检测AP结果。整体性能列于表III中。E. 定性结果
在本节中,我们主要提供一些定性结果来可视化我们提出的方法的有效性。ScanRefer和Nr3D上的定性结果:我们在图9中展示了几个定位结果和生成的标题。可以看到,我们提出的方法能够生成接近对象表面的紧密边界框和准确的描述。查询空间位置的可视化:我们在图10中可视化了不同解码器层中投票查询的空间位置。随着解码器层的深入,查询越来越接近框中心。对象定位结果的可视化:我们还在图11中展示了不同方法的几个对象定位结果。我们提出的方法,Vote2Cap-DETR和Vote2Cap-DETR++,能够生成接近真实值的紧密边界框。V. 局限性和开放问题
尽管我们提出了两种有效的非“检测-然后-描述”方法来处理3D密集标题,但由于有限的文本注释、束搜索和使用CIDEr奖励的自我批评序列训练,标题的多样性并不高。我们相信,使用更多训练数据在3D视觉语言任务上进行多模态预训练,以及利用在大型语料库上训练的大型语言模型(LLM),将增加生成标题的多样性。此外,为3D密集标题设计的其他奖励函数将增加同一场景中对象描述的多样性。我们将这些主题留给未来的研究。VI. 结论
在这项工作中,我们将标题生成从对象定位中解耦出来,并提出了一组两种基于变换器的方法,即Vote2Cap-DETR和Vote2Cap-DETR++,用于3D密集标题。与传统的“检测-然后-描述”流程中复杂和显式的关系模块相比,我们提出的方法有效地通过注意力机制捕获了对象-对象和对象-场景关系。初步模型Vote2Cap-DETR解耦了生成标题和框估计的解码过程。我们还提出了投票查询以实现快速收敛,并开发了一种新颖的轻量级查询驱动标题头,用于生成信息丰富的标题。在高级模型Vote2Cap-DETR++中,我们进一步解耦了查询以捕获对象定位和描述生成的特定于任务的特征。此外,我们引入了迭代空间细化策略,用于投票查询,并插入了3D空间信息以实现更准确的标题。在两个广泛使用的数据集上的广泛实验验证了这两种提出的方法都以较大的优势超越了先前的“检测-然后-描述”流程。声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编