点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
视频中的时间动作检测(TAD)是现实世界中的一个基本且具有挑战性的任务。得益于 Transformer 的独特优势,各种基于DETR的方法已在TAD中得到应用。
然而,最近的研究发现,DETR中自注意力层中的注意力衰减导致了其性能下降。本文在之前研究的基础上,针对DETR基础TAD方法中的交叉注意力层注意力衰减问题进行新的探讨。
此外,作者的研究结果发现,交叉注意力与预测之间存在与预测不同的模式,这表明了一个短路现象。为了解决这个问题,作者提出了一种新的框架,即预测反馈DETR(Pred-DETR),该框架利用预测来恢复注意力衰减并使交叉注意力与预测对齐。
具体而言,作者从预测的相互关系中设计出了新的预测反馈目标。
因此,Pred-DETR在缓解衰减并实现各种具有挑战性的基准测试结果(包括THUMOS14、ActivityNet-v1.3、HACS和FineAction等基于DETR的方法的最新性能)方面取得了良好的效果。
Introduction
随着社会的进步,视频媒体的使用越来越广泛,因此,寻找未剪辑视频中所需特定片段的效率方法的需求也在迅速增长。Temporal Action Detection(TAD)是一个基本任务,旨在识别视频中的特定动作并确定它们的时间边界。TAD主要通过两阶段的方法得到了提高。然而,最近的研究越来越多地关注基于DETR的端到端方法。
DETR [10]是一种最初在目标检测领域提出的框架,也是第一个使用集合预测的端到端检测框架。DETR方法还扩展到了视频领域,并应用于TAD 。在TAD中,每个 Query 用于预测视频中的一个动作及其对应的时间间隔。为了实现这一点,采用二分匹配来将每个 Query 与GT动作及其在未剪辑视频中的时间间隔对齐。这种方法的一个显著优点是排除了传统的启发式方法,如非极大值抑制(NMS)。
尽管标准注意力(简称为原始-DETR)的DETR在与变形DETR[16]在目标检测方面可以兼容,但在TAD的原始-DETR(即使最近采用了DAB-DETR[16]这样的结构)甚至表现更差。最近,问题的根源被Self-DETR[16]确定为自注意力(SA)中的注意力衰竭问题,如图1(e)所示,其中所有解码器 Query 都聚焦在几个 Query 上。注意力衰竭是注意力模块跳过的现象,目的是防止模型退化为秩1矩阵。Self-DETR利用交叉注意力(CA)图来恢复塌陷的SA。
然而,他们的解决方案依赖于CA的健壮性,否则它可能是不最佳的。作者发现CA不是健壮的,而更为糟糕,如图1所示。该图显示了CA解码器 Query 关注于少数编码器特征((图1中的(a))),并在几乎所有的 Query 中显示相同的模式。这是一个特别关键的问题,因为CA对于该任务至关重要,因为它在 Query 和视频特征之间架起了桥梁。这使作者得出解决CA塌陷并开发另一种自我反馈方法的结论。
图1还插入了(b)中的局部化预测和(f)中相应的交互与统一(IoU)映射作为 Query 的自我关系。在图中,注意力图清楚地显示出不同的模式,与它们的预测和自我关系无关。通常,作者理解为注意力图表示了模型关注的重点,因此暗示了为什么会产生这些结果。
因此,这种现象类似于一个捷径,模型依赖简单的线索,而不是有意义的表现。尽管存在塌陷的注意力,但模型仍可以生成多样且合理的结果,尽管所有的 Query 都关注相同的背景区域,如图1中的CA中所示。这是因为目标检测任务中的二元匹配通过惩罚重复结果来施加不同的预测。基于这个观察,作者建议将注意力图与相应的预测对齐。通过使用预测而不是塌陷的CA作为注意力指南,作者的目标是扩展模型,解决关注塌陷问题。
为此,作者提出一个新的框架,即预测反馈DETR(Pred-DETR),来解决DETR中整个注意力机制的塌陷问题。作者的方法首先将解码器 Query 之间的关系表示为DETR预测与时间间隔之间的IoU相似性映射。作者还把CA映射转化为解码器 Query 的自我关系。接下来,作者引入一个辅助目标,将CA和SA映射的自我关系与基于预测的IoU相似性映射对齐。此外,作者利用最近DETR机制的编码器预测来引导编码器SA和解码器CA。在包括THUMOS14,ActivityNet-v1.3,HACS和FineAction在内的各种具有挑战性的基准测试中,作者证明了所提出的方法显著减少了关注塌陷问题的程度。此外,激活的注意力导致了显著的性能改进,使其成为基于DETR方法的新颖最先进水平。
总之,作者的主要贡献如下:
作者在TAD(Transformer-only Action Detection)的cross-attention中发现了注意力衰减问题。特别是,作者发现cross-attention的明显模式与预测不同,这意味着衰减现象是由于衰减引起的。 作者提出了一种新的框架,叫做预测反馈DETR(Pred-DETR),它利用预测来减轻注意力衰减。作者为衰减的注意力模块设置一个辅助目标,使其与预测的IoU关系对齐。 作者的广泛实验表明,Pred-DETR通过保持高关注度的多样性显著降低了注意力衰减的程度。此外,作者还验证了作者的模型在与DETR模型相比实现了新的最先进性能,这些模型是基于THUMOS14、ActivityNet-v1.3、HACS和FineAction的。
Related Work
Temporal Action Detection
动作检测(TAD)任务的目标是识别无剪辑视频中的动作时间段并将其分类为一类实例。在过去十年中,通过基础方法的研究和应用,TAD领域取得了显著的进展。受到目标检测中两阶段机制的成功启发,许多TAD方法采用了多阶段框架。
后续工作,点播学习被广泛应用于生成更灵活的 Proposal ,无需预先定义时间窗口。SSN[17]和TCN[19]引入了生成 Proposal 周围的扩展时间上下文,以提高排名性能。BSN[18]和BMN[19]将开始-结束对分组到不同的动作 Proposal 中,并对其进行最终局部化预测。BSN++[19]在BN的基础上指出,基于BSN的动作尺度存在不平衡问题。近日,ActionFormer[20]和TriDet[21]利用 Transformer 编码器作为多尺度 Backbone 网络,并BRN[18]解决了TAD的多尺度特征问题。
DETR
DETR [19] 是将目标检测视为直接的二元匹配预测问题,允许端到端检测无需任何人类启发式,例如置信度限制(NMS)。然而,DETR的需求是传统方法的10倍,因为二分匹配难以优化。为此问题,变形DETR [19]引入了稀疏注意力,通过学习指定关注的位置只关注一部分元素。基于DETR的后续模型 [19, 18]进一步通过显式编码边界信息提升了 Query 表示,这有效地帮助了训练的稳定性。
在TAD中,基于DETR的方法也被部署为DETR已达到了新的目标检测最先进性能。RTD-Net [18]识别了DETR中的密集注意力的问题,该问题表现出近似均匀分布,使得自注意力层像过度平滑一样发挥作用。TadTR [18]设计的根据变形DETR [19]的启发式设计的时序变形注意力。RecAct [19]提出了一个新的关系匹配来强制低重叠和高特征相似度的 Query 之间的高相关性。此外,LTP [18]提出了一种专为DETR设计的前向训练策略。
最近,自适应DETR [18]揭示了TAD中DETR性能下降的问题,即自注意力中的注意力衰竭,并提出了自反馈利用交叉注意力映射的引导来利用。虽然它明显降低了注意力衰竭的程度,但最佳性能取决于交叉注意力的假设。然而,作者发现交叉注意力已经崩溃,因此引入预测引导反馈,根据预测关系激活交叉注意力和自注意力。
Our Approach
本节介绍了作者提出的Pred-DETR方法中的预测反馈机制。具体来说,作者首先详细阐述了预备知识,讨论了注意力消融和预测。然后,作者介绍了预测反馈机制的解释,并描绘了整个框架,如图2所示。此外,作者还通过最近提出的DETR架构,将预测反馈机制扩展到编码器,仅用于训练。最后,作者总结了Pred-DETR的整体目标。
Preliminary
DETR采用了 Transformer (transformer)架构,主要由编码器(encoder)和解码器(decoder)两个部分组成。首先,编码器通过相似度计算(SA)捕捉输入特征之间的全局关系。
另一方面,解码器在目标 Query (object queries)和编码器特征(encoder features)之间执行交叉注意力(cross-attention)操作。这里目标 Query 是可学习嵌入向量(learnable embedding vectors) ,类似于 Anchor 点(anchors)的位置信息。这种机制确保每个 Query 都关注到编码器处理的最相关输入特征部分。
注意力机制(Attention Mechanism)。注意力模块接收三个输入,通过线性层将每个输入投射到三个潜在空间: Query (query) ,键(key) 和值(value) 。然后,通过矩阵乘法计算 与 的转置的相似度,并应用softmax激活函数,计算 和 的相似度。再将 与分数池化(scores)和线性投影相结合,得到注意力模块的输出。形式上,, 和 分别为, 和 ,其中, 和 分别表示 , 和 的长度,而 表示通道数。当 , 和 具有相同数量的通道数时,注意力机制可以表示为:
其中 是注意力图, 是 的转置。对于SA模块,, 和 的输入相同, 来自目标 Query ,而 和 来自CA模块的编码器特征。
DETR for TAD。DETR与原始DETR(目标检测)之间有三个不同之处。首先,作者在Kinetics[13]上预训练3D CNN得到的视频特征用于TAD。请注意,3D CNN是冻结的,只保留时间维度用于视频特征,通过全局平均池化在空间维度上处理。其次,解码器 Query 作为行动 Query (action queries)而不是目标 Query ,因为解码器输出的结果用于预测目标临时检测(temporal action detection)结果。最后,作者采用DAB-DETR[17],与Self-DETR[17]相一致。
自监督学习(Self-DETR)。这是第一次识别出在DETR应用于TAD时,编码器解码器SA图的折叠现象。为了引导折叠的SA图,他们处理了CA图以下方法:
根据论文, 表示 Query 和对应键之间的关系。下一步,它们通过应用 Kullback-Leibler (KL)散度损失,确保编码器和解码器 SA 映射类似于 和 。请参阅原始论文以获取更多详细信息。## 预测反馈
注意崩溃(Attention Collapse)。 注意崩溃是一种现象,其中注意力矩阵成为秩-1矩阵,以跳过注意力模块,从而防止学习[13]的退化。崩溃的注意力输出所有 Query 的均匀值,导致输入通过残差连接不需要额外的表示来传递。在本论文中,作者首次发现了 CA 的崩溃现象。这个问题使人们对 CA是可靠性的假设产生疑问。因此,需要整个注意力模块来完成崩溃的完全补救措施。
来自预测的反馈。 DETR 是最先实现端到端检测机制的作品,其中没有 Anchor 框或非极大值抑制(NMS)。由于不存在预定义的预测和真实值之间的匹配,因此它使用可学习的 Query 和二分匹配来为 Query 分配检测目标。由于匹配是一一映射,因此 DETR 预测结果将是多样的,因为当两个 Query 产生类似的局部定位结果时,一个 Query 将得到负损失。从这种特性的观点出发,预测的反馈可以激活崩溃注意力模块。
对交叉注意的反馈。 预测和 CA 都被表示为解码器 Query 之间的关系,以便在它们之间建立联系。然后,作者使崩溃关系遵循预测的多样化关系,通过辅助目标来实现。解码器 CA 将解码器 Query 与编码器特征相连,以预测感兴趣的动作。可以直接正则化崩溃的 CA 映射;但是为了保持注意力结果的灵活性,作者提出利用解码器 提取的 Query 关系 来指导。 Query 关系很简单,因为它们仅仅关注组内编码器特征的相似群体。将 CA 修订为自关系是相反的目的,Self-DETR 利用 作为反馈。
接下来,作者设计一个基于预测的指导图。关键在于, Query 关系也可以从预测的 IoU 相似度中提取,如图3 所示。具体而言,每个预测与经过优化的解码器 Query 相同,其中 ,分别表示开始时间和结束时间,其中 和 分别是 和 的初始和最终时间。因此,通过构建 IoU 相似度矩阵 ,从中得到 Query 关系,其中 表示解码器 Query 的数量。
,
其中 。
通过 softmax 函数归一化 ,解码器 CA 与预测的反馈目标可以通过以下方式定义:
(其中 是 KL 散度损失)
此外,作者还提出了一种引导塌陷解码器自注意力(decoder self-attention)的方法,并将解码器自注意力的塌陷(collapsed)自注意力映射与 相连。以前的研究已经表明解码器自注意力的塌陷以及反馈对它们恢复的影响是积极的。此外,作者通过利用 ,增强了反馈机制,以确保比基于 CA 的指导更高的多样性。解码器自注意力的预测-反馈目标定义如下:
自注意力反馈除了解码器,编码器自注意力也受到严重的注意力塌陷。借助于 [14] 中提出的编码器 Query 初始化,作者得到了编码器的预测结果。具体来说,作者在编码器顶部添加了一个线性层,利用每个编码器特征作为行动 Query 进行预测。这使作者能够构建与解码器 Query 相同的行为关系。因此,作者为编码器自注意力设计了反馈目标,使其遵循行为关系。与解码器 SA 中的公式 3 类似,作者在编码器特征的预测中定义了 IoU 矩阵 ,其中 是编码器特征的数量。通过 softmax 函数对 进行归一化,作者定义了以预测编码器自注意力的反馈目标。
类似于解码器 SA 中的公式 3,作者通过矩阵乘法从编码器特征的预测中提取 IoU 矩阵 。在这里, 中的 代表了编码器特征间相似度的相似分组。因此, 被定义为以下形式:
另一方面, 包含不仅 Query 关系,还包含编码器特征之间的关系。因此,作者对 的预测-反馈进行了与公式 4 中的方式类似的扩展。具体来说,特征关系 被扩展为
讨论: 在初始训练阶段,模型生成欠训练的预测。人们可能担心早期的反馈会影响模型的学习。然而,在前几轮迭代中,TAD的目标主要是优化反馈,确保欠训练的反馈不会破坏训练。此外,需要注意的是,由预测得出的指导并不构成注意力最佳关系。反馈充当规范器,帮助注意力图保持在预测附近,并维持与主要目标之间的平衡。同时,当预测反馈缓解崩溃时,CA的健全性得到恢复。这使得先前的 Self-DETR 工作的完整功能得到恢复。实验结果表明,恢复的 CA 显著提升了其性能。
Objectives
DETR。首先,作者用表示真实值,用
表示预测值,其中每个是由中元素的排列组成的。对于真实值和预测值之间的二分匹配,作者定义最优匹配为寻找一组排列中元素的最小成本,定义如下:
其中,是和对应于索引的预测之间的逐一匹配成本,该匹配过程产生的排列索引。
接下来,作者将每个真实动作表示为,其中是背景类别()的目标分类标签,是开始和结束时间段的实例。对于预测的索引,作者定义类别的预测概率和时间间隔的预测。然后,的定义如下:
其中,是真实时间的与预测的之间的回归损失,其中的索引为。回归损失由L1和交与并(IoU)损失组成,与基于DETR的其它方法一样。
最后,作者将主要的优化目标定义为:
其中来自等式8的最优分配。
全局目标。总体来说,作者的框架Pred-DETR的全局目标函数可以表示为:
其中,,和是编码器和解码器预测反馈损失的权重。
Experiments
Datasets
在本文中,作者使用了四个时间动作检测的挑战性基准:THUMOS14 江 et al. (2014),ActivityNet-v1.3 Fabian Caba Heilbron 和 Niebles (2015),HACS Zhao et al. (2019) 和 FineAction Liu et al. (2022)。
THUMOS14 分别有200 和 213 个视频用于训练集和验证集。该数据集包含与体育相关的20种动作类别。
ActivityNet-v1.3 包含 19,994 个视频,共200种动作类别。其中,10024、4926 和 5044 个视频分别用于训练、验证和测试。
HACS 中包含37613 和5981个视频,分别用于训练和验证,共200个动作类别,与ActivityNet-v1.3共享。
FineAction 包含每日事件,共计106个类别和16732个视频。THUMOS14 和FineAction 包含许多短暂的动作,而ActivityNet-v1.3 和HACS中的大多数视频则具有较长的动作。
Implementation Details
架构 作者使用了在Kinetics上的I3D Carreira和Zisserman于2017年预训练并于THUMOS14和ActivityNet-v1.3上使用。此外,作者分别采用SlowFast Feichtenhofer等人(2019)和Wang等人(2023)的VideoMAEv2-g以及在Deformable-DETR上的DAB-DETR的时序版本(如Self-DETR)。
用于TAD的增强DAB-DETR 此外,作者在DAB-DETR上引入了先进的技巧,包括保持匹配Liu等人(2023)、混合匹配Jia等人(2023)以及来自Deformable-DETR的两阶段机制。保持匹配利用预测与实际之间的IoU值作为类概率的目标值。
这与TadTR中的动作性回归密切相关。请注意,作者并未使用编码器的预测作为初始解码器 Query 。作者发现保持匹配显著提高了性能,这与TadTR的结果相符。然而,两阶段机制略微改进了它,因为它是因预测反馈而引入的。作者还报告了在补充材料中每个组成部分带来的好处的研究。
Main Results
与中国最先进的算法相比较。表格. 1显示了在THUMOS14和ActivityNet-v1.3上的比较结果。此外,表格. 2和表格. 3显示了在HACS和FineAction上的比较结果。Pred-DETR在多个基准测试中均优于基于DETR的方法。
第一部分由“标准方法”标识,包含非DETR方法,第二部分包括基于DETR的模型。此外,在基于DETR的模型中,RTD-Net,Self-DETR和作者的方法基于标准注意力,而TadTR和ReAct基于变形注意力。作者也指出了基础特征,称为“Feats”。大多数方法利用了TSN Wang等人(2016)或I3D特征,而一些方法也采纳了TSP Alwassel等人(2021)的特征。
在表格中,作者的模型在所有基准测试上均优于所有DETR基组模型。这表明,在注意力坍塌问题得到缓解时,原DETR架构可以在TAD中与变形DETR架构具有可比性或优越性,这与目标检测Lin等人(2023)的观察相吻合。更值得注意的是,Pred-DETR在包含非DETR的方法的ActivityNet-v1.3上表现最好。DETR基组方法在ActivityNet和HACS上的表现优于THUMOS14和FineAction上的表现。这可能是因为ActivityNet和HACS主要包含长时间动作,而THUMOS14和FineAction包含许多短实例。精确预测短动作需要高时间分辨率,而DETR尚未能够处理such a long sequence,因为其 Query 架构。尽管如此,最近的一些DETR模型包括作者的模型在处理短长度序列时超过了处理短长度序列的除了ActionFormer和TriDet的非DETR模型显示出优越的性能。
多样性是在ActivityNet-v1.3上的测试集上测量的,包括所有测试样本。当模型深度加深时, Baseline 的多样性接近0。然而,Pred-DETR的多样性并未下降,甚至有所增加。从这些结果来看,预测反馈有效地缓解了塌陷问题。
图5显示了编码器和解码器中的自注意力和交叉注意力的可视化。如图所示,基准DETR在所有注意模块上都出现了注意崩塌的现象。然而,作者的模型没有出现崩塌,展示出表达能力。
预测反馈的消融研究。 为了验证作者的框架中每个组件的好处,作者对自注意力的预测反馈目标进行了消融研究。在Pred-DETR中,作者提供了三类反馈:1) 解码器交叉注意力(),2) 解码器自注意力(),和3) 编码器自注意力()。
表4展示了消融研究的结果。如图所示,每种类型的预测反馈都明显地提高了性能。同时,当作者引入全部三种类型的预测反馈时,效益最大化。交叉注意力模块预测反馈带来的效益最大,因为它们是DETR的中心部分。
预测反馈目标。 在反馈中的自注意力目标方面,作者可以采用自注意力中与预测相交汇的建议。上表5显示了使用自注意力的结果。如果不使用交叉注意力预测反馈,作者可以看到反馈(用表中的'Pred Relation'表示)的性能优越于与交叉注意力(从CA)反馈。此外,当引入作者的交叉注意力预测反馈时,性能提升变得更大,因为交叉注意力的注意崩塌现象显著缓解了。
在作者的交叉注意力(cross-attention)预测反馈系统中,作者提出了利用交叉注意力的间接关系。也许你会认为一个直接的方法就是将真实值或预测区间与交叉注意力图进行匹配。但是,作者声称这种方式显著损害了用于交叉注意力的表示的多样性,主要是因為作者并不确切知道交叉注意力的应该关注的点。表5的底部展示了在ActivityNet-v1.3上的三种目标的结果。真实值或预测区间的目标(真实值称为'Ground-Truth',预测区间称为'Prediction Intervals')性能应符合预期地下降。然而,利用预测关系(Prediction Relation)的间接方法显著地提高了性能。
Conclusion
在本文中,作者发现在TAD的交叉注意力中存在注意力消失。作者发现模型在预测上呈现出明显不同于预测的模式,这是一种由注意力消失引发的自捷径现象。为此,作者提出了预测反馈DETR(Pred-DETR)来将注意力与预测对齐。通过提供具有预测引导的辅助目标,预测反馈显著缓解了注意力消失的程度。作者的广泛实验证实Pred-DETR在THUMOS14,ActivityNet-v1.3,HACS和FineAction上的DETR模型超越了最先进的表现。
参考
[1].Prediction-Feedback DETR for Temporal Action Detection.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)