点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
面向教学视频中的视觉提示时间答案定位
摘要
教学视频中的时间答案定位 (TAGV) 是一项自然衍生自一般视频中的时间句子定位 (TSGV) 的新任务。给定一个未修剪的教学视频和一个文本问题,此任务旨在从视频中定位能够从语义上回答问题的帧跨度,即视觉答案。现有方法倾向于使用基于视觉跨度的预测器解决 TAGV 问题,利用视觉信息来预测视频中的开始和结束帧。然而,由于文本问题和视觉答案的语义特征之间的相关性较弱,当前使用基于视觉跨度的预测器的方法在 TAGV 任务中效果不佳。在本文中,我们提出了一种视觉提示文本跨度定位 (VPTSL) 方法,该方法为基于文本跨度的预测器引入了带时间戳的字幕。具体而言,视觉提示是一种可学习的特征嵌入,它将视觉知识带入预训练的语言模型。同时,基于文本跨度的预测器使用预先训练的语言模型从输入文本问题、视频字幕和视觉提示特征中学习联合语义表示。因此,TAGV 被重新表述为视觉答案的视觉提示字幕跨度定位任务。在五个教学视频数据集(即 MedVidQA、TutorialVQA、VehicleVQA、CrossTalk 和 Coin)上进行的大量实验表明,所提出的方法在 mIoU 得分方面远远优于几种最先进的 (SOTA) 方法,这证明了所提出的视觉提示和基于文本跨度的预测器的有效性。
论文链接:https://arxiv.org/pdf/2203.06667
论文标题:Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video
论文作者:Shutao Li, Bin Li, Bin Sun, Yixuan Weng
1.关键字
时间答案定位、教学视频、视觉提示、预训练语言模型。
2.引言
嘿,Siri,你能告诉我如何检查甲状腺吗?然后,包含正确过程的教学视频就出现在我们眼前了……最近,在线视频的出现彻底改变了获取信息或知识的方式[1],[2]。许多人发现教学视频是一种有效且高效的方式,可以通过一系列循序渐进的过程来教授或学习如何完成特定任务[3],[4],[5]。为此,提出了一种新的基于教学视频的任务时间答案(TAGV),也称为视觉答案定位[6],以找到与输入问题相对应的视频帧跨度。
如图 1 所示,给定一个文本问题“如何检查甲状腺?”,如果没有视觉演示,文本答案很难执行。相比之下,TAGV 产生了一个视觉答案,即可以用指导性口头解释回答问题的视频帧跨度。TAGV 提供视觉和口头反馈,这更容易理解 [7],并引起了越来越多的关注 [8]。在计算机视觉的众多任务中,视频问答 (VQA) [9] 和一般视频中的时间句子定位 (TSGV) [10] 与 TAGV 最相似。
VQA 任务采用与 TAGV 相同的输入(即文本问题和视频),但产生的是文本答案而不是视觉答案。除了输入文本外,TSGV 与 TAGV 几乎相同。TAGV 以问题的形式进行视觉演示,而 TSGV 则以短语或句子的形式描述视频的视觉信息。这种差异似乎微不足道,因此先驱研究利用 TSGV 方法来解决 TAGV 方法 [8]。然而,当前 TSGV 方法在 TAGV 中的表现急剧下降,这表明 TAGV 任务比 TSGV 任务更具挑战性。TSGV 任务的输入文本查询通常包含更多视频视觉内容的细节,而文本问题在语义上更加模糊和抽象。
为了深入研究 TSGV 和 TAGV 任务之间的关系,我们比较了这两个任务的语义相似度。采用视频语言预训练模型 MIL-NCE [11] 来生成输入和输出的嵌入。匹配分数被视为输入文本与相应输出视觉答案之间的语义相似度。TSGV [12] 和 TAGV [6] 的相似度分布分别绘制在图 2 (a) 和图 2 (b) 中。从比较中可以看出,问题和视频之间的语义差距远大于查询和视频之间的语义差距,这表明 TAGV 比 TSGV 更具挑战性。
为了弥合输入文本和视频之间的语义鸿沟,我们建议在 TAGV 任务中引入带时间戳的字幕,因为教学视频的字幕也包含互补和有用的信息 [13]。我们还从语义相似性分布的角度说明了我们的动机。比较图 2 (b) 和 2 (d),可以看出字幕与问题的语义相似性远高于视频。此外,由于 TSGV 任务的字幕通常与输入查询描述的动作没有密切相关,因此 TSGV 的查询字幕相似度远低于图 2 (c) 和 2 (d) 中所示的 TAGV 任务中的问题字幕相似度。因此,现有的 TSGV 研究并未考虑字幕。
在本文中,我们提出了一种视觉提示文本跨度定位 (VPTSL) 方法,其中带时间戳的字幕和视觉提示特征用于使用预训练语言模型 (PLM) 执行文本跨度定位。视觉提示是指特征嵌入,通过视觉知识增强 PLM。此外,图 3 (a) 和 (b) 说明了现有方法与我们的方法之间的差异。现有的 TAGV 方法倾向于使用基于视觉跨度的预测器来定位开始和结束视频帧,该预测器在跨模态建模后在视频帧中执行定位。与现有的方法不同,我们建议通过基于文本跨度的预测器中的对齐字幕时间线来定位答案。具体而言,VPTSL 方法首先利用提取的文本和视觉特征之间的跨模态交互。视觉突出显示模块旨在突出显示与输入问题相对应的相关帧。从视觉高亮模块获得的视觉高亮特征是一个与视频帧长度相同的向量,其中每个元素表示相应帧与输入问题的语义相关性。视觉高亮特征用作视觉提示。连同文本问题和视频时间戳字幕,它进一步输入到基于文本跨度的预测器中,在那里使用预训练语言模型学习联合语义表示。我们在图 3 (b) 中展示了所提出的 VPTSL 方法的框架。
我们的主要贡献有三方面:
据我们所知,这是首次尝试应用基于文本跨度的预测器来解决时间答案定位问题,其中文本问题、视觉突出显示特征和字幕用于视觉答案预测。 我们设计了视觉提示以利用视觉突出显示功能来增强文本特征,其中视频的口头和非口头部分在 PLM 中共同学习。 对五个教学视频数据集进行了广泛的实验,以证明所提出的 VPTSL 的有效性,其中所提出的方法大大优于其他最先进 (SOTA) 方法。
3.方法
我们针对 TAGV 任务提出了视觉提示文本跨度定位 (VPTSL) 方法,其目标是使用预训练语言模型预测与回答帧时间线匹配的字幕时间戳跨度。VPTSL 的概述如图 4 所示,它由五个部分组成:(1) 特征提取:使用相应的预训练模型分别提取文本和视觉信息。(2) 跨模态交互:通过上下文查询注意处理提取的视觉和文本特征。(3) 视频文本突出显示:使用文本问题查询视频帧以获取视觉突出显示特征。(4) 视觉提示:采用视觉突出显示特征来提示预训练语言模型,其中文本特征可以在联合学习的同时捕获视觉信息。(5) 基于文本跨度的预测器:具有视觉突出显示特征的文本标记在预训练语言模型中被编码以预测字幕时间戳跨度。前两个组成部分,即特征提取和跨模态交互,构成了现有文献 [6]、 [27] 中常见的跨模态建模策略,以实现输入视频和文本问题的良好语义表示。
3.1 跨模态建模
给定未修剪的视频 和文本问题 ,其中 和 分别是帧数和单词数。我们将详细说明特征提取和跨模态交互。
3.1.1 特征提取
对于每个视频 ,我们提取帧(每秒 16 帧),然后使用在 Kinetics 数据集 [14] 上预训练的 3D ConvNet (I3D) 获得相应的 RGB 视觉特征 ,其中 是提取的特征数量, 是视觉特征的维度。提取的特征被发送到视觉投影以获得视觉特征 。视觉投影设计为带有 dropout()的 Conv1D [60] 模块。对于文本问题部分,我们使用标记器将问题处理成标记。然后,在 DeBERTa 预训练语言模型 [15] 中对文本标记进行编码以获得文本特征 ,其中是标记化文本问题的长度,是输出编码的维度。经过线性投影后,得到最终的文本特征,其中 。
3.1.2 跨模态交互
在获得视觉特征 和文本特征 之后,我们采用上下文查询注意,它通过上下文到查询和查询到上下文的过程执行跨模态交互。注意权重 和 计算如下:
其中 , ; 和 是两个可学习矩阵。最终,上下文查询注意力的输出为:
其中 ,FFN 为单个前馈层;Concat 表示逐列连接, 表示逐元素乘法。
3.2 视频文本突出
为了更好地理解给定文本问题的视频中的语言和非语言部分,我们设计了视频文本突出显示。如图 5 所示,真实范围(即视觉答案)涵盖了语言部分,其中包含用于描述说明的字幕。然而,在教学视频中,非语言片段起着重要作用。因此,视频文本突出显示模块旨在利用非语言信息。具体来说,对于教学视频,我们将语言部分视为前景,其余部分为视频中的背景。前景是与解决文本问题相关的口语或对话,而背景由视觉效果、手势或其他有助于理解问题的非语言元素组成。视觉答案跨度扩大以涵盖语言和非语言信息,其中扩展率由超参数 控制。
为了获取与文本问题相关的视频中的语言部分,首先计算高亮真实跨度 ,如下所示
其中突出真实值跨度等于视觉答案跨度, 是结束真实值时间, 是开始真实值时间。
由于靠近真实边界的视频帧可能提供更多附加上下文 [17],我们设计了扩展高亮来覆盖视频中的那些口头和非口头帧。扩展高亮可以计算为
其中 是扩展的突出真实跨度。
3.2.1 问题感知视觉突出显示
为了确保视觉特征与文本问题相关,我们设计了问题感知视觉突出显示模块,如图 6 所示。编码的文本问题特征表示为 ,其中 。我们设计了带加权池的 SoftMax,以利用句子中每个标记的本地信息。上述过程如下所示
其中 ; 是可学习向量。
下面介绍以下步骤。
其中 。
然后,将文本问题特征广播到每个视频帧,使其与视频长度兼容。如图 6 所示,每个 与 中的特征 连接。连接后的特征表示为特征 第 行的 ,如下所示:
其中 。
然后,我们按行堆叠所有值 ,范围从 到 ,以获得特征 。
采用自注意力机制 [61],从给定文本问题的视频帧中获取全局信息。计算如下:
其中,表示可学习矩阵。
然后按如下方式计算视觉高亮特征:
其中 , 表示 Sigmoid 激活。
3.2.2 突出投影与优化
为了确保高亮特征具有与文本特征相同的维度,我们计算高亮特征的线性投影。该线性投影可以按如下方式计算:
其中 表示视觉亮点特征。
因此,可以使用二元交叉熵 (BCE) 损失函数 () 以端到端的方式优化高光损失 ,其公式如下:
3.3 视觉提示
视觉提示是指特征嵌入,用于利用视觉信息增强预训练语言模型的语义表示。具体来说,我们使用视觉突出显示特征作为视觉提示特征来提示预训练语言模型。视觉突出显示特征是一个与视频帧长度相同的向量,每个元素代表相应帧与输入问题的语义相关性。因此,视觉突出显示特征被认为是预训练语言模型中使用的视觉标记。一方面,视觉提示涵盖了可能是回答问题的关键的非语言部分。另一方面,视觉提示是在真实视觉帧的监督下学习的,这些视觉特征可以为预训练模型提供来自视频中前景和背景信息的知识[57]。
3.3.1 提示设计
如图 7 所示,给定文本问题 ,其对应的是字幕集 中的第 个视频字幕 ,我们使用视觉高亮特征 作为嵌入融合的视觉提示特征,其中具有多个字幕跨度的第 个字幕 包含 个标记, 且 。图 7 左侧部分说明了嵌入模块,包括类型嵌入、位置嵌入和词嵌入层。我们使用视觉高亮特征作为联合词嵌入的视觉标记。位置嵌入用于指出每个标记的相对位置。此外,我们使用类型嵌入(0/1)来表示文本标记和视觉标记之间的差异。上述三种类型的嵌入被加在一起,用于在预训练语言模型中进行编码。图 7 右侧显示了 Transformer 中的注意力矩阵,其中所有标记都可以参与自注意力机制。此外,我们还使用棕色来强调视觉标记的信息传递,其中视觉标记可以帮助连接语言和非语言部分。
3.3.2 提示微调
提示调整被认为是一种明智的选择,可以通过额外的知识增强预训练模型[45],[56]。直观地讲,提示特征用作与文本问题()和视频字幕()连接的视觉标记。文本序列表示为 ,其中“”中的符号“ ”表示标记的连接。[CLS] 标记作为全局语义标记放在序列的开头,而[SEP]标记用作分隔符。连接后,单词序列 用于文本跨度预测,其中每个字幕由字幕跨度分割。图7所示的嵌入模块(Emb)旨在将类型嵌入(EmbType)、位置嵌入(EmbPos.)和词嵌入(EmbWord)结合起来。通过词嵌入对序列 进行嵌入,得到文本嵌入 。最后,将文本特征 与视觉提示特征 连接起来。将连接后的特征嵌入得到视觉提示文本输入 ,用于进一步编码。
3.4 基于文本跨度的预测器
基于文本跨度的预测器旨在预测与其视觉答案相对应的字幕答案跨度。与图 3 顶部所示的基于视觉跨度的预测器的框架不同,我们建议通过查找其对应的字幕文本跨度来执行字幕答案跨度时间线预测。在本节中,我们描述了字幕答案跨度生成算法,用于从字幕集合中为每个样本选择最合适的答案跨度。采用字幕文本跨度预测来获得正确的视觉答案。 和 表示视频中回答文本问题的开始和结束时间点,() 表示与视觉答案相关的转换后的字幕跨度。
3.4.1 字幕答案跨度生成
字幕答案跨度生成旨在选择与其真实视觉答案相对应的最接近的文本字幕跨度。因此,我们设计了字幕答案跨度生成算法,用于进一步的视觉答案跨度转换。如算法1所示,我们使用集合中的第i个视频字幕来定位视觉答案最接近的开始和结束文本跨度()。如图 4 所示,真实视觉时间线为(15˜19)。该帧时间线可以转换为字幕跨度戳,位于跨度8和9()。图4所示的预测起始索引位于P8起始处,而预测结束索引位于P9结束处。因此,相应的对齐字幕戳可作为最终结果(14.91˜19.21)。接下来,我们将介绍字幕跨度预测的细节。
3.4.2 字幕跨度预测
字幕跨度预测的输入被表述为 SQuAD [62] 样式的三元组 (上下文、问题、答案),其中文本问题、视频字幕和视觉提示特征被编码在预训练的语言模型中。
令 为预训练语言模型。选择 DeBERTa 的原因是字幕的长度有时超过 512 个 标记。DeBERTa [63] 中的相对位置嵌入不受输入长度的限制,因此适合处理较长的序列。隐藏表示为
其中 , 为输入序列 的长度; 为隐藏层维度的大小。
每个标记在输入 中的字幕跨度中被分割,每个跨度都有被选中的概率。因此,隐藏表示被传递到两个单独的密集层进行跨度选择,然后是 SoftMax 函数:
其中 SoftMax 沿序列的维度应用, 且 。
输出是一个由两个指针(索引) 和 指示的跨度,这两个指针由 和 计算得出:
其中 表示起始索引, 表示结束索引。
因此,基于字幕跨度的预测可以通过交叉熵 () 优化逐个标记进行,其中最终的视觉答案跨度与文本跨度对齐。TAGV 任务的主要损失优化如下:
3.5 训练和推理
3.5.1 训练
总优化函数 设计为多损失形式,如下所示
其中 是用于调整总损失的超参数, 部分提供非语言信息,而损失 跨度涵盖语言文本信息。
3.5.2 推理
我们采用视觉突出显示功能来提示预训练语言模型,旨在覆盖文本跨度定位的非语言信息。并且,视频字幕包含视觉答案定位的口头指导。基于文本跨度的预测器在预训练语言模型对文本标记和视觉标记进行编码后进行预测。最后,我们将预测的跨度转换为相应的视频时间戳。
4.实验
在本节中,我们首先介绍实验中使用的五个教学视频数据集。然后,我们详细说明评估指标并描述比较的方法和实施细节。
4.1 数据集
4.1.1 MedVidQA
医学视频问答 (MedVidQA) 数据集[6] 是适用于医学领域 TAGV 任务的数据集,旨在针对给定的文本问题在医学教学视频中提供视觉答案。三位医学信息学专家被要求通过观看给定的视频来制定与医学和健康相关的教学问题。他们需要通过在视频中提供时间戳来定位这些教学问题的视觉答案,其中视觉答案涵盖了口头和非口头信息。
如表 1 所示,MedVidQA 数据集包含 899 个视频,其中包含 3,010 个问题和相应的视觉答案。这些视频的平均持续时间为 383.29 秒。MedVidQA 提供原始视频的字幕信息和来自 I3D 提取器的视觉特征信息。我们遵循官方数据分割,其中 2,710、145 和 155 个问题和视觉答案分别用于训练、验证和测试。词汇量、平均问题长度、平均字幕长度和平均答案长度分别为 2,760、11.81、766.84 和 62.23。比较随机方法中使用的视觉答案长度模式为 34.00。
4.1.2 TutorialVQA
教程视频问答 (TutorialVQA) 数据集 [64] 旨在针对给定的文本问题,在图像编辑软件教学视频中提供各种粒度的教学细节。注释者需要将每个视频分成多个片段,以便每个片段都可以作为输入的人工编写问题的参考答案。每个句子都与开始和结束时间戳相关联,可用于访问相关的视觉信息。但是,带字幕的时间戳跨度在回答时可能缺乏视觉细节。因此,我们根据片段进一步修改了边缘上答案的开始时间和结束时间,包括非语言和语言部分。
表 1 所示的 TutorialVQA 数据集包含 76 个视频,包含 6,195 个问题和相应的视觉答案。平均持续时间为 94.63 秒。TutorialVQA 还提供原始视频的字幕信息和视觉特征信息,其处理方式与 MedVidQA 相同。我们按 8:1:1 的比例拆分数据集,其中 4,673、794 和 728 个问题和视觉答案用于训练、验证和测试集。词汇量、平均问题长度、平均字幕长度和平均答案长度分别为 3,077、9.02、646.91 和 43.02。视觉答案长度的众数为 26.87。
4.1.3 VechicleVQA
车辆视频问答 (VehicleVQA) 数据集 [65] 旨在针对给定的文本问题,为车辆领域的教学视频提供视觉答案。该数据集是通过几个过程创建的:(i) 视频提取、(ii) 视频分割和 (iii) 问题注释。这些视频可以在福特汽车公司的 YouTube 频道上找到,其中包含各种 Howto 视频,介绍了车辆的一组功能和操作。需要 Amazon Mechanical Turk (AMT) 来收集视频片段的手动编写问题。与 TutorialVQA 类似,我们进一步细化了答案时间点的边缘,以确保视觉答案包含口头和非口头部分。
如表 1 所示,VehicleVQA 数据集包含 107 个视频,其中有 8,632 个问题和相应的视觉答案。这些视频的平均持续时间为 89.77 秒。VehicleVQA 数据集提供字幕信息和视觉特征信息,其处理方式与 MedVidQA 相同。我们将数据集分为 7,585、948 和 949 个问题集,以及它们的视觉答案作为训练集、验证集和测试集。词汇量、平均问题长度、平均字幕长度和平均答案长度分别为 3,329、9.32、472.51 和 24.21。视觉答案长度的众数为 17.12。
4.1.4 CrossTalk
CrossTalk 数据集 [3] 包含从 YouTube 收集的烹饪、车辆和自己动手 (DIY) 领域的教学视频。请注意,CrossTalk 数据集中的样本包括许多简短的动作剪辑,没有任何操作方法说明。这些动作剪辑有时用短语注释,不适合 TAGV 任务。由于视觉答案是由一系列带有清晰口头解释的分步指导程序定义的,我们通过以下过程过滤原始数据集:(i) 找到具有相应口头解释的有效视频并删除简短且无意义的动作剪辑,(ii) 在目标剪辑内重写问题,(iii) 细化视觉答案的界限以确保口头和非口头部分。
因此,表 1 所示的 CrossTalk 数据集包含 3,412 个视频,其中有 13,510 个问题和相应的视觉答案。这些视频的平均持续时间为 238.54 秒,数据集被分割为 10,808、1,351 和 1,351 个作为训练集、验证集和测试集。词汇量、平均问题长度、平均字幕长度和平均答案长度分别为 3,670、9.91、593.86 和 32.22。视觉答案长度的众数为 25.51。
4.1.5 Coin
Coin 数据集 [4] 包含 12 个指定领域内的 180 个不同任务,包括护理、车辆、电器、烹饪等,这些任务均来自 YouTube。Coin 数据集采用分层结构组织,其中第一层是领域,第二层和第三层是任务和相应的操作步骤。这些步骤可以呈现为短视频片段,用短语描述,无需进一步的口头解释。由于这些样本不能直接应用于 TAGV 任务,我们使用与 CrossTalk 数据集相同的操作过滤了原始数据集。
最后,表 1 所示的 Coin 数据集包括 9,105 个视频,其中包含 23,252 个问题和相应的视觉答案。这些视频的平均持续时间为 156.42 秒,数据集被分割为 17,776、2,738 和 2,738 个作为训练集、验证集和测试集。词汇量、平均问题长度、平均字幕长度和平均答案长度分别为 3,714、10.84、684.79 和 38.89。视觉答案长度的众数为 31.19。
4.2 评估指标
遵循先前的研究 [6]、[20]、[27]、[66]、[67],我们采用“”和“”作为评估指标,将视频中帧的定位视为跨度预测任务。“”表示预测的视觉答案跨度与地面实况的交并比 (IoU),其中重叠部分在前 n 个检索到的时刻大于 。“mIoU”是所有测试样本的平均 IoU。在我们的实验中,我们使用 和 。计算公式如下:
其中 和 代表第 个样本的不同跨度。
4.3 比较方法
我们比较了各种具有竞争力的最先进的方法,主要分为五种类型:单阶段、双阶段、基于强化学习 (RL)、基于文本和多模态预训练方法。根据工作 [6],我们引入了基于随机的方法来表示 TAGV 任务的难度。下面介绍上述方法。
基于随机的方法 [6] 包括两种随机主动方法,即随机模式和随机猜测。前者根据在验证数据集中观察到的视觉答案长度的模式值来预测答案跨度,而后者则是随机猜测答案跨度。
单阶段方法直接使用视觉预测器预测或回归目标视频帧跨度。VSLBase [27] 是一个标准的基于视觉跨度的 QA 框架,其中视觉特征类似于文本段落的特征,目标时刻被视为答案跨度。TMLGA [26] 是一个带有动态过滤器的模型,设计软标签来应对注释的不确定性。VSLNet [27] 通过查询引导的突出显示策略增强了 VSLBase 模型。VSLNet-L [29] 结合了多段问答 [68] 中的概念,通过应用多尺度拆分和连接策略来解决长视频的性能下降问题。ACRM [28] 引入了一个利用内部视频帧的注意模块,它会自动将隐藏特征分配给具有更丰富语义信息的查询文本。RaNet [69] 表示关系感知网络,采用图卷积 [70] 在模态内和模态间交互之间进行跨模态推理,从受阅读理解 [71] 启发的预定义答案集合中进行时刻选择。MS-2D-TAN [72] 表示多尺度时间邻接网络,使用 2D 时间图对相邻时间上下文进行编码以进行时刻定位。SDN [73] 设计了语义解耦和跨层级聚合模块,以多层级语义捕获视频文本上下文。Hisa [74] 专注于视频内纠缠和视频间连接,提出交叉引导对比以获得用于时间位置回归的判别视频和查询表示。MGPN [75] 设计了细粒度编码器和条件交互模块,以利用多粒度级别的语义信息。CRNet [30] 通过新提出背景抑制模块、剪辑级交互和 IoU 注意机制,进一步增强了 RaNet,利用了多粒度级别的综合关系。
两阶段方法采用单独的方案(例如,滑动窗口)来生成矩候选,然后将它们与查询语句进行排序以进行预测。我们选择最新的竞争方法进行比较。MMRG [76] 开发了一种双通道关系图预训练策略,可捕获对象关系和短语关系,并使用多尺度滑动窗口进行边界回归。BPNet [77] 利用 VSLNet 生成多个高质量矩提议,并通过匹配分数评级层对候选者进行重新排序。SLP [78] 建议首先选择以查询为条件的最相关帧,然后计算最佳匹配的帧,同时使用双向浏览模块过滤掉不相关的帧。
基于强化学习的方法将 TAGV 任务制定为类似于 TSGV 任务的顺序决策任务。MABAN [32] 利用多智能体策略确定目标时刻的两个时间边界点。在每个步骤中,负责起点和终点的智能体接收状态向量。然后,它们在优化的方向上修改和缩放时间边界,这使得时刻选择更加灵活和以目标为导向。URL [33] 进一步提出了一种顺序更新策略,以通过持续的多任务学习来训练鉴别器。对抗性学习也用于增强时刻排序和定位性能。
基于文本的方法仅使用从视频中提取的文本信息。RoBERTa 模型 [79] 和 MPNet 模型 [80] 均与 sentence-transformers 框架 [81] 一起使用,用于匹配文本问题查询的每个字幕句子,其中预测的匹配跨度被转换为视频时间线。MoR [82] 是一种多输出回归方法,用于计算每个转录文本的文本问题相似度。PD [82] 是峰值检测,它将上述基于文本的方法与文本问题和转录答案文本之间的相似度得分相结合,其中采用带有 RoBERTa 的随机森林回归模型来预测答案的开始时间和持续时间。
多模态预训练方法利用 VTP 获得联合 VL 语义表示。我们选择在教学 HowTo100M 数据集上预训练的 VTP 方法进行进一步比较,包括 VideoBERT [35]、MIL-NCE [11]、HERO [38]、DecemBERT [40] 和 All-In-One [41]。具体来说,我们通过用预训练方法替换原始的文本和视觉特征提取器来重新训练 VSLNet [27] 和 CRNet [30] 方法。
4.4 实现细节
为了公平比较,我们分别使用文本和视觉特征,确保方法的输入多模态特征相同。具体来说,对于文本特征,我们使用 DeBERTa-v3-large [15] 作为预训练语言模型,该模型源自 DeBERTa [84] 模型,具有 24 层和 1024 个隐藏层大小。DeBERTa 有各种主干版本(即基础版和大型版)和一个包含 128K 个 token 的词汇表。对于视觉特征,所有实验方法均采用 I3D 特征 [14] 作为视觉输入。
我们实现了 youtube_transcript_api 来从相应的视频中提取每个字幕。原因是视频帧可能包含回答问题文本的文本信息,而口头指示可以为答案定位提供强有力的指示 [82]。获得的字幕记录通常只是一组单词,根据说话者在视频中的停顿而不是完整的句子进行拆分。
我们按照原始论文的实验设置在 8 个 NVIDIA A100 GPU 上使用 Pytorch 复现了所有方法,其中所有实现都使用 hugging-face [85] 框架。更具体地说,对于这些实现,我们使用 AdamW [86] 作为优化器,并将学习率设置为 1e-5 并进行预热 [87]。训练周期设置为 32,批量大小为 4。此外,我们将最大长度设置为 1,800,并删除多余的部分。学习率和梯度剪裁的线性衰减为 1e-6,dropout [88] 设置为 0.1,用于防止过度拟合。
对于 DeBERTa-v3-large 中重新启动的层,我们将所有隐藏层的维度设置为 dh = 1024(对于基本版本,dh = 768),而卷积层 [89] 的核大小设置为 7。多头注意力 [39] 的头部大小为 32。基于文本跨度的预测器使用另一个 DeBERTa-v3-large 预训练语言模型初始化,其中字幕对所提出的方法至关重要。对于所提出的 VPTSL 方法的可学习变量,我们实现了 xavier 均匀 [90] 方法来实现正态分布初始化。
对于所有使用视频帧进行视觉跨度预测的比较方法,我们比较了它们在有(有)或没有(没有)相应带时间戳字幕的情况下的性能。具体来说,原始实现使用文本问题作为查询来匹配 TAGV 任务的视觉答案跨度。为了在这些方法中使用带时间戳的字幕,我们将文本问题和字幕与 [SEP] 分隔符连接起来,用于查询跨模态建模的视觉帧。开始帧和结束帧是通过基于视觉跨度的预测器获得的。
对于多模态预训练方法,我们使用 VSLNet 作为时间答案基础基线,并使用 CRNet 作为竞争性 SOTA 方法,通过用每个比较的预训练模型替换特征提取器来评估相应的性能。
在实验数据集中,每个视频被专门分配给训练集、验证集或测试集,并且这些数据分割之间没有重叠。所有比较方法的超参数都在有效集上进行调整。在每个训练周期结束时,我们在有效集中进行测试,并选择得分最高的模型(主要取决于 mIoU)在测试数据集中进行预测。对于表现不佳的方法,我们在表格中的相应位置使用占位符“-”。整个实验实施重复了三次,然后在测试集中报告。
5.实验结果
5.1主要结果
5.1.1 基于随机、单阶段、双阶段和基于 RL 的方法的比较
表 2 显示了在五个 TAGV 数据集上与基于随机、一阶段、两阶段和基于 RL 的方法进行性能比较的实验结果。基于随机的方法在 TAGV 任务中表现出较低的准确率,这反映了任务的难度。进一步的结论是,我们的方法在数据集的所有指标上都大大优于每种比较方法,包括 IoU= 0.3、0.5、0.7 和 mIoU 分数。具体而言,在单域(MedVidQA、TutorialVQA 和 VehicleVQA)和多域数据集(CrossTalk 和 Coin)上取得的更好结果表明我们的方法具有更强的泛化能力。一阶段方法的表现优于其他方法,即两阶段和基于 RL 的方法,这证明了基于视觉帧跨度的预测的有效性。所提出的文本跨度预测器的性能优于单阶段 SOTA 方法 CRNet,mIoU 得分分别为 25.96、25.44、34.8、14.67 和 9.94,表明文本预测器优于使用视频帧执行定位的现有方法。原因可能是强大的预训练语言模型可以从给定文本问题的字幕中利用更强的语义。此外,我们还将字幕添加到采用视觉帧预测的每个比较方法中,其中文本问题与视频字幕与 [SEP] 连接以获得文本输入。文本特征在我们的方法中使用的 DeBERTa-v3-large [15] 模型中编码,以进行公平比较。可以发现,通过字幕增强可以改善最终结果。然而,所提出的 VPTSL 方法仍然比这些修改后的比较方法取得了显着的改进,证明了视觉提示和基于文本跨度的预测器的有效性。
5.1.2 基于文本的方法的比较
我们还介绍了与基于文本的方法进行比较的实验,这些方法仅使用文本记录来执行相似性问答匹配。在五个 TAGV 数据集上比较这些方法的性能的实验结果如表 3 所示。我们使用基本版本(即 DeBERTa-v3-base [15])初始化 VPTSL 方法,以便与基于文本的方法进行公平比较。基于文本跨度的方法优于句子匹配方法,证明了所提出的基于文本跨度的预测器的优势。进一步的观察表明,我们的方法在 mIOU 分数上分别比 SOTA 基于文本的方法 (PD (Ensemble) + MoR) 好 21.66、16.31、15.25、5.57 和 4.92。此外,我们通过选择与问题匹配度最高的字幕并对其进行扩展(例如,在相似度高于最大相似度β时保留此字幕)来增强基于文本的方法。即便如此,我们的方法在mIOU得分上仍然分别比增强方法高出19.09、11.91、11.83、3.42和2.89。这些改进的原因可能来自两个方面。一方面,纯文本方法缺乏非语言部分的建模,导致预测答案不一致。这种不一致主要表现在预测答案的长度较短[82]。另一方面,问题和每个成绩单缺乏信息交互。预测的答案位置可能会因单个成绩单中的噪声而偏离,从而很难找到最相似的文本成绩单。我们的方法可以解决上述问题。具体来说,我们提出了视觉提示,以进一步对预训练语言模型中的口头和非口头信息进行建模。此外,我们采用了文本跨度预测器,其中整个记录可以被视为用于定位答案跨度的文本段落。它可以减轻每个记录的噪音,从而从全局语义角度更精确地定位答案。
5.1.3 多模态预训练方法的比较
此外,我们还展示了与用预训练模型替换视觉和文本特征提取器的多模态预训练方法的比较实验。表 4 显示了在五个 TAGV 数据集上对多模态预训练方法进行比较的实验结果。我们的方法仍然比这些 VTP 方法取得了很大的进步。所提出的基于文本跨度的方法可以更好地利用口头和非口头信息来执行 TAGV 任务。进一步的结论是,即使使用更大的数据集进行预训练,当前流行的 VTP 方法的性能也可能不如单独预训练的方法。例如,带有 DecemBERT 的 VSLNet 在 MedVidQA 数据集上的 mIoU 得分达到 22.07,比单独预训练的对应方法低 0.16 个值。尽管如此,多模态预训练方法仍然可以为下游基于视觉跨度的预测器提供更好的联合语义表示。具体来说,在五个数据集上,SOTA 单独预训练方法 (CRNet) 与最佳多模态预训练方法 (All-In-One) 在 mIoU 得分上分别比原始方法高出 2.23、3.07、2.05、2.08 和 2.35。即使配备了单阶段 SOTA 方法 CRNet,现有的 VTP 方法在 TAGV 任务上仍然不尽人意,无法在五个教学视频数据集上实现更大的性能提升。未来,一个可行的尝试是设计一种针对 TAGV 任务的 VTP 方法,在学习良好的特征表示的同时兼顾下游任务的性能。
5.2 消融研究
我们的方法基于预训练语言模型,其中文本编码器用预训练语言模型初始化。请注意,我们在表 2 中显示的 MedVidQA 数据集上的实验结果高于工作 [6]。原因是我们使用更强大的预训练语言模型初始化文本编码器。因此,我们首先研究预训练语言模型在基于视觉跨度的方法中的有效性。基于视觉跨度的方法(即 VSLBase 和 VSLNet)是否采用预训练语言模型(即 DeBERTa-v3-large)的结果如表 5 所示,其余结果与工作 [6] 一致。我们可以看到,仅使用 word2vec [91] 来初始化文本嵌入层会获得较差的性能。具体来说,用于文本特征提取的 PLM 可以改善问答语义理解,从而分别提高 VSLBase 和 VSLNet 的性能。它表明,用于文本特征提取的预训练语言模型可以改善此 TAGV 问题中基于视觉跨度的方法的视频理解。
然后,我们在五个 TAGV 数据集上研究了所提方法的每个组件的消融情况,如表 6 所示。具体而言,对于无高亮损失,我们从训练的总损失中去除了高亮损失。对于无视觉提示,我们使用问题和带时间戳的字幕来实现基于文本跨度的预测器进行文本跨度预测。观察结果表明,当没有高亮监督时,五个 TAGV 数据集的 mIoU 分数分别下降了 1.14、1.23、2.77、2.31 和 1.78。所提出的视觉提示可以使五个 TAGV 数据集的 mIoU 分数分别提高 4.16、5.83、3.66、2.76 和 2.25。此外,即使没有视觉提示,我们的方法仍然优于其他比较方法,这归功于所提出的基于文本跨度的预测器。这些改进证明了所提出的组件的有效性。
我们还展示了使用不同嵌入特征融合方法的消融研究,如表 7 所示。文本跨度定位 (TSL) 表示所提出的基于文本跨度的预测器,没有视觉提示。TSL 可以组合不同的嵌入特征融合模块,例如逐元素加法、逐元素乘法、注意机制 [61]、特征投影加法 [83] 和所提出的视觉提示。观察结果表明,与原始方法相比,逐元素乘法产生的结果较差。该方法逐元素融合了视觉和文本特征,这可能会给基于文本跨度的定位引入噪音。逐元素加法和注意机制的引入将对原始方法带来改进,这表明视频中的视觉特征确实有助于提高性能。特征投影加法使用每个视频帧作为输入特征,并与输入字幕文本连接起来,以进行最终的答案跨度定位。改进结果表明,视频帧信息可以为增强PLM提供更多的视觉语义。与上述方法相比,提出的视觉提示方法可以使用视觉特征作为视觉标记,并通过自注意机制学习PLM中的口头和非口头部分,从而有效提高模型在五个TAGV数据集上的性能。
最后,我们在三个单域TAGV数据集上对提出的VPTSL的超参数α和λ进行了消融研究,分别如图8、图9和图10所示。结论是,在MedVidQA数据集上,和的最佳超参数分别为0.25和0.1,在TutorialVQA数据集上,和的最佳超参数分别为0.3和0.1,在VehicleVQA数据集上,和λ的最佳超参数分别为0.3和0.1。随着扩展时间超参数变大,最终预测结果的性能会降低,这可能是由于非语言部分影响了对输入文本的理解。同时,当速率小于0时,文本输入范围不足,导致性能受损。此外,所提出方法的视觉提示损失的权重可以帮助平衡训练过程。与没有视觉监督的情况相比,视觉信息可以为预测提供更多的背景信息。
5.3 案例研究
我们展示了图 11、12 和 13 中所示的 TAGV 任务案例研究,这些案例研究来自 MedVidQA、TutorialVQA 和 VehicleVQA 数据集。我们可以看到,所提出的 VPTSL 比其他 SOTA 方法具有更好的性能,其中所提出的基于文本跨度的预测器可以预测更精确的字幕跨度。此外,我们比较了是否在我们的方法中使用所提出的视觉提示的性能。可以进一步得出结论,视觉提示可以带来改进,可以预测更多的视觉细节。此外,视觉提示可以为文本跨度预测带来更多的视觉信息,从而产生更精确的结果。
此外,我们还提供了所提方法的编码转换器层中注意特征的可视化。横坐标表示注意矩阵中的查询序列,纵坐标表示关键序列。直观地看,这些带有或不带有视觉提示的可视化可以洞察提示的功能。如图 11 所示,红框显示了注意矩阵中的语义差异,其中视觉提示可以桥接与包含口头和非口头部分的非相邻字幕的权重连接,以便更好地理解视频。图 12 中的红框显示,视觉提示可以从真实跨度内的相邻字幕(字幕 2 和 3)中吸引更多注意力,以便更好地理解内容。图 13 中的红框显示,视觉提示可以影响真实字幕跨度(字幕 2、3 和 4)的注意力权重分布,以获得更好的预测答案。这些结果证明了所提出的视觉提示的有效性,可以进行更精确的视觉答案预测。
6.限制
我们的方法基于基于文本跨度的预测器,其中 PLM 和字幕对于所提出的方法至关重要。为了探索所提出方法的局限性,进行了无 PLM 和无字幕实验。对于无 PLM,我们使用相同大小的模型并随机初始化模型参数,而不是加载预训练的语言模型权重。对于无字幕,我们使用基于文本跨度的预测器进行训练,用占位符替换所有输入字幕。如表 8 所示,可以发现,当删除预训练语言模型时,文本跨度预测能力会大大受损。对于无字幕的方法,神经网络在训练过程中无法收敛,导致结果更差。我们方法的局限性总结如下。(1)在 MedVidQA、TutorialVQA 和 VehicleVQA 数据集中,分别约有 1.5%、2.7% 和 1.9% 的视频无法提取字幕。对于没有字幕的问题,VPTSL 无法执行文本跨度预测。(2)改进仍然来自预训练语言模型强大的文本语义理解能力。(3)在我们的实验中,大约 93.6% 的总样本的答案在截断的字幕中,3.4% 的样本在裁剪的字幕中找不到答案。我们的方法依赖于字幕,其性能可能受到字幕长度的限制。缓解上述限制的一种可行且有希望的方法是基于大量视频和长文本对设计多模态预训练方法,我们将这些留待将来的工作。
7.总结
在本文中,我们提出了视觉提示文本跨度定位 (VPTSL) 方法,以充分利用文本和视觉语义表示的互补信息,为教学视频 (TAGV) 中的时态答案奠定基础。为此,我们对跨模态信息进行了建模,并提出了视觉提示来增强预训练语言模型。基于文本跨度的预测器旨在为字幕跨度预测建模文本和视觉特征。我们比较了几种最先进的方法,包括一阶段、两阶段、基于 RL、基于文本和多模态预训练方法。在五个 TAGV 数据集上对所提出方法的主要结果、消融和案例研究显著地证明了 VPTSL 的有效性。未来,还有待探索基于多模态的方法,该方法在大量教学视频上对 TAGV 任务进行预训练。