TPAMI 2024 |自适应跨模态可转移对抗性攻击:从图像到视频

文摘   2024-07-16 19:00   中国香港  

点击上方“CVPaper”,选择加"星标"或“置顶

顶会论文解读,第一时间分享

Adaptive Cross-Modal Transferable Adversarial Attacks From Images to Videos

题目:自适应跨模态可转移对抗性攻击:从图像到视频

作者:Zhipeng Wei; Jingjing Chen; Zuxuan Wu; Yu-Gang Jiang

摘要

对抗性样本的跨模型迁移性使得黑盒攻击变得切实可行。然而,它通常需要访问与黑盒模型相同模态的输入才能获得可靠的迁移性。遗憾的是,在安全关键场景中,数据集的收集可能很困难。因此,开发跨模态攻击以欺骗具有不同模态输入的模型将对现实世界的深度神经网络(DNN)应用构成高度威胁。上述考虑激发了我们对对抗性样本跨模态迁移性的研究。特别是,我们旨在从白盒图像模型生成视频对抗性示例,以攻击视频CNN和ViT模型。我们引入了基于观察的Image To Video (I2V)攻击,即图像和视频模型共享类似的低级特征。对于每个视频帧,I2V通过减少图像模型上良性和对抗性帧的中间特征之间的相似性来优化扰动。然后I2V将对抗性帧组合在一起生成视频对抗性示例。I2V可以轻松扩展为同时扰动从集成的图像模型中提取的多层特征。为了有效地整合各种特征,我们引入了一种自适应方法,根据前一攻击步骤的余弦相似性值重新加权每层的贡献。实验结果证明了所提出方法的有效性。

关键词

  • 跨模态攻击
  • 可迁移攻击

I. 引言

对抗性示例已被证明是深度神经网络(DNNs)中的安全漏洞[1], [2]。它在过去几年中引起了对DNN应用安全性的大量研究关注,尤其是对于安全关键场景,例如自动驾驶[3]、面部识别[4]、视频分析[5]等。为了获得高攻击成功率,它们通常需要关于被攻击模型的先验知识,例如结构和参数。通过这种方式,它们根据损失函数相对于输入的梯度优化扰动。然而,在现实世界的应用中,先验知识可能不可用。为了解决这个问题,最近的研究转向了对抗性示例的迁移性,这意味着一个从白盒替代模型精心设计的对抗性示例有能力攻击具有未知结构和参数的其他黑盒模型[6]。当前的工作旨在减轻生成的对抗性示例对替代模型的过度拟合。具体来说,它们要么在一组增强图像[7], [8], [9]上优化扰动,要么将动量项或Nesterov加速梯度纳入梯度计算[8], [10],或者破坏不同模型之间共享的关键特征,例如低级特征[11],关键特征[12], [13]。然而,上述方法受到限制,即替代模型和被攻击模型是在同一模态的输入上训练的。相比之下,对于异模态模型之间的迁移性关注较少。

跨模态迁移性使得可以丢弃其他模态的数据集收集和注释,从而更容易地攻击训练有不同输入模态的黑盒模型。然而,现有的同模态模型中提出的可迁移攻击在跨模态场景中不适用。这是因为这些攻击通常需要标签信息来计算分类损失,以便优化扰动,而不同模态的数据集之间没有共享的标签。此外,不同数据集之间存在领域差距,尤其是对于具有不同模态的数据集。因此,模态差异阻碍了现有攻击在跨模态迁移性中获得令人满意的性能。上述分析对于图像和视频尤其正确,它们是广泛使用的数据模态。图像和视频数据之间存在领域差距和额外的时间信息,这导致了图像和视频模型之间学习到的特征存在差异。因此,本文主要研究了从图像模型到视频模型的对抗性示例的跨模态迁移性,目的是利用在ImageNet上预训练的图像模型生成视频对抗性示例,这些示例可以以高概率欺骗视频卷积神经网络(CNN)和视觉变换器(ViT)模型。

鉴于视频模型从ImageNet预训练的图像模型中受益于参数引导的事实,我们进行了实证分析,发现视频帧的中间特征在图像和视频模型之间在一定程度上是相似的。基于这一观察,我们提出了一种简单而有效的跨模态攻击方法,名为Image To Video (I2V)攻击。具体来说,I2V通过最小化从图像模型提取的中间特征的余弦相似性来优化每帧的扰动。然后,I2V将所有精心制作的对抗性帧合并在一起,生成用于攻击视频模型的视频对抗性示例。图1概述了I2V。给定一个视频片段,I2V首先将片段分割成多个帧,然后分别采用每一帧作为输入。随后,I2V扰乱中间特征以生成对抗性帧,这些帧最终被合并成视频对抗性示例。

为了进一步提高对抗性迁移性,我们将I2V攻击扩展到同时扰动集成图像模型的多层特征。这是因为多层特征比单层特征能更好地表示模型的特征空间[16],并且欺骗集成模型的对抗性示例可能以高概率迁移到攻击其他黑盒模型[10]。此外,我们还进一步提出了一种自适应方法,为每一层分配权重,而不是同等对待它们。我们的论文展示了跨模态对抗性攻击的可行性,这引起了视频模型的安全问题。我们简要总结我们的主要贡献如下:

  • 我们提出了一种新的攻击方法,名为Image to Video (I2V),以提高从图像模型到视频模型的对抗性示例的跨模态迁移性。通过建立图像和视频模型之间的桥梁,I2V使图像模型能够作为替代模型评估视频模型的鲁棒性。
  • 我们发现图像和视频模型共享类似的中间特征。因此,扰动图像模型的特征将极大地影响视频特征。
  • 为了进一步提高跨模态迁移性,我们提出了I2V的几个变体,通过同时扰动集成模型上的多层特征,并设计了一种自适应方法来重新加权每层的贡献。
  • 我们提供了广泛的实验来证明所提出的I2V攻击和自适应方法的有效性。这表明,无论是视频CNN模型还是ViT模型,都容易受到由图像CNN精心制作的对抗性示例的影响。

本文的初步版本出现在[17]。本文包括对视频识别ViTs文献的完整回顾;一种新的自适应方法,为多层攻击中的每层分配权重,以进一步提高攻击成功率;对I2V攻击的自适应版本在多层上的新比较;对现有基于迁移的攻击与所提出方法在视频ViTs上的新比较;对自适应方法权重变化的新可视化,证明了所提出方法的有效性。

III. 方法论

A. 预备知识

给定一个视频样本    真实标签为   ,其中    分别表示帧数、高度、宽度和通道数。  代表类别数。设    表示预训练在ImageNet上的图像模型(例如ResNet, VGG),  表示视频识别模型。我们用    表示视频识别模型对输入视频的预测。因此,提出的I2V攻击旨在生成对抗样本    通过   ,这可以欺骗视频模型    进入    而无需了解   ,其中    表示对抗性扰动。为确保对抗性扰动    是不可感知的,我们通过    来限制它,其中    表示    范数,  是范数约束的常数。我们采用    范数和无目标对抗攻击,这在 [7], [8], [9], [11], [12] 中常用。在白盒设置中,无目标对抗攻击的目标可以表述如下:

其中    是视频模型    的损失函数(例如,交叉熵损失)。然而,在本文中,敌手无法获取有关    的知识。提出的I2V攻击利用从    生成的对抗样本在黑盒设置下攻击  

B. 图像和视频模型之间的相关性分析

在介绍所提出的方法之前,我们首先对图像和视频模型之间的相关性进行了实证分析。先前的工作 [36] 表明,利用预训练在ImageNet上的图像模型生成试探性扰动,可以减少攻击黑盒视频识别模型的查询次数。这基本上表明图像模型和视频模型之间的中间特征在一定程度上可能是相似的。因此,对图像模型的中间特征图的扰动可能会影响到视频模型。为了验证这一假设,我们使用Centered Kernel Alignment (CKA) [37] 分析了图像和视频模型之间在良性和对抗性帧的中间特征的相似性,这是一种用于比较不同模型之间特征相似性的方法 [38], [39]。

图2显示了图像和视频模型之间中间特征的CKA值。对于所有视频模型,中间特征是从第一层提取的,而不同的图像模型,特征是从不同的中间层提取的,这些层在表I中进行了总结(用粗体标记)。这里我们选择不同的中间层用于不同的图像模型,目的是为了最大化图像特征和视频特征之间的相似性。从图2中,我们观察到,对于视频CNNs和Video ViTs,良性样本和由FGSM和BIM生成的对抗性样本的平均CKA值分别为[0.60, 0.65, 0.60]和[0.46, 0.32, 0.37]。这表明对于良性和对抗性样本,它们从图像和视频模型提取的中间层特征在一定程度上是相似的(CKA > 0.30)。这主要归因于图像和视频固有的空间信息的内在相似性。此外,视频CNNs的良性和对抗性样本的平均标准差为0.03,而视频ViTs则获得稍高的值0.06。它表明在对抗性扰动存在的情况下特征相似性的稳定性。

为了证明在特征图上的对抗性扰动在视频和图像模型之间是可转移的,我们进一步比较了在添加相同的对抗性扰动到视频帧前后图像和视频模型的通道激活幅度的变化。如图3所示,对NL-101生成的对抗样本不仅在NL-101上扰动了通道激活幅度,也在Resnet-101上产生了扰动。由于每个通道的特征捕捉了对象的特定模式,并且对最终分类的贡献不同,图像和视频模型的幅度变化很可能导致错误的预测,从而证明了在图像和视频模型之间转移对抗性扰动的可能性。此外,我们在图4中可视化了图像模型在添加由视频模型生成的扰动前后的空间特征图。这揭示了当与扰动结合时,空间特征变得带有噪声,表明视频模型生成的扰动有潜力破坏空间信息。

C. 图像到视频 (I2V) 攻击

基于上述观察,我们提出了图像到视频 (I2V) 攻击,它从预训练在ImageNet上的图像模型生成视频对抗样本,以提高跨模态模型的可转移性并在黑盒设置下攻击视频模型。通过扰动图像模型的中间特征,I2V生成对抗样本以高概率干扰黑盒视频模型的中间特征。具体来说,I2V通过以下方式优化第    帧的对抗样本:

其中    表示图像模型中第    层对    的中间特征图,  表示    的第    帧,函数    计算    和    之间的余弦相似度。

通过最小化余弦相似度,可以优化具有与良性样本特征正交的对抗样本特征。考虑到    是倒数第二层的输出,设    表示分类层的权重,因此    和    高度对齐以进行正确预测。通过最小化   ,如果    和    长度为单位长度,我们可以最小化   。由于    和    之间的高度对齐,最小化余弦相似度会使得    的值大幅度下降,以欺骗图像模型    进行错误预测。基于图像和视频模型之间的特征空间相似性,生成的对抗样本    可能通过干扰视频中间特征以高概率欺骗视频模型。

按照 [40],我们将对抗扰动    初始化为一个小的常数值   ,并使用Adam优化器 [41] 来求解 (2) 并更新   。算法1展示了所提出的I2V攻击生成对抗样本的过程。其中 I 表示Adam优化器的迭代次数,  表示将    投影到满足    的    附近。 最后,I2V攻击将所有生成的对抗帧    结合成一个视频对抗样本  

D. 多层特征攻击

融合多层特征显著提升了多个计算机视觉任务的性能 [25], [42]。这种方法激励我们开发了I2V多层特征(I2V-MF)攻击,以同时扰动图像模型的多层特征。

与最小化单层特征的余弦相似度的公式(2)不同,I2V-MF攻击优化了具有多层特征的对抗样本,如下所示:

其中    是被扰动的层。通过这种方法,生成的对抗样本破坏了浅层和深层的信息,进一步提高了可转移性。

E. 集成模型攻击

MIFGSM [10] 表明,攻击集成的多个模型可以提升生成对抗样本的可转移性。当一个生成的样本在集成的多个模型上保持对抗性时,它可能转移到攻击其他模型。基于此,我们提出使用多个预训练在ImageNet上的图像模型执行I2V攻击,称为ENS-I2V,它通过以下方式优化第    帧的对抗样本:

其中    是使用的图像模型的数量,  返回第    个图像模型的第    层的中间特征。由ENS-I2V生成的对抗帧的中间特征与良性样本的特征正交,因此ENS-I2V允许生成高度可转移的对抗样本。此外,我们可以轻松地将ENS-I2V攻击与多层特征攻击结合使用,称为ENS-I2V-MF。其目标函数定义为:

F. 自适应集成模型攻击

在ENS-I2V攻击中,每个图像模型在优化公式(4)中的贡献是相等的。然而,由于不同图像模型的特征表示不同,对抗图像特征与良性图像特征的余弦相似度值以不同的速率下降(如图11所示,并在第IV-G节中讨论)。这一发现意味着具有较高余弦相似度值的图像模型应该具有相对较高的权重,以实现其余弦相似度值的更快下降。因此,我们考虑采用自适应方法为集成模型生成权重。自适应集成模型攻击(AENS-I2V)为每个图像模型分配权重,以优化对抗样本:

其中    是第    个模型的权重。为了强调具有较高余弦相似度值的模型,我们使用前一攻击步骤中的余弦相似度值自适应地生成第    攻击步骤的权重:

其中    表示第    个模型在第    次攻击步骤中的余弦相似度值。通过这种方式,AENS-I2V攻击在每个攻击步骤中为低优化的图像模型分配更高的权重。为了进一步提高对抗可转移性,我们还可以结合AENS-I2V攻击和多层特征攻击,称为AENS-I2V-MF。它在第    步为每个层生成权重:

其中    是第    个模型的第    层的权重,  表示第    个模型的第    层在第    次攻击步骤中的余弦相似度值。因此,AENS-I2V-MF的目标函数定义为:

G. I2V 攻击之间的联系

图5总结了I2V攻击之间的联系:

  • 如果被扰动的层    属于被扰动层的集合   ,I2V 将演变为 I2V-MF,ENS-I2V 将演变为 ENS-I2V-MF,AENS-I2V 将演变为 AENS-I2V-MF。
  • 如果使用的图像模型数量    大于1,I2V 将演变为 ENS-I2V,I2V-MF 将演变为 ENS-I2V-MF。
  • 如果为每个模型分配权重   ,ENS-I2V 将演变为 AENS-I2V。
  • 如果为每个模型的每层分配权重   ,ENS-I2V-MF 将演变为 AENS-I2V-MF。

IV. 实验

A. 实验设置

  1. 数据集:我们使用UCF-101 [43]和Kinetics-400 [14]数据集来评估我们的方法,这些数据集是视频识别中广泛使用的数据集。UCF-101包含来自101个动作的13,320个视频。Kinetics-400包含大约240,000个视频,涵盖400个人体动作。

  2. ImageNet预训练的图像模型:我们在四个ImageNet预训练的图像模型上执行我们提出的方法:Alexnet [44], Resnet-101 [45], Squeezenet 1.1 [46]和Vgg-16 [47]。Squeezenet 1.1的计算量比SqueezeNet 1.0少2.4倍,参数略少,但准确率没有牺牲。这四个模型通常用于图像分类。

  3. 视频识别模型。CNN模型:我们提出的方法在三种不同架构的视频识别模型上进行评估:Non-local (NL) [15], SlowFast [24], TPN [25]。NL, SlowFast和TPN使用3D Resnet-50/101作为主干网络。我们从头开始训练这些视频模型,并在UCF-101上进行微调。对于Kinetics-400,我们从随机选择的64个连续帧中每隔一帧跳过构建输入片段。对于UCF-101,我们使用32个连续帧作为输入片段。输入的空间尺寸为224 × 224。表II总结了这六种模型在UCF-101和Kinetics-400上的最高1验证准确率。

视频视觉变换器:我们在四个视频视觉变换器上评估从图像CNN生成的对抗性示例:VTN [29], TimeSformer [33], Motionformer [34], Video Swin [32]。在测试阶段,我们每个视频采样一个片段,每个片段包含16帧,时间跨度为4/8/12。片段的空间尺寸为224 × 224。表III显示了视频ViTs在Kinetics-400上的最高1验证准确率。我们观察到,引入更多的动态线索(更大的时间跨度)会导致更高的验证准确率。然而,这些准确率比他们作品中报告的要低。这是因为他们平均了每个视频的多个片段的预测。此外,这些模型的输入时间跨度是不同的。为了使这些ViTs共享相同的输入,我们在本文中将时间跨度设置为4/8/12。这些差异共同导致了性能下降。

  1. 攻击设置:在我们的实验中,我们使用攻击成功率(ASR)来评估攻击性能,这是被黑盒视频识别模型成功错误分类的对抗性示例的比率。因此,更高的ASR意味着更好的对抗性迁移性。如果没有特别说明,平均ASR(AASR)是在所有黑盒视频模型上的平均ASR。按照[7], [9],我们从每个类别中随机抽取一个被视频CNN或ViTs正确分类的视频来进行我们的实验,并设置规范约束ϵ = 16。

B. 消融研究

我们首先研究I2V攻击中步长α、迭代次数I和不同攻击层l的效果。评估是在Kinetics-400上训练的视频CNN上进行的。这些优化的参数直接用于攻击其他视频模型。

  1. 步长和迭代次数:方程(2)通过Adam优化器求解,它可以受到步长α和迭代次数I的影响。图6显示了使用Resnet-101的Block-2作为图像模型的受扰层,使用不同的步长和迭代次数的结果。可以看出,较小的α和I有较差的AASR,因为拟合不足。而较大的α可以在较小的I下获得更好的AASR。为了获得最佳性能,我们在后续实验中采用α = 0.005和I = 60。

  1. 中间层选择:对于每个图像模型,我们从底层到顶层选择四层(如表I所示)来制作对抗性扰动。图7显示了攻击不同层的结果。攻击图像模型的中间层(第2层或第3层)比攻击底层或顶层更好。基于结果,我们攻击中间层,在表I中为每个模型用粗体标记。此外,由于中间层的高性能,我们对多层特征攻击攻击第2层和第3层。

C. 性能比较

由于异模态模型之间的迁移性从未被探索过,我们将我们提出的I2V及其变体与DR [19]进行比较,DR最初是为了增强跨任务迁移性而提出的。DR最小化了中间特征的标准差,以降低图像的可识别性。我们将DR扩展到在ImageNet预训练的图像模型上优化对抗性示例,并使用与I2V相同的Adam优化器和其他设置。

  1. 攻击视频CNN:在UCF-101和Kinetics-400数据集上攻击视频CNN的结果分别显示在表IV和V中。从结果中,我们有以下观察。首先,我们提出的攻击比DR有更高的ASR,差距很大。例如,与DR相比,I2V可以分别提高UCF-101和Kinetics-400的AASR超过63.33%和42.51%。其次,使用Resnet-101作为白盒图像模型的I2V和I2V-MF在所有其他I2V攻击中表现更好,这表明2D Resnet101和视频模型主干中的3D Resnet-101共享更相似的特征空间。第三,ENS-I2V进一步提高了平均AASR,分别对UCF101和Kinetics-400达到65.68%和77.88%。这证明了攻击一组图像模型的有效性。第四,通过引入多层特征攻击,I2V-MF,ENS-I2V-MF和AENS-I2V-MF分别比I2V,ENS-I2V和AENS-I2V表现更好。这表明扰乱多层特征有助于进一步破坏视觉信息并提高对抗性迁移性。最后,AENS-I2V和AENS-I2V-MF分别比ENS-I2V和ENS-I2V-MF表现更好。这表明将更大的权重分配给低优化层可以进一步提高性能。最后,AENS-I2V-MF,包括多层特征攻击,集成模型攻击和自适应攻击,几乎取得了最好的结果。

总的来说,我们的方法,它考虑最小化来自对抗性和良性示例的特征之间的余弦相似性,一贯地优于DR。这些实验验证了所提出攻击的有效性。

  1. 攻击视频ViTs:表VI展示了在Kinetics-400数据集上攻击视频ViTs的结果。可以看出,随着我们提出的方法的引入,结果逐渐提高。特别是,结合了多种攻击方法的AENS-I2V-MF在攻击VTN,Motionformer和Video Swin方面表现最佳。而在攻击TimeSformer时,ENS-I2V-MF的表现略好于AENS-I2V-MF。尽管这些趋势相似,但在攻击视频CNN和ViTs之间存在一些差异。首先,使用图像CNN攻击视频CNN比攻击ViTs更容易。原因是视频CNN和图像CNN共享基本的卷积结构。然而,提出的AENS-I2V-MF尽管结构不同,仍然在攻击视频ViTs时取得了平均46.83%的攻击成功率。其次,使用Resnet-101作为白盒模型的I2V在攻击视频CNN时优于攻击视频ViTs,因为视频CNN使用3D Resnet-101作为主干网络。第三,具有较大时间跨度的视频ViTs表现出较低的ASR值。具体来说,当使用AENS-I2V-MF攻击VTN时,时间跨度为12比时间跨度为4的ASR降低了6.75。总的来说,我们的方法一贯地优于DR攻击。这些结果表明视频ViTs对从图像CNN生成的对抗性示例的脆弱性。

D. 与更强基线的比较

我们进一步将提出的AENS-I2V-MF攻击与几种为同态模型(例如,图像模型或视频模型)设计的现有基于转移的攻击进行比较。值得一提的是,这些比较是不公平的,因为我们的方法不需要任何白盒视频模型就能生成对抗性扰动。在比较中,使用了几种基于转移的攻击,如FGSM [2]、BIM [18]、MI [10]、DI [7]、TI [9]、SIM [8]、SGM [11]、TAP [16]、ATA [12] 和 TT [21] 作为基线。对于这些基线,NL-101、SlowFast-101 和 TPN-101 被用作白盒模型。在ILA [20] 中已经说明,通过提出的微调方法ILAP 和 ILAF,可以进一步增强生成对抗样本的可转移性。与ILAP相比,ILAF通过保持现有的对抗方向并在L2范数下增加特征扰动的幅度,实现了更好的性能[20]。因此,对于比较的基线方法,我们使用ILAF来微调生成的对抗样本。

图8显示了比较结果。我们有以下观察结果。首先,尽管比较是不公平的,因为我们的方法不需要任何白盒视频模型,提出的AENS-I2V-MF在大多数情况下仍然比ILAF表现得更好。如图8(a)、(b)、(d)和(e)所示,在UCF-101和Kinetics-400上,AENS-I2V-MF以较大的优势超过了ILAF。其次,当使用TPN-101作为Kinetics-400上的白盒模型时,AENS-I2V-MF的性能不如TAP(图8(f))。这可能是因为Kinetics-400包含比UCF-101更丰富的运动信息,而这些运动信息不太可能被图像模型很好地捕捉。相反,通过融合多层特征,TPN-101可以更好地捕捉运动信息。因此,破坏运动信息(图8(f))可以获得更好的性能。

E. 计算效率

我们在图10中报告了我们的方法在Kinetics-400上的每秒视频数和攻击成功率(%)。集成方法(黄色箭头)和多层方法(绿色箭头)在攻击成功率上取得了显著的改进,但它们需要更多的时间来从多层或多个模型反向传播梯度。此外,所提出的自适应方法没有引入任何额外的反向传播操作,从而保持了相同的计算复杂性。

F. 对抗样本的可视化

我们进一步在图9中可视化了4个随机选择的对抗性片段。这些对抗样本是在预训练的ImageNet模型(Alexnet、Resnet、Squeezenet、Vgg)的集成上由提出的ENS-I2V攻击生成的。这些对抗样本不会影响人类的决策,但会欺骗视频模型进行错误的预测。

G. 讨论

为了实验性地证明优化目标函数(2)的有效性,我们研究了通过增加迭代次数,对抗图像/视频特征与良性图像/视频特征之间的余弦相似度的变化。皮尔逊相关系数(PCC) [48] 被用来衡量从图像和视频模型计算的余弦相似度趋势之间的线性相关性。图11显示了使用4个图像模型和视频模型(NL-101)的余弦相似度趋势的PCC分析。可以看到,所有的PCC值都接近1,这意味着图像和视频中间特征的方向变化之间存在确切的正线性关系。这表明最小化图像模型的余弦相似度可以使从预训练的ImageNet模型生成的视频对抗样本的中间特征与它们的良性视频特征正交。此外,不同的图像模型在图像和视频特征之间的余弦相似度差距也不同。具体来说,Resnet-101的余弦相似度差距较小,而Vgg-16的较大,这是由于Resnet-101和NL-101中使用的3D Resnet-101在架构上的相似性所导致的。这表明图像模型可能对扰动优化有不同的贡献。因此,我们提出了为每个层分配权重的自适应方法。

为了进一步提高对自适应方法的理解,我们还可视化了图12中每层权重的变化曲线。从图中,我们观察到Alexnet的第2层的权重随着迭代次数的增加先增加然后减少。这一观察结果表明,所提出的自适应方法通过为该层分配更大的权重有效地最小化了该层的损失。此外,所有层的权重在后期阶段趋于稳定。这表明所有层的损失相对大小基本上是恒定的。

V. 结论

在本文中,我们确定了图像和视频模型之间存在相似的特征空间,这可以用来从图像模型生成对抗样本来攻击黑盒视频模型。更具体地说,我们提出了图像到视频(I2V)攻击,它通过最小化来自对抗样本和良性样本的特征之间的余弦相似度来优化预训练在ImageNet上的图像模型上的对抗帧,以扰乱中间特征空间。此外,我们还提出了多层特征攻击、集成模型攻击和自适应方法攻击,目的是进一步提高对抗可转移性。这些攻击可以结合起来形成一个更强大的攻击方法,称为AENS-I2-MF。结果表明,即使在图像和视频领域之间,跨模态对抗可转移性也会发生。在未来,我们将把视频的时间信息结合到图像模型中,以进一步提高可转移性。

声明

本文内容为论文学习收获分享,受限于知识能力,本文队员问的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

资源下载:论文写作礼包
在「本公众号」后台回复:论文写作礼包即可下载包含论文投稿流程、写作技巧、期刊Latex模板、Response论文回复Latex模板、毕业论文Latex模板等内容的论文写作礼包。

交流群

欢迎加入公众号读者群一起和众多科研学者交流学习,群内每天推送多篇计算机领域顶刊TPAMI、IJCV等最新论文解读与分享,避免读者错过每一个学习机会。同时群内也会交流分享论文写作、投稿经验,分享期刊、会议信息等内容。请扫描下方微信二维码,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“,由小助理拉读者进群。请按照格式备注,否则不予通过请勿在群内发送广告,否则会请出群,谢谢理解~


CVPaper
这里有知识和乐趣,感悟和哲理,一起来嗨!!!
 最新文章