【极简综述第二期30】多模态人脸反欺诈

文摘   2024-10-18 08:00   广东  

多模态人脸反欺诈综述

余梓彤           陈昌盛

大湾区大学      深圳大学


人脸反欺诈(Face Anti-Spoofing)[1]近来因其在保护人脸识别系统免受呈现攻击(Presentation Attack)方面发挥的重要作用而受到越来越多的关注。随着越来越多具有新型的逼真呈现攻击的出现,基于可见光(RGB)单模态的人脸反欺骗方法由于其有限的表示能力而变得不可靠。随着多模态成像采集设备的成本降低与普及,近十年大规模多模态学术数据集涌现,多模态人脸反欺诈取得了显著的表现并主导了这一领域。然而,该领域的现有方法主要集中在手工制作的特征上,这些特征已经过时,对多模态人脸反欺诈社区的进步没有启发性。在本文中,为了促进未来的研究,我们首次全面回顾了基于深度学习的多模态人脸反欺诈的最新进展。

1. 多模态人脸反欺诈背景与数据集


现有的人脸识别系统容易受到打印照片、屏幕重放、妆容变换、佩戴3D面具等呈现攻击威胁。根据攻击者的意图,人脸呈现攻击可分为两种典型情况:1)冒充(impersonation)攻击:即将真实用户的面部属性复制到照片、电子屏幕和 3D面具等特殊介质上,从而使用欺诈手段被识别为其他人;2)混淆(obfuscation)攻击:使用眼镜、化妆品、假发和伪装脸部等各种方法隐藏或删除攻击者自己的身份。根据几何特性,人脸呈现攻击大致分为2D和3D攻击。2D攻击通过使用照片或视频向传感器呈现面部属性来执行。平面/包裹式打印照片、眼睛/嘴巴剪切照片和视频屏幕重放是常见的2D呈现攻击。随着 3D 打印技术的成熟,3D面具已成为威胁人脸识别系统的新型呈现攻击。与传统的2D呈现攻击相比,面具在颜色、纹理和几何结构方面更加逼真。3D面具由不同的材料制成,例如,刚性面具可以由纸、树脂、石膏或塑料制成,而柔性软面罩通常由硅胶或乳胶制成。考虑到面部区域覆盖,人脸呈现攻击也可以分为全部(whole)或部分(partial)攻击。与覆盖整个面部区域的常见攻击(例如,印刷照片、视频重放和 3D 面具)相比,一些部分攻击仅针对特定的面部区域(例如,部分剪切印刷照片、眼睛区域佩戴的滑稽眼镜和脸颊区域的部分纹身),这些攻击更加隐蔽且更难以检测。  
 

图1 WMCA数据集[11]中的可见光RGB、深度、红外和热力等多种模态真实人脸与呈现攻击


为了确保人脸识别系统的安全,学术界和工业界都广泛关注开发人脸反欺诈技术及数据集。然而,高安全性场景(如人脸支付和金库门禁)需要非常低的误识率,受限于特征表达能力及泛化性,基于单模态RGB可见光的人脸反欺诈技术难以满足需求。因此,近年来社区搭建了基于各种模态的先进成像及声学传感器的数据集,以促进超安全的人脸反欺诈。如图1所示,相比于可见光RGB模态,深度、红外和热力模态可为区分真实人脸与呈现攻击样本提供额外反欺诈线索。以下将简述多模态人脸反欺诈中不同模态数据的特性与优劣。主流品牌的手机(如 Apple iPhone、三星、OPPO和华为)中一般嵌入深度传感器,包括飞行时间 (Time of Flight,TOF)或3D结构光。它们为2D 欺诈检测提供了捕获人脸的精确 3D 深度分布。与3D结构光相比,TOF对照明和距离等环境条件更具鲁棒性。相比之下,近红外模态是可见光之外的互补光谱(900至1800nm),它有效地利用了真人和欺诈人脸之间的反射差异,但在远距离成像质量较差。此外,可见光-近红外集成硬件模块对于许多门禁系统具有很高的性价比。同时,波长为940nm和1450nm波段的短波红外[13]通过测量表面水分吸收及反射率将面部图像中的活体皮肤材料与非皮肤像素区分开来。通过热力仪采集的热成像模态可描述面部温度估计,但对检测透明面具攻击并不可靠。另外,与纯视觉成像模态擅长于描述人脸外观纹理信息相比,通过手机扬声器和麦克风(频段12kHz-21kHz)的声学模态[15]可捕捉人脸表面几何信息。 
 

表1 多模态人脸反欺诈数据集总览

数据集

年份

真实

欺诈

个体

模态类型

设定

攻击类型

3DMAD [2]

2013

170视频

85视频

17

可见光、深度

3个场景

面具(纸,树脂)

3DFS-DB [3]

2016

260视频

260视频

26

可见光、深度

角度丰富的头部运动

面具(塑料)

BRSU [4]

2016

102图像

404图像

137

可见光、短波红外

具有4个波段的多光谱短波长红外

面具(硅胶、塑料、树脂、乳胶)

Msspoof [5]

2016

1470图像

3024图像

21

可见光、近红外

7个环境条件

黑白打印(平面)

MLFP [6]

2017

150视频

1200视频

10

可见光、近红外,热力

室内和室外,固定和随机背景

面具(乳胶、纸)

ERPA [7]

2017

总共86视频

5

可见光、深度、近红外、热力

拍摄对象距离 2 种相机较近(0.30.5 米)

打印(平面)、重放(显示器)、面具(树脂、硅胶)

CSMAD [8]

2018

104视频

159视频

14

可见光、深度、近红外、热力

4个光照环境

面具(定制硅胶)

3DMA [9]

2019

536视频

384视频

67

可见光、近红外

48不同ID面具;2种照明和4种捕捉距离

面具(塑料)

CASIA-SURF [10]

2019

3000视频

18000视频

1000

可见光、深度、近红外

删除背景;随机剪切眼睛、鼻子或嘴巴区域

打印(平面、扭曲、切片)

WMCA [11]

2019

347视频

1332视频

72

可见光、深度、近红外、热力

6个具有不同背景和照明的场景

打印(平面)、重放(平板电脑)、局部(眼镜)、面具(塑料、硅胶和纸、人体模型)

CeFA [12]

2019

6300视频

27900视频

1607

可见光、深度、近红外

3个种族;户外和室内;带假发和眼镜的装饰

打印(平面、扭曲)、重放、面具(3D 打印、硅胶)

HQ-WMCA [13]

2020

555视频

2349视频

51

可见光、深度、近红外、热力、短波红外

4种近红外波长和 7 种短波红外波长;面具和人模加热至体温

激光或喷墨打印(平面)、重放(平板电脑、手机)、面具(塑料、硅胶、纸、人模)、化妆、局部(眼镜、假发、纹身)

PADISI-Face [14]

2021

1105视频

924视频

360

可见光、深度、近红外、热力、短波红外        

室内,固定绿色背景

打印(平面)、重放(平板电脑、手机)、局部(眼镜、有趣的眼睛)、面具(塑料、硅胶、透明、人模)

Echo-FAS [15]

2022

250000 声学信号片段

30

可见光、声学

4个环境变量:设备、距离、环境噪音和音调

打印(平面)、重放、面具(纸张打印、扭曲、半脸)

Echoface-Spoof [16]

2024

82715图像和声学

166637图像和声学

30

可见光、声学

4种采集设备,3种采集距离,3种环境噪声

打印(平面)、重放


现有多模态人脸防欺诈数据集的详细信息如表1所示。早期(即 2013-2018年)的大多数据集仅包含简单记录条件(例如室内场景)下的少数攻击类型(例如打印和少量材质面具),这些攻击类型在用于可泛化的反欺诈模型训练和评测的多样性有限。随后,数据集进展有两个主要趋势:1)大规模数据量。例如,CASIA-SURF [10] 和 CeFA [12] 分别包含18000和27900个呈现攻击视频;2)攻击类型多样。例如,WMCA[11]、HQ-WMCA[13]和PADISI-Face[14]中分别采集了7种、10种和9种细粒度攻击类型。这些因素共同促进了多模态人脸反欺诈领域技术在学术研究和工业应用方面的发展。 

2 多模态人脸反欺诈方法


2.1 基于可见光多线索融合的人脸反欺诈


经典的基于可见光的单模态单线索人脸反欺诈方法包括基于配合式的动态活性线索(如眨眼和摇头等)[17]、基于外观细节线索(即颜色和纹理)[18]、基于几何3D分布线索(即深度分布)[19]和基于远程生理信号线索(如远程光电容积脉搏波(rPPG))[20]等。然而,依靠可见光的单一欺诈线索表征,往往难以泛化到新型的应用场景与欺诈攻击方式。因此,由于其无需借助特殊的传感设备,基于可见光多线索融合的人脸反欺诈方法逐渐引起关注。

受到人类材料感知理论的启发,Yu等人[21]设计了新型卷积算子与模型架构来获取人脸的外观纹理线索、伪深度线索和伪光反射线索,并加权融合三者的预测结果来增强反欺诈系统的鲁棒性。由于基于可见光的外观线索难以区分高逼真度的面具攻击,而远程生理rPPG线索容易出现在屏幕重放攻击里,故Li等人[20]探讨了基于rPPG和外观纹理的并行多线索融合欺诈检测与串行多线索轮流欺诈检测框架,能同时对2D和3D呈现攻击进行较为可靠地检测。然而,手工设计的线索提取算法和粗糙的融合方式限制其性能。为了更好地增强rPPG欺诈线索与融合效果,Yu等人[22]将面部提取到的多尺度时空生理信号图转化到小波域,并提出针对多线索的层归一化、块归一化的权值叠加融合策略。受益于对比视觉语言预训练模型CLIP的零样本强泛化性能,近期不少工作[23,24,25]引入文本线索,对真实/欺诈样本里的类别、属性、环境等信息进行精细描述,并辅助学习更鲁棒的视觉语言对齐特征。Srivatsan等人[23]基于专家领域知识设计了反欺诈任务关联的文本提示,对视角增广后的视觉特征与文本提示特征进行视角一致性约束与对比学习,提升其跨域泛化性能。针对上述手工文本提示设计困难和次优的问题,Liu等人[25]引入了视觉线索驱动的文本提示学习,能自适应地挖掘真实/欺诈关联的文本线索,并对齐于视觉线索,使人脸反欺诈更鲁棒。   

       目前的基于可见光多线索融合的方法大多依赖于人工提取的额外线索(如伪深度图、伪反射图、rPPG信号、文本提示线索),但上述方法仍存在一些问题。一方面,这些线索也容易受到域偏差和新型攻击方式的影响。另一方面,由于多种线索是异态的,如果进行有效地对齐或融合至关重要。因此,后续研究工作也关注如何进行更稳健的线索表征和更高效的信息融合。

2.2 基于多传感模态融合的人脸反欺诈


随着硬件制造降低和集成技术的发展,多传感模态融合的人脸反欺诈系统在实际应用中得到越来越多的应用。同时,基于多模态学习方法的人脸反欺诈研究变得十分活跃,其中代表性方法包括多模态融合和跨模态转换方法。   
     
就多模态融合方法而言,对于多模态输入,主流方法使用特征级融合策略提取互补的多模态特征。由于多模态特征之间存在冗余,直接特征连接容易导致高维特征和过度拟合。为了缓解这个问题,Zhang等人[26]提出了SD-Net,使用特征重新加权机制来选择信息丰富的特征并丢弃可见光、深度和近红外模态之间的冗余通道特征。然而,SD-Net中的重新加权融合仅针对深层语义特征进行,而忽略了多模态浅层细节线索。为了进一步促进不同层次的多模态特征交互,[27]和 [28]的作者引入了一个多模态多层融合分支来增强模态之间的上下文线索。尽管有先进的融合策略,但多模态融合很容易被部分模态(例如深度)所主导,因此当这些模态嘈杂或缺失时,其表现不佳。为了解决这个问题,Shen等人[29] 设计了一个模态特征擦除操作来随机删除部分模态特征,以防止模态感知过度拟合。此外,George和Marcel[30]提出了一种跨模态焦点损失来调节每种模态的损失贡献,这有利于模型学习模态之间的互补信息并缓解模态依赖的过度拟合问题。总的来说,特征级融合对于多模态线索聚合来说是灵活而有效的。然而,模态特征通常是从单独的分支中提取的,计算成本很高。针对可靠的可见光与深度图特征融合方式,Deng等人[31]提出了对可见光特征与深度变换后的表面法线特征进行双流局部与全局注意力融合。除了传统的卷积神经网络外,高效微调的视觉转换器(Vision Transformer)和多层感知混合器(Multi-layer perceptrons Mixer)也被引入到多模态欺诈线索融合表征中[32,33,34],其中最典型的工作包括Yu等人[34]提出的自适应多模态适配器AMA,能高效地捕捉多模态局部与全局的真实/欺诈特征。
   
除了特征级融合之外,还有一些研究考虑了输入级和决策级融合。输入级融合假设多模态输入已经在空间上对齐,并且可以直接在通道维度上融合。在[35]中,通过堆叠归一化图像,将灰度、深度和近红外模态融合成复合图像,然后馈送到深度呈现攻击检测器。类似地,Liu等人[36]通过不同的融合运算符(即堆叠、求和和差分)合成可见光-近红外输入,并且所有融合的面部图像都由多模态人脸反欺诈模型转发以进行实时/欺骗预测。这些输入级融合方法效率高,并且计算成本略高(主要是在融合运算符和第一网络层上)。然而,过早进行融合很容易导致多模态线索在后续中高级特征空间里丢失。相反,为了权衡个体模态偏差并做出可靠的二值决策,一些工作采用基于每个模态分支的预测分数的决策级融合。一方面,Yu等人[37]直接平均来自可见光、深度和近红外模态的各个模型的预测二值分数,这优于CeFA[12]数据集上的输入和特征级融合基准。另一方面,Zhang等人[38]设计了一种决策级融合方法,首先使用深度模态聚合来自多个模型的分数,然后与来自近红外模型的分数级联,以进行最终的真实/欺诈分类。尽管预测可靠,但它需要为特定模态分别训练的模型,因此导致决策级融合效率低。

同时,一些工作关注人脸反欺诈的跨模态转换的研究。多模态人脸反欺诈系统需要额外的传感器来对具有不同模态的人脸输入进行成像。然而,在一些传统场景中,只有部分模态(例如仅有可见光)可用。为了解决推理阶段这种模态缺失问题,一些工作采用跨模态转换技术来生成多模态人脸反欺诈的缺失模态数据。为了从可见光图像生成相应的近红外图像,Jiang等人[39]提出了一种新颖的多类别(真实/欺诈、真实/合成)图像转换循环生成对抗网络。基于生成的近红外和原始可见光输入,与仅使用可见光图像相比,该方法能够提取更稳健的融合特征。然而,从原始循环生成对抗网络生成的近红外图像质量较低,这限制了融合特征的性能。为了生成高保真目标近红外模态,Liu等人[40]在跨模态转换框架中设计了一种基于子空间的新型模态正则化方法。除可见光与近红外模态外,Li等人[41]提出了基于的局部重力场模式的热力图到灰度图非对称跨模态转换方法,该转换方法对未知攻击类型和环境光照变化较为鲁棒。除了生成近红外图像外,Mallat 和Dugelay [42]还提出了一种可见光图像到热力图像的转换方案,使用级联细化网络从可见光人脸图像合成热力攻击。虽然这些方法在数据集内测试中是有效的,但其中一个主要问题是域转移和未知攻击可能会显著影响生成的模态的质量,并且使用成对的噪声模态数据,融合的特征将不可靠。 
 
尽管目前对于基于多传感模态融合的人脸反欺诈技术的研究已经取得了一定的进展,但大量研究还仅停留在域内(即训练场景与测试场景具有类似的环境背景及传感采集设备等)的真假判断,在多模态跨域场景下的真假检测以及对欺诈区域定位方面仍存在不足之处。再者,不同传感模态对欺诈表征的偏差性与不平衡性,以及多模态融合算法中模态内与模态间欺诈线索的解耦性与可解释性,仍然是具有挑战性的问题。

3 总结与展


然而,由于微弱的欺诈线索表征、复杂的现实世界领域偏差和快速迭代的新型攻击等挑战,多模态人脸反欺诈仍然是一个未解决的问题。我们总结出当前发展的局限性与未来展望如下:

1)由于目前多模态深度架构、监督方式和学习策略的局限性,现有多模态人脸欺诈检测模型具有有限的表征能力。学习具有判别性和泛化性的真实/欺诈特征对于多模态人脸反欺诈至关重要。未来更需设计新型多模态算子(如高阶多变换域的组合卷积与注意力模块)和基础模型,引入更多“野外(in-the-wild)”进行自监督/半监督的多模态预训练,并探索自动神经搜索在高效且有效融合上的应用。


2)现有方法通常在不切实际的多模态测试基准和协议下进行评估,不利于评价其在真实场景下的表现。例如,WMCA[11]和CAISA-SURF[10]等数据集的内部训练和内部测试结果表明在这种小规模和单调的测试集上性能饱和。一方面,多模态多源域训练,并多模态跨域测试的基准[43]仍处于摸索阶段。由于受到模态间本质偏差和特定模态域偏差影响,大多单模态欺诈检测域泛化算法[44]在多模态人脸反欺诈上难以带来增益。另一方面,由于现实世界中难以同时在训练和测试场景得到所有模态表征,灵活模态(即包含训练/测试时模态完整和部分模态缺失两种情况)[45,46]设定更具落地价值。因此,多模态人脸反欺诈的多源域泛化问题和灵活模态设定具有巨大的发展潜力。


3)对可解释性和隐私问题的考虑不足。大多数现有的多模态人脸反欺诈研究致力于开发针对最先进性能的新算法,但很少考虑背后的可解释性。这种黑盒方法很难在现实世界中做出可靠的决策,引入多模态大语言模型对域场景及潜在攻击进行任务关联的精细描述并推理决策,是增强模型可解释性的一大方向。此外,大多数现有工作都使用大量存储的源域人脸数据来训练和微调深度人脸反欺诈模型,而忽略了隐私和生物特征敏感性问题。因此,探索和解决多模态联邦学习和多模态无源(Source-free)域自适应问题具有前景。 

   

参考文献


[1]Yu, Z., Qin, Y., Li, X., Zhao, C., Lei, Z., & Zhao, G. (2022). Deep learning for face anti-spoofing: A survey. IEEE transactions on pattern analysis and machine intelligence, 45(5), 5609-5631.

[2]Erdogmus, N., & Marcel, S. (2014). Spoofing face recognition with 3D masks. IEEE transactions on information forensics and security, 9(7), 1084-1097.

[3]Galbally, J., & Satta, R. (2016). Three‐dimensional and two‐and‐a‐half‐dimensional face recognition spoofing using three‐dimensional printed models. IET Biometrics, 5(2), 83-91.

[4]Steiner, H., Kolb, A., & Jung, N. (2016, June). Reliable face anti-spoofing using multispectral SWIR imaging. In 2016 international conference on biometrics (ICB) (pp. 1-8). IEEE.

[5]Chingovska, I., Erdogmus, N., Anjos, A., & Marcel, S. (2016). Face recognition systems under spoofing attacks. Face Recognition Across the Imaging Spectrum, 165-194.

[6]Agarwal, A., Yadav, D., Kohli, N., Singh, R., Vatsa, M., & Noore, A. (2017). Face presentation attack with latex masks in multispectral videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (pp. 81-89).

[7]Bhattacharjee, S., & Marcel, S. (2017, September). What you can't see can help you-extended-range imaging for 3d-mask presentation attack detection. In 2017 International Conference of the Biometrics Special Interest Group (BIOSIG) (pp. 1-7). IEEE.

[8]Bhattacharjee, S., Mohammadi, A., & Marcel, S. (2018, October). Spoofing deep face recognition with custom silicone masks. In 2018 IEEE 9th international conference on biometrics theory, applications and systems (BTAS) (pp. 1-7). IEEE.

[9]Xiao, J., Tang, Y., Guo, J., Yang, Y., Zhu, X., Lei, Z., & Li, S. Z. (2019, September). 3DMA: A multi-modality 3D mask face anti-spoofing database. In 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (pp. 1-8). IEEE.

[10]Zhang, S., Wang, X., Liu, A., Zhao, C., Wan, J., Escalera, S., ... & Li, S. Z. (2019). A dataset and benchmark for large-scale multi-modal face anti-spoofing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 919-928).

[11]George, A., Mostaani, Z., Geissenbuhler, D., Nikisins, O., Anjos, A., & Marcel, S. (2019). Biometric face presentation attack detection with multi-channel convolutional neural network. IEEE transactions on information forensics and security, 15, 42-55.

[12]Liu, A., Tan, Z., Wan, J., Escalera, S., Guo, G., & Li, S. Z. (2021). Casia-surf cefa: A benchmark for multi-modal cross-ethnicity face anti-spoofing. In Proceedings of the IEEE/CVF winter conference on applications of computer vision (pp. 1179-1187).

[13]Heusch, G., George, A., Geissbühler, D., Mostaani, Z., & Marcel, S. (2020). Deep models and shortwave infrared information to detect face presentation attacks. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2(4), 399-409.

[14]Rostami, M., Spinoulas, L., Hussein, M., Mathai, J., & Abd-Almageed, W. (2021). Detection and continual learning of novel face presentation attacks. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 14851-14860).    

[15]Kong, C., Zheng, K., Wang, S., Rocha, A., & Li, H. (2022). Beyond the pixel world: A novel acoustic-based face anti-spoofing system for smartphones. IEEE Transactions on Information Forensics and Security, 17, 3238-3253.

[16]Kong, C., Zheng, K., Liu, Y., Wang, S., Rocha, A., & Li, H. (2024). M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System. IEEE Transactions on Dependable and Secure Computing.

[17]Pan, G., Sun, L., Wu, Z., & Lao, S. (2007, October). Eyeblink-based anti-spoofing in face recognition from a generic webcamera. In 2007 IEEE 11th international conference on computer vision (pp. 1-8). IEEE.

[18]Yu, Z., Wan, J., Qin, Y., Li, X., Li, S. Z., & Zhao, G. (2020). NAS-FAS: Static-dynamic central difference network search for face anti-spoofing. IEEE transactions on pattern analysis and machine intelligence, 43(9), 3005-3023.

[19]Liu, Y., Jourabloo, A., & Liu, X. (2018). Learning deep models for face anti-spoofing: Binary or auxiliary supervision. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 389-398).

[20]Li, X., Komulainen, J., Zhao, G., Yuen, P. C., & Pietikäinen, M. (2016, December). Generalized face anti-spoofing by detecting pulse from face videos. In 2016 23rd International Conference on Pattern Recognition (ICPR) (pp. 4244-4249). IEEE.

[21]Yu, Z., Li, X., Niu, X., Shi, J., & Zhao, G. (2020). Face anti-spoofing with human material perception. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VII 16 (pp. 557-575). Springer International Publishing.

[22]Yu, Z., Cai, R., Li, Z., Yang, W., Shi, J., & Kot, A. C. (2024). Benchmarking joint face spoofing and forgery detection with visual and physiological cues. IEEE Transactions on Dependable and Secure Computing.

[23]Srivatsan, K., Naseer, M., & Nandakumar, K. (2023). Flip: Cross-domain face anti-spoofing with language guidance. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19685-19696).

[24]Fang, H., Liu, A., Jiang, N., Lu, Q., Zhao, G., & Wan, J. (2024, April). VL-FAS: Domain Generalization via Vision-Language Model For Face Anti-Spoofing. In ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4770-4774). IEEE.

[25]Liu, A., Xue, S., Gan, J., Wan, J., Liang, Y., Deng, J., ... & Lei, Z. (2024). CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 222-232).

[26]Zhang, S., Liu, A., Wan, J., Liang, Y., Guo, G., Escalera, S., ... & Li, S. Z. (2020). Casia-surf: A large-scale multi-modal benchmark for face anti-spoofing. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2(2), 182-193.

[27]Parkin, A., & Grinchuk, O. (2019). Recognizing multi-modal face spoofing with face recognition networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops (pp. 0-0).

[28]Kuang, H., Ji, R., Liu, H., Zhang, S., Sun, X., Huang, F., & Zhang, B. (2019, October). Multi-modal multi-layer fusion network with average binary center loss for face anti-spoofing. In Proceedings of the 27th ACM International Conference on Multimedia (pp. 48-56).

[29]Shen, T., Huang, Y., & Tong, Z. (2019). FaceBagNet: Bag-of-local-features model for multi-modal face anti-spoofing. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops (pp. 0-0).

[30]George, A., & Marcel, S. (2021). Cross modal focal loss for rgbd face anti-spoofing. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 7882-7891).

[31]Deng, P., Ge, C., Qiao, X., Wei, H., & Sun, Y. (2023). Attention-aware dual-stream network for multimodal face anti-spoofing. IEEE Transactions on Information Forensics and Security, 18, 4258-4271.

[32]Antil, A., & Dhiman, C. (2024). MF2ShrT: multimodal feature fusion using shared layered transformer for face anti-spoofing. ACM Transactions on Multimedia Computing, Communications and Applications, 20(6), 1-21.

[33]Wang, W., Wen, F., Zheng, H., Ying, R., & Liu, P. (2022). Conv-MLP: a convolution and MLP mixed model for multimodal face anti-spoofing. IEEE Transactions on Information Forensics and Security, 17, 2284-2297.

[34]Yu, Z., Cai, R., Cui, Y., Liu, X., Hu, Y., & Kot, A. C. (2024). Rethinking vision transformer and masked autoencoder in multimodal face anti-spoofing. International Journal of Computer Vision, 1-22.    

[35]Nikisins, O., George, A., & Marcel, S. (2019, June). Domain adaptation in multi-channel autoencoder based features for robust face anti-spoofing. In 2019 International Conference on Biometrics (ICB) (pp. 1-8). IEEE.

[36]Liu, W., Wei, X., Lei, T., Wang, X., Meng, H., & Nandi, A. K. (2021). Data-fusion-based two-stage cascade framework for multimodality face anti-spoofing. IEEE Transactions on cognitive and developmental systems, 14(2), 672-683.

[37]Yu, Z., Qin, Y., Li, X., Wang, Z., Zhao, C., Lei, Z., & Zhao, G. (2020). Multi-modal face anti-spoofing based on central difference networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp. 650-651).

[38]Zhang, P., Zou, F., Wu, Z., Dai, N., Mark, S., Fu, M., ... & Li, K. (2019). FeatherNets: Convolutional neural networks as light as feather for face anti-spoofing. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops (pp. 0-0).

[39]Jiang, F., Liu, P., Shao, X., & Zhou, X. (2020). Face anti-spoofing with generated near-infrared images. Multimedia Tools and Applications, 79, 21299-21323.

[40]Liu, A., Tan, Z., Wan, J., Liang, Y., Lei, Z., Guo, G., & Li, S. Z. (2021). Face anti-spoofing via adversarial cross-modality translation. IEEE Transactions on Information Forensics and Security, 16, 2759-2772.

[41]Li, Z., Li, H., Luo, X., Hu, Y., Lam, K. Y., & Kot, A. C. (2021). Asymmetric modality translation for face presentation attack detection. IEEE Transactions on Multimedia, 25, 62-76.

[42]Mallat, K., & Dugelay, J. L. (2021). Indirect synthetic attack on thermal face biometric systems via visible-to-thermal spectrum conversion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1435-1443).

[43]Lin, X., Wang, S., Cai, R., Liu, Y., Fu, Y., Tang, W., ... & Kot, A. (2024). Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 211-221).

[44]Jia, Y., Zhang, J., Shan, S., & Chen, X. (2020). Single-side domain generalization for face anti-spoofing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8484-8493).

[45]Yu, Z., Liu, A., Zhao, C., Cheng, K. H., Cheng, X., & Zhao, G. (2023). Flexible-modal face anti-spoofing: A benchmark. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6346-6351).

[46]Liu, A., Tan, Z., Yu, Z., Zhao, C., Wan, J., Liang, Y., ... & Guo, G. (2023). Fm-vit: Flexible modal vision transformers for face anti-spoofing. IEEE Transactions on Information Forensics and Security, 18, 4775-4786.


供稿:余梓彤,大湾区大学;陈昌盛,深圳大学



隐者联盟
本公众号主要推介多媒体、人工智能、信息安全等方面的最新研究进展,愿与同行携手,共同推动科学研究向前发展。
 最新文章