人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

科技科技 2024-11-03 18:30 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

源码下载 | 回复“FT”获取源码

论文：https://arxiv.org/pdf/2103.14803.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

现阶段的人脸检测识别技术已经特别成熟，不管在什么领域都有特别成熟的应用，比如：无人超市、车站检测、犯人抓捕以及行迹追踪等应用。但是，大多数应用都是基于大量数据的基础，成本还是非常昂贵。所以人脸识别的精度还是需要进一步提升，那就要继续优化更好的人脸识别框架。

一、技术回顾——Transformer

相比于卷积，Transformer有什么区别，优势在哪？

卷积有很强的归纳偏见（例如局部连接性和平移不变性），虽然对于一些比较小的训练集来说，这毫无疑问是有效的，但是当我们有了非常充足的数据集时，这些会限制模型的表达能力。与CNN相比，Transformer的归纳偏见更少，这使得他们能够表达的范围更广，从而更加适用于非常大的数据集；
卷积核是专门设计用来捕捉局部的时空信息，它们不能够对感受野之外的依赖性进行建模。虽然将卷积进行堆叠，加深网络会扩大感受野，但是这些策略通过聚集很短范围内的信息的方式，仍然会限制长期以来的建模。与之相反，自注意力机制通过直接比较在所有时空位置上的特征，可以被用来捕捉局部和全局的长范围内的依赖；
当应用于高清的长视频时，训练深度CNN网络非常耗费计算资源。目前有研究发现，在静止图像的领域中，Transformer训练和推导要比CNN更快。使得能够使用相同的计算资源来训练拟合能力更强的网络。

二、简要

最近，人们不仅对Transformer的NLP，而且对计算机视觉也越来越感兴趣。我们想知道Transformer是否可以用于人脸识别，以及它是否比cnns更好。

因此，有研究者研究了Transformer模型在人脸识别中的性能。考虑到原始Transformer可能忽略inter-patch信息，研究者修改了patch生成过程，使相互重叠的滑动块成为标识。这些模型在CASIA-WebFace和MSSeleb-1M数据库上进行训练，并在几个主流基准上进行评估，包括LFW、SLLFW、CALFW、CPLFW、TALFW、CFP-FP、AGEDB和IJB-C数据库。研究者证明了在大规模数据库MS-Celeb-1M上训练的人脸Transformer模型实现了与CNN具有参数和MACs相似数量的CNN相似的性能。

二、FACE TRANSFORMER

2.1 网络框架爱

人脸Transformer模型采用ViT[A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929]体系结构，采用原Transformer。唯一的区别是，研究者修改了ViT的标记生成方法，以生成具有滑动块的标记，即使图像块重叠，以便更好地描述块间信息，如下图所示。

具体地说，从图像𝑿中提取滑动块，块大小为𝑃和步幅𝑆（输入两侧隐式为零），最后得到一系列扁平的二维块𝑿𝒑。（𝑊，𝑊）是原始图像的分辨率，而（𝑃，𝑃）是每个图像块的分辨率。

正如ViT所做的那样，可训练的线性投影将扁平块𝑿𝒑映射到model dimension D，并输出块嵌入𝑿𝒑𝑬。类标记，即一个可学习的嵌入（𝑿𝑐𝑙𝑎𝑠𝑠=𝒛)连接到块嵌入上，它在Transformer编码器(𝒛）输出处的状态是最终的人脸图像嵌入，如下方程式。

然后，将位置嵌入添加到块嵌入中，以保留位置信息。

Transformer的关键模块MSA由𝑘并行自检（self-attention，SA）组成：

MSA的输出是𝑘注意头输出的连接

2.2 Loss Function

基于Softmax的损失函数消除了偏置项，并转换了𝑾𝒙=𝑠cos𝜃𝑗，并在cos𝜃𝑦𝑖项，[ J. Deng, J. Guo, N. Xue, and S. Zafeiriou, “Arcface: Additive angular margin loss for deep face recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition]中加入了large margin。因此，基于Softmax的损失函数可以表示为：

[9] H. Wang, Y. Wang, Z. Zhou, X. Ji, D. Gong, J. Zhou, Z. Li, and W. Liu, “Cosface: Large margin cosine loss for deep face recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition

三、实验及可视化

对于ViT模型，层数是20个，头数是8个，hidden大小为512，MLP大小为2048。从T2T-ViT模型中一部分——Token-to-Token，深度为2，hidden为64，MLP大小为512；而对于主干网络，层数是24，头数为8，hidden大小为512，MLP大小是2048。请注意，“ViT-P10S8”代表ViT模型具有10×10patch尺寸，步幅𝑆=8和“ViT-P8S8”表示标记之间没有重叠。

在Attention Rollout技术的帮助下，研究者分析了Transformer模型(MS-Celeb-1M，ViT-P12S8)如何专注于人脸图像，并发现人脸Transformer模型如何像预期的那样关注人脸区域。

（1）不同层次的注意矩阵的可视化。（2）是指基于头部和网络深度的参与区域的注意距离。

随着遮挡面积的增加，人脸Transformer模型和ResNet100的识别性能得到了提高。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539321&idx=1&sn=cab6f568aecc25e26df4b872efdd2866

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉