Applied Soft Computing | 用于面部表情识别的具有自适应通道注意的渐进自蒸馏网络

文摘 2024-12-17 18:03 广东

该论文发表于Applied Soft Computing（中科院1区，IF=7.2），题目为《A gradual self distillation network with adaptive channel attention for facial expression recognition》。

电子科技大学计算机学院的张新为此文第一作者,电子科技大学计算机学院的殷昱煜教授为通讯作者。

论文链接：

https://www.sciencedirect.com/science/article/pii/S1568494624005362

论文概要

面部表情识别（Facial Expression Recognition, FER）在安全、医疗和智能交互等领域有广泛应用，但现有方法在应对表情的多样性、数据质量问题以及实时应用的计算效率方面存在挑战。传统知识蒸馏需要教师网络，训练复杂，而现有自蒸馏方法在浅层特征学习中缺乏多样性，限制了模型性能。本文提出了一种渐进式自蒸馏网络（GSDNet）与自适应通道注意机制（ACAM）结合的新方法。GSDNet通过逐层知识蒸馏增强浅层特征学习的多样性，ACAM动态优化特征通道权重。该方法在RAF-DB、FERPlus和Affect-Net等数据集上实现了精度和效率的提升，为实际应用提供了一种轻量化解决方案。

研究背景

面部表情识别在许多领域具有重要意义，包括安全监控、医疗健康、数字娱乐和人机交互等。它通过捕捉面部表情变化来分析个体情绪状态，支持检测异常行为、潜在威胁和情绪动态。然而，现有FER技术仍然面临许多挑战。传统方法主要依赖手工特征，这种方法难以有效区分高度相似的表情类别；基于深度学习的现代方法虽然改进了性能，但固定的特征标注区域和对计算资源的高需求限制了其在实际场景中的应用。数据集中的问题进一步加剧了FER的困难。例如，常见的数据集受到姿态变化、面部遮挡等影响，标注区域与实际关键区域可能存在错位，导致分类效果下降。一些方法尝试使用注意力机制捕捉重要区域，尽管能提升性能，但显著增加了计算复杂度，使得在实时安全场景中难以部署。因此，如何设计高效且轻量化的FER模型，成为当前研究的关键课题。知识蒸馏技术被提出以解决部分计算复杂性问题，通过学生网络学习经过优化的教师网络的知识来实现模型压缩。然而，传统知识蒸馏需要训练一个独立的教师网络，过程复杂且耗时。而自蒸馏则通过网络自身的深层模块作为教师，向浅层模块传递知识，这种方法更加高效，但仍存在学生模块学习的特征单一化问题。此外，FER技术在实际应用中还需应对三大挑战：个体和文化差异导致的表情变化多样性；低质量图像、遮挡和标注主观性引起的不确定性；深度学习模型的高复杂度限制其在资源有限设备中的应用。

研究方法

文章提出了一种基于新颖的渐进式自蒸馏和即插即用的自适应通道注意机制的轻量级且有效的 FER 网络。该模型具有强大的特征学习能力，在FER任务上取得了优异的性能，是探索和研究自蒸馏对于 FER 重要性的首次尝试。下面是网络的总体架构。

图1 GSDNet的总体架构

渐进式自蒸馏策略

渐进式自蒸馏策略是该论文的核心创新点。传统的知识蒸馏方法需要训练一个单独的教师网络，并将其知识传递给学生网络。然而，这种方式需要预训练教师网络，耗时且复杂。相比之下，现有自蒸馏方法尽管消除了对单独教师网络的依赖，但大多采用单一教师（通常为最后一层）为所有学生提供知识指导，导致浅层网络学习结果单一化。本文所提出的渐进式自蒸馏策略，通过将知识从深块逐渐蒸馏到浅块来保证知识的多样性学习。渐进式自蒸馏过程仅应用于训练阶段，可以轻松应用于任何网络以增强特征提取能力。

GSDNet提出的渐进式自蒸馏策略通过以下方式优化知识传递过程：首先将整个网络划分为多个层级结构的基本块，每两个相邻块之间形成“教师-学生”对。深层块作为教师，浅层块作为学生；然后通过逐层的蒸馏学习，使得深层块逐步将高语义特征传递给浅层块，避免浅层块从单一深层块中学习导致的特征单一化问题；在训练阶段，采用KL散度损失和L2损失对特征分布和概率分布进行优化，确保浅层块学习到的知识与深层块相符。下面是渐进式自蒸馏策略展示图。

图2 渐进式自蒸馏策略

自适应通道注意模块

自适应通道注意模块（Adaptive Channel Attention Module, ACAM）是一种轻量化、高效的注意机制，专注于优化图像特征的表达能力，提升模型对关键区域的关注。模块通过动态调整不同通道的权重，将最大池化和平均池化相结合，分别提取局部和全局特征信息。最大池化捕获局部激活值，强调细节特征，而平均池化则关注全局趋势，体现整体信息。两种特征经过全连接网络（MLP）计算权重比例，动态融合生成最终特征向量，用以更新特征图的通道权重。这一机制能够突出重要区域（如眼睛、嘴角等），抑制冗余信息，显著增强模型在复杂场景中的适应性和鲁棒性。与传统注意力机制不同，ACAM通过动态权重分配实现了针对性优化，同时保持了轻量化的设计，适用于各类深度学习网络。实验验证显示，ACAM在遮挡、模糊等复杂环境下表现优异，显著提升表情识别的准确性和泛化能力，是优化网络特征提取的重要工具。下面是ACAM的详细结构图。

图3 ACAM的详细结构图

损失函数优化

论文中通过引入多种损失函数的组合设计，优化了模型的训练过程，从而提升了面部表情识别的准确性和鲁棒性。

交叉熵损失（CE Loss）是模型的核心损失函数，用于主分类器，保证了模型对输入表情的准确预测。交叉熵损失的计算公式：

其中y_last表示最后一个分类器得到的预测概率分布，Y表示对应的标签。

KL散度损失（KL Loss）在渐进式自蒸馏过程中发挥重要作用，用于约束教师块和学生块之间预测概率分布的一致性，从而实现教师块对学生块的有效知识传递。KL散度损失的计算公式：

其中 yj 是第 j 个分类器的预测概率分布。

L2特征损失（L2 Loss）通过最小化教师块与学生块之间的特征表达差异，进一步强化了学生块的特征学习能力。L2损失的计算公式：

其中Fj表示第j个基本块得到的特征图。

上述损失函数的联合使用，充分挖掘了模型不同模块的潜力，确保了浅层块在渐进式蒸馏过程中的有效学习，同时提高了模型在多样化和复杂场景下的表现能力。这种设计不仅提升了模型的分类精度，也显著增强了其对低质量图像或表情细微变化的适应能力，为轻量化网络的优化提供了重要支持。

实验结果

与现有的最先进方法相比，GSDNet在面部表情识别任务中表现出色。具体来说，在RAF-DB数据集上，GSDNet的准确率为90.91%，比第二名高出0.62%。在FERPlus数据集上，GSDNet也取得了最好的成绩，提升了0.31%。尽管在AffectNet数据集上的准确率为66.11%，略低于最好的基线方法（66.37%），但整体表现仍然优于现有方法。下表是模型的表现。

表1 模型在RAF-DB、FERPlus 和 Affect-Net 数据集的性能比较。粗体表示最好的结果。下划线表示第二好的结果。

下图是GSDNet 与基线 Resnet50比较的混淆矩阵，混淆矩阵展示了ResNet50和GSDNet在RAF-DB和Affect-Net数据集上的表现。尽管Affect-Net数据集存在标注质量差和类别不平衡问题，GSDNet在RAF-DB上表现优于ResNet50，尤其在识别“恐惧”和“厌恶”表情时，精度分别提高了2.23%和6.32%。在Affect-Net数据集上，GSDNet在识别“惊讶”、“恐惧”和“中性”表情时，精度分别提高了3.84%、2.99%和8.68%。这表明GSDNet在表情识别任务中具有更强的能力和更好的性能。

图4 Resnet50 和提出的 GSDNet 在数据集 RAF-DB（左）和数据集 Affect-Net（右）上的混淆矩阵。

为了验证渐进式自蒸馏策略和自适应通道注意模块（ACAM）的有效性，作者在RAF-DB数据集上进行了消融实验。实验结果表明，基线模型（ResNet50）与没有渐进式自蒸馏或ACAM的模型相比，采用渐进式自蒸馏策略后，准确率提高了0.88%；结合渐进式自蒸馏和ACAM后，准确率进一步提高了1.37%。这一消融实验充分证明了渐进式自蒸馏策略和ACAM在GSDNet中的有效性。下表展示了渐进式自蒸馏和ACAM的实验结果。

表2 在 RAF-DB 数据集上对所提出的渐进自蒸馏策略和 ACAM 进行消融评估。粗体表示最好的结果。

结论

本研究提出了一种轻量级的结合自适应通道注意模块（ACAM）的渐进式自蒸馏网络（GSDNet）用于面部表情识别。文章中提出了一种新的渐进式自蒸馏方法，通过引导浅层学生模块从相邻深层教师模块学习，增强了特征表示能力。自适应通道注意模块通过动态调整最大池化和平均池化特征的权重，提升了通道特定的注意力。通过在三个常用FER数据集上的广泛实验，验证了GSDNet的有效性与实用性。

撰稿人：闫玉龙

审稿人：梁艳

脑机接口与混合智能研究团队

团队主页

www.scholat.com/team/hbci

脑机接口与混合智能研究团队

欢迎来到华南师范大学人工智能学院hBCI团队！我们专注于脑机接口和计算机视觉，致力于研发新一代人机交互和人机混合智能技术。我们的研究覆盖基础科学到工程实践，旨在打造更智能、直观的未来。关注我们，共同探索智能科技的无限可能！

最新文章

华南脑控团队亮相央视总台首届《中国科技创新盛典》

中国人工智能学会脑机融合与生物机器智能专委会召开2024年度工作会议

IEEE TNNLS | 基于脑电网络认知先验图的高效情绪识别图学习系统

2025年Gartner十大战略性技术趋势

J CONTROL RELEASE | 糖尿病智能化治疗新突破：视觉驱动的光遗传系统

2024中国脑机智能大会 | 国际期刊主编圆桌论坛

Applied Soft Computing | 用于面部表情识别的具有自适应通道注意的渐进自蒸馏网络

2024中国脑机智能大会第四轮通知（日程全了！免费注册即将截止！）

IEEE TCYB | 基于过渡感知注意力的睡眠分期深度神经网络

2024中国脑机智能大会 | 听视觉及语言脑机专题论坛

2024中国脑机智能大会 | 脑机融合生命体专题论坛

2024中国脑机智能大会 | 脑机电极与芯片专题论坛

2024中国脑机智能大会第二轮通知（更新分论坛，CAAI会员免注册费）

2024中国脑机智能大会｜Tutorial讲习班内容抢先看

2024中国脑机智能大会｜墙报火热征集中

KDD 2024 | 大模型 Brant-X: Unified Physiological Signal Alignment

2024中国脑机智能大会墙报征文

2024中国脑机智能大会（预通知）

Nature Communications | 构建类脑器官-脑机接口，助力脑损伤修复

NRR杂志CNS文章解读|李晓红团队Nature Communications文章解读：基于脑损伤修复的类器官-脑-机接口研究

IEEE TIP | SelfGCN：用于基于骨架的动作识别的自注意力图卷积网络

NeurIPS 2024 |大模型 EEGPT：通过预训练Transformer实现通用且可靠的脑电图信号表示

脑电大模型 | EEGPT：通过自回归预训练释放脑电通用基础模型的潜能

情感对话的自适应多模态辅助融合策略

ICLR 2024 | 用大量脑机接口脑电数据学习通用表征的脑电大模型

脑机接口 | 全球脑机接口顶级学术会议将于12月6日召开

ACL | Agent-Pro: 通过策略级反思与优化实现学习进化

CVPR 2024 | 简单的语义辅助小样本学习

脑机融合的RSVP-BCI脑电解码及目标检测方法研究

脑机接口(BCI)重要内容：BCI相关术语（十三）

Neural Networks | SFT-SGAT：一种用于情绪识别和意识检测的半监督微调自监督图注意网络

Information Fusion | 使用信息融合识别人脑的层次情绪区域

脑机接口(BCI)重要内容：BCI相关术语（十二）

IEEE TPAMI | 基于专家知识融入深度学习网络架构的多级可解释睡眠阶段评分系统

中国认知科学学会意识科学分会2024学术年会(第三轮通知)

脑机接口(BCI)重要内容：BCI相关术语（十一）

STARTS：一个用于自动E/MEG源成像的自适应时空框架

基于迁移叠加理论的稳态视觉诱发电位跨被试解码模型

IEEE TCYB | 基于相对模糊粗糙集的特征选择与分类

脑机接口(BCI)重要内容：BCI相关术语（十）

脑机团队本科生保研心得分享

脑机接口(BCI)重要内容：BCI相关术语（九）

IEEE TNNLS | 用于不完整多视角聚类的增强稀疏表示法

脑机接口(BCI)重要内容：BCI相关术语（八）

IEEE TNSRE | 融合脑电与眼动追踪的多模态脑机接口：开辟意识障碍患者辅助交流新途径

脑机接口(BCI)重要内容：BCI相关术语（七）

IEEE TAFFC | 自监督对比域泛化技术解码意识障碍患者的音乐神经活动

脑机接口(BCI)重要内容：BCI相关术语（六）

IEEE TBME | 基于可穿戴式脑机接口进行实时注意力调节和认知监测系统

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉