TPAMI 2024 | 基于外观的深度学习凝视估计:综述与基准测试

文摘   2024-11-11 19:02   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Appearance-based Gaze Estimation with Deep Learning: A Review and Benchmark

基于外观的深度学习凝视估计:综述与基准测试

作者:Yihua Cheng; Haofei Wang; Yiwei Bao; Feng Lu

论文创新点

  1. 综合性综述与基准测试:提供了基于深度学习的外观眼神估计方法的全面综述,并建立了包含公共数据集和算法源代码的基准测试平台。
  2. 数据预处理与后处理:系统总结了包括面部/眼睛检测、数据校正等在内的预处理方法,以及2D/3D眼神转换等后处理技术。
  3. 跨领域校准与用户无感知数据收集:探讨了通过领域适应和用户无感知数据收集进行个人校准的新方法,以减少实际应用中的校准工作量。

摘要

人类目光提供了关于人类焦点和意图的有价值信息,使其成为研究的关键领域。最近,深度学习彻底改变了基于外观的眼神估计。然而,由于眼神估计研究的独特特征,如2D眼神位置和3D眼神向量之间的不公平比较以及不同的预处理和后处理方法,缺乏开发基于深度学习的眼神估计算法的明确指导方针。在本文中,我们系统回顾了使用深度学习的眼神估计方法。首先,我们沿着典型的眼神估计流程调查现有的算法:深度特征提取、深度学习模型设计、个人校准和平台。其次,为了公平比较不同方法的性能,我们总结了数据预处理和后处理方法,包括面部/眼睛检测、数据校正、2D/3D眼神转换和眼神起点转换。最后,我们为基于深度学习的眼神估计建立了一个全面的基准。我们描述了所有的公共数据集,并提供了典型眼神估计算法的源代码。本文不仅作为开发基于深度学习的眼神估计方法的参考,而且作为未来眼神估计研究的指南。项目网页可在 https://phi-ai.buaa.edu.cn/Gazehub/ 查看。

关键词

  • 眼神估计
  • 眼睛外观
  • 深度学习
  • 综述
  • 基准测试

1 引言

眼神是一种基本的非言语交流线索,包含了关于人类意图的有价值信息,使我们能够洞察人类的认知[1, 2]和行为[3, 4]。在不同应用中,眼神有多种表示方式。眼神方向作为大多数应用中的通用表示。它被定义为从眼睛中心出发的3D空间中的单位方向向量,指向凝视目标。眼神方向具有重要的潜力,例如,在扩展现实(XR)设备[5-7]中,它被用来基于估计的眼神方向在3D空间中定位凝视目标。通过在3D空间中建立一个特定的平面,眼神方向可以转换为平面上的凝视点(PoG)。PoG在人机交互[8-10]中被广泛使用,因为它指示了用户在屏幕或显示器上的注意力区域。此外,眼神也可以在分析任务[11, 12]中被表示为注意力图,或在眼神跟随任务[13-15]中被表示为目标对象/人。对于这些应用来说,准确的眼神估计总是至关重要的。
在过去的几十年中,提出了许多眼神估计方法。这些方法可以被广泛地分为三组:基于3D眼睛模型恢复的、基于2D眼睛特征回归的和基于外观的方法。基于3D眼睛模型恢复的方法构建了一个几何3D眼睛模型,并基于模型估计眼神方向。由于人类眼睛的多样性,3D眼睛模型通常是特定于个人的。基于3D眼睛模型恢复的方法通常需要个人校准以恢复特定于个人的参数,如虹膜半径和kappa角。虽然这些方法通常能够实现高精度,但它们需要专用设备,如红外相机。基于2D眼睛特征回归的方法通常对设备的要求与基于3D眼睛模型恢复的方法相同。它们直接使用检测到的几何眼睛特征,如瞳孔中心,来回归PoG。它们不需要几何校准来将眼神方向转换为PoG。基于外观的方法对设备的要求低。它们使用现成的网络摄像头捕获人类眼睛的外观,并从外观中回归眼神。尽管设置简单,但它们对眼神估计算法有严格的要求。它们通常需要1)一个有效的特征提取器,从高维原始图像中提取眼神特征。一些特征提取器,如梯度直方图,已在传统方法中使用[20]。2)一个强大的回归函数,学习外观特征到人类眼神的映射。将高维眼睛外观映射到低维眼神并非易事。许多回归函数已被用来从外观中回归眼神,例如局部线性插值[21]和自适应线性回归[19]。3)大量的训练样本来学习回归函数。它们通常通过耗时的个人校准收集个人样本,并学习特定于个人的凝视估计模型。一些研究寻求减少训练样本的数量[19]。最近,基于深度学习的方法变得流行,因为它们比传统的基于外观的方法有几个优势。这些方法使用卷积层或变换器[22]自动从图像中提取高级眼神特征。深度学习模型也是高度非线性的,即使在大头部运动的情况下,也能拟合从眼睛外观到眼神方向的映射函数。这些优势使得基于深度学习的方法比传统方法更准确、更稳健。基于深度学习的方法还显著提高了跨主题的眼神估计性能,减少了耗时的个人校准的需要。这些改进扩大了基于外观的眼神估计的应用范围。在本文中,我们提供了使用深度学习算法的基于外观的眼神估计方法的系统回顾。如图1所示,我们从四个角度讨论这些方法:1)深度特征提取,2)深度神经网络架构设计,3)个人校准,以及4)设备和平台。从深度特征提取的角度来看,我们描述了从眼睛图像、面部图像和视频中提取特征的策略。在深度神经网络架构设计的角度下,我们首先回顾基于监督策略的方法,包括监督、自监督、半监督和无监督方法。然后,我们描述了用于眼神估计的不同深度神经网络,包括多任务CNN、循环CNN。此外,我们介绍了将CNN模型和眼神的先验知识整合的方法。从个人校准的角度来看,我们描述了如何使用校准样本来进一步提高CNN的性能。我们还介绍了集成用户不知情的校准样本收集机制的方法。最后,从设备和平台的角度来看,我们考虑了不同的相机,即RGB相机、IR相机和深度相机,以及不同的平台,即计算机、移动设备和头戴设备。我们回顾了使用这些相机和为这些平台提出的最新方法。除了基于深度学习的眼神估计方法,我们还总结了眼神估计的实践。我们首先回顾了眼神估计的数据预处理方法,包括面部和眼睛检测方法和数据校正方法。然后,考虑到人类眼神的各种形式,例如眼神方向和PoG,我们进一步提供了数据后处理方法。这些方法描述了人类眼神各种表示之间的几何转换。我们还建立了眼神估计基准。我们收集并实现了典型眼神估计方法的代码,并在各种数据集上评估了它们。对于不同类型的眼神估计方法,我们使用数据后处理方法将它们的结果转换,以便进行公平比较。我们的基准提供了最新的眼神估计方法之间的全面比较。本文不仅作为开发基于深度学习的眼神估计方法的参考,而且作为未来眼神估计研究的指南。

3 基于外观的深度眼神估计

我们在本节中调查基于深度学习的的眼神估计方法。我们从四个角度介绍这些方法:深度特征提取、深度神经网络架构设计、个人校准以及设备和平台。图3提供了本节的概览。

3.1 从外观中提取深度特征

特征提取在大多数基于学习的 tasks 中起着至关重要的作用。由于身份、照明等因素,从复杂的眼部外观中有效提取特征是一个挑战。提取的特征质量决定了眼神估计的准确性。在本节中,我们根据输入到深度神经网络的类型,总结了特征提取机制,包括眼图像、面部图像和视频。

3.1.1 从眼图像中提取特征

人类眼神与眼部外观有很强的相关性。例如,当眼球旋转时,虹膜的位置和眼睑的形状会发生变化,导致眼神方向的相应变化。这种眼神与眼部外观之间的关系使得基于眼部视觉特征的眼神估计成为可能。传统方法通常使用高维原始图像特征[21, 51]来估计眼神。这些特征是通过光栅扫描眼图像中的所有像素获得的,导致包含大量冗余的表示。此外,这些特征对环境变化非常敏感,这可能在实现准确的眼神估计方面带来挑战。基于深度学习的方法自动从眼图像中提取深度特征。Zhang等人提出了第一个基于深度学习的的眼神估计方法[17]。他们使用CNN从灰度眼图像中提取特征并将特征与头部姿态连接。与大多数深度学习任务一样,更深的网络结构和更大的接受域可以提取更信息丰富的特征。Zhang等人[49]进一步扩展了他们之前的工作[17],提出了一个继承自16层VGG网络的GazeNet[52]。Chen等人[53]使用扩张卷积从眼图像中提取高级特征,有效地增加了卷积滤波器的接受域大小,而不会降低空间分辨率。最近的研究发现,连接两只眼睛的特征有助于提高眼神估计的准确性[54, 55]。Fischer等人[54]使用两个VGG-16网络分别从两只眼图像中提取个体特征,并将两只眼的特征连接起来进行回归。Cheng等人[55]构建了一个四流CNN网络,用于从两只眼图像中提取特征。
在两个流的CNN中用于从左右眼图像中提取个体特征,另外两个流用于提取两只眼的联合特征。他们声称两只眼睛是不对称的,并提出了一个不对称回归和评估网络来从两只眼睛中提取不同的特征。最近的研究提出使用注意力机制来融合两只眼的特征。Cheng等人[56]认为两只眼特征的权重由面部特征决定,因此他们根据面部特征为两只眼特征分配权重。Bao等人[57]提出了一个自注意力机制来融合两只眼的特征。他们连接两只眼的特征图,并使用卷积层生成特征图的权重。Murthy等人[58]同时估计每个眼图像的特征向量和权重,并将左右眼特征连接起来。他们还提出了一个网络,该网络获得左右眼特征之间的差异,以绕过个体依赖的特征。
上述方法从眼图像中提取一般特征,而其他工作探索提取特定特征来处理头部运动和个体差异。一些研究试图从眼图像中提取个体不变的特征[45, 47, 59]。Park等人[45]将原始眼图像转换为统一的眼神表示,即眼球、虹膜和瞳孔的图形表示。他们从图形表示中回归眼神方向。Wang等人提出了一种对抗学习方法来提取域/个体不变的特征[59]。他们将特征输入到一个额外的分类器中,并设计了一个对抗损失函数来处理外观变化。Park等人使用自编码器学习凝视、头部姿态和外观的紧凑潜在表示[47]。他们引入了一个几何约束在凝视表示上,即两个给定图像之间的旋转矩阵将一个图像的凝视表示转换为另一个图像。此外,一些方法使用生成对抗网络(GAN)预处理眼图像以处理特定环境因素。Kim等人[60]将低光照眼图像转换为明亮的眼图像。Rangesh等人[61]使用GAN去除眼镜。除了监督方法提取眼神特征外,未标记的眼图像也已被用于学习眼神表示。Yu等人将两眼凝视表示的差异输入到预训练的网络中进行眼神重定向[62]。他们从未标记的眼图像中学习2-D表示,可以被视为未对齐的眼神。Sun等人提出了一个交叉编码器来解耦眼神特征和外观特征。他们通过学习的眼神特征提高了少样本性能。

3.1.2 从面部图像中提取特征

面部图像包含头部姿态信息,这也有助于眼神估计。传统方法从面部图像中提取特征,如头部姿态[41]和面部标志点[63-65]。基于眼图像的方法通常使用头部姿态向量作为额外输入[17, 55]。然而,头部姿态的影响似乎是边缘的[49],特别是当基础网络已经实现了高准确率时。这一观察的可能理由是,单一头部姿态通常对应于广泛的眼神范围[66, 67],从而只提供了粗略的眼神指示,而不是精确的眼神信息。深度面部特征的表现优于头部姿态。最近的研究直接使用面部图像作为输入,并使用CNN提取深度面部特征[42, 50, 68, 69],如图4 (b)所示。它比仅使用眼图像的方法表现出更好的性能。Cheng等人[34]探索了用于眼神估计的变换器。他们使用CNN从面部图像中提取特征图,并将特征图输入变换器编码器进行眼神估计。面部图像包含冗余信息。研究人员试图过滤掉面部图像中的无用特征[50, 70]。Zhang等人[50]提出了一个空间加权机制,有效地将面部的位置编码到标准的CNN架构中。系统根据卷积层的激活图学习空间权重。这有助于抑制噪声并增强高度激活区域的贡献。Zhang等人[71]提出了一种基于学习的区域选择方法,从面部区域动态选择合适的子区域。Cheng等人[72]提出了一个即插即用的自对抗网络来净化面部特征。他们移除与眼神无关的图像特征,同时保留与眼神相关的特征,从而提高了眼神估计网络的鲁棒性。一些研究从面部图像中裁剪出眼图像,并直接将其输入网络。这些工作通常使用一个三流网络从面部图像、左右眼图像中提取特征,如图4 (c)所示[42, 53, 73-75]。此外,Deng等人[76]将眼神方向分解为头部旋转和眼球旋转。他们使用面部图像估计头部旋转,眼图像估计眼球旋转。这两个旋转通过眼神转换层聚合成眼神向量。Cheng等人[56]提出了一种从粗到细的眼神估计方法。他们使用面部特征估计基本眼神方向,然后使用眼特征细化基本眼神方向。他们使用GRU[77]构建网络。Cai等人[78]使用变换器编码器[22]聚合面部和眼特征。他们将面部和两个眼特征输入变换器编码器,并将编码器的输出连接起来进行眼神估计。面部标志点也被用作额外特征来模拟头部姿态和眼睛位置。Palmero等人将个体流(面部、眼睛区域和面部标志点)组合在CNN中[79]。Dias等人提取面部标志点,并直接从标志点回归眼神[80, 81]。网络输出眼神方向以及对其自身预测不确定性的估计。Jyoti等人进一步从面部标志点位置提取几何特征[82]。几何特征包括以瞳孔中心为参考点的面部标志点的眼睛和鼻尖之间的角度。检测到的面部标志点也可以用于无监督的眼神表示学习。Dubey等人[83]从网络收集面部图像,并根据检测到的标志点大致标注凝视区域。他们在数据集上执行凝视区域分类任务,用于无监督的眼神表示学习。此外,由于裁剪的面部图像不包含面部位置信息,Krafka等人[42]提出了iTracker,结合了左右眼图像、面部图像以及面部网格信息。面部网格指示了图像中面部区域的位置,通常用于PoG估计。

3.1.3 从视频中提取特征

视频的时序信息也有助于更好的凝视估计。循环神经网络(RNN)已广泛用于视频处理,例如长短期记忆网络(LSTM)[43, 84]。如图5所示,它们通常使用CNN从每个帧中提取特征向量,然后将这些特征向量输入RNN。RNN自动捕获每帧之间的时序关系以进行眼神估计。时序特征,如光流和眼睛运动动态,已被用来提高眼神估计的准确性。光流提供了帧之间的运动信息。Wang等人[85]使用光流约束与2D面部特征一起重建输入视频帧的3D面部结构。眼睛运动动态,如注视、扫视和平滑追踪,也已被用来提高眼神估计的准确性。Wang等人[86]提出利用眼睛运动将眼动跟踪算法推广到新主体。他们使用动态凝视转换网络捕获潜在的眼睛运动动态,并将其作为先验知识。他们还提出了另一个静态眼神估计网络,该网络基于静态帧估计眼神。他们最终将两个网络结合起来以获得更好的眼神估计准确性。两个网络的组合方法可以解决为线性动态系统或卡尔曼滤波器的标准推理问题[87]。

3.2 CNN模型

卷积神经网络已在许多计算机视觉任务中得到广泛应用,并在眼神估计领域展现出卓越的性能。在本节中,我们首先从学习策略的角度回顾现有的基于眼神估计的方法,即监督CNN和半/自/无监督CNN。然后我们介绍不同的网络架构,例如多任务CNN和循环CNN用于眼神估计。最后,我们讨论整合先验知识的CNN以提高性能。

3.2.1 监督CNNs

监督CNN在基于外观的眼神估计中是最常见的网络[17, 89-91]。图4展示了监督眼神估计CNN的典型架构。网络使用带有真实眼神方向的图像样本进行训练。眼神估计问题本质上是从原始图像到人类眼神的学习映射函数。因此,与其他计算机视觉任务一样,更深的CNN架构通常能实现更好的性能。许多为典型计算机视觉任务提出的CNN架构在眼神估计任务中也显示出了巨大的成功,例如LeNet[17]、AlexNet[50]、VGG[49]、ResNet18[43]和ResNet50[66]。此外,一些精心设计的模块也有助于提高估计精度[53, 56, 93, 94]。Chen等人使用扩张卷积从眼图像中提取特征[53]。Cheng等人提出了一个注意力模块来融合两只眼的特征[56]。Cheng等人将CNN和变换器编码器整合以提高估计性能[22]。为了在训练期间监督CNN,系统需要大规模的标记数据集。已经提出了几个大规模的数据集[17, 42]。然而,在实际应用中收集足够的凝视数据是困难和耗时的。受生理眼模型的启发,一些研究人员提出了合成标记的逼真图像[37, 96, 97]。这些方法通常构建眼区域模型并从这些模型渲染新图像。Sugano等人[37]提出了一种方法,他们通过恢复眼区域的3D形状合成密集的多视图眼图像,其中他们使用基于补丁的多视图立体算法[98]从八个多视图图像重建3D形状。Wood等人提出了一种合成近距离眼图像的方法,用于各种头部姿态、凝视方向和照明条件,以开发鲁棒的眼神估计算法[99]。基于这项工作,Wood等人进一步提出了另一个名为UnityEye的系统,用于快速合成大量各种眼区域的眼图像[100]。为了使合成图像更加逼真,Shrivastava等人提出了一种使用生成对抗网络的无监督学习范式,以提高合成图像的真实性[101]。Wang等人根据几何模型绘制眼形状,并使用GAN渲染眼图像[102]。这些方法作为数据增强工具,提高了眼神估计的性能。眼神重定向也被用作数据增强工具。它基于给定的面部图像生成具有目标凝视的面部图像。最近,提出了许多眼神重定向方法[103-106],并带来了显著的性能提升。NeRF[107]显示出了巨大的多视图一致性,并被用来从多视图图像中学习隐式面部模型。它也可以渲染在新凝视下面部图像[108, 109]。

3.2.2 半/自/无监督CNNs

半/自/无监督CNN最近吸引了很多关注,并且在眼神估计中显示出了巨大的潜力。通常有两个主要的研究主题。1) 收集眼神数据既耗时又昂贵。为了减少对标记图像的需求,一些方法利用未标记的图像学习鲁棒的特征表示[62, 110]。2) 眼神估计方法在新环境/领域中表现出性能下降。研究人员使用源域中的标记图像和目标域中的未标记图像来提高目标域中的性能[111, 112]。第二个主题比第一个主题更系统,并且最近有所发展。它被定义为无监督领域适应,其中“无监督”方面指的是目标域中缺乏标记数据。
半监督CNN需要优化网络的标记和未标记图像。Wang等人提出了一种对抗学习方法来提高模型在目标主体/数据集上的性能[59]。如图6所示,它需要训练集中的标记图像以及目标主体/数据集的未标记图像。他们使用标记数据来监督眼神估计网络,并为半监督学习设计了一个对抗模块。给定这些用于眼神估计的特征,对抗模块试图区分它们的来源,而眼神估计网络的目标是提取主体/数据集不变的特征以欺骗该模块。Kothari等人[110]发现当人们“相互对视”(LAEO)时存在强烈的凝视相关的几何约束。他们估计了LAEO数据集[113]中的3D和2D标志点,并为眼神估计生成伪标记。然而,这并不能带来竞争性能,因此他们进一步将标记的图像和LAEO数据集整合用于半监督眼神估计。自监督CNN旨在制定一个前馈辅助学习任务来提高估计性能。Cheng等人提出了一个自监督的不对称回归网络用于眼神估计[55]。如图7所示,网络由一个回归网络组成,用于估计两只眼的凝视方向,以及一个评估网络来评估两只眼的可靠性。在训练期间,回归网络的结果用于监督评估网络,评估网络的准确性决定了回归网络中的学习率。他们同时训练这两个网络,并在没有额外推理参数的情况下提高了回归性能。Xiong等人引入了一个随机效应参数来学习眼神估计中的个体特定信息[114]。他们使用变分期望最大化算法[115]和随机梯度下降[116]在训练期间估计随机效应网络的参数。他们使用另一个网络基于眼图像的特征表示预测随机效应。自监督策略预测随机效应以提高未见主体的准确性。He等人引入了一个个体特定的用户嵌入机制[117]。他们将用户嵌入与外观特征连接以估计眼神。他们还构建了一个教师-学生网络,其中教师网络在训练期间优化用户嵌入,学生网络从教师网络学习用户嵌入。无监督CNN仅需要未标记的数据进行训练。然而,没有真值的情况下优化CNN是困难的。许多特定任务被设计用于无监督CNN。Dubey等人[83]从网页上收集未标记的面部图像。他们基于检测到的标志点粗略地标注了凝视区域。因此,他们可以执行传统的监督任务用于眼神表示学习。Yu等人利用预训练的眼神重定向网络进行无监督的眼神表示学习[62]。如图8所示,他们使用输入图像和眼神表示差异作为重定向变量。给定输入图像和眼神表示差异,眼神网络旨在重建目标图像。因此,重建任务监督了眼神表示网络的优化。Sun等人提出了一个交叉编码器用于无监督学习[118]。他们获取用于训练的配对眼图像,其中配对图像具有相同的眼神或外观。他们使用一个编码器从眼图像中提取外观和眼神特征。他们交换选定配对图像的两个特征,并旨在基于交换的特征重建原始图像。注意,这些方法学习了眼神表示,但它们也需要少量标记样本来微调最终的眼神估计器。

3.2.3 多任务CNNs

多任务学习通常包含多个提供相关领域信息作为归纳偏置以提高模型泛化的任务[120]。一些辅助任务被提出以改善眼神估计中的模型泛化。Lian等人提出了一个多任务多视图网络用于眼神估计[121]。他们基于单视图眼图像估计眼神方向,从多视图眼图像估计PoG。他们还提出了另一个多任务CNN,使用深度图像估计PoG[122]。他们设计了一个额外的任务,利用面部特征来优化深度图像。该网络为眼神估计产生了四个特征,这些特征从面部图像、左右眼图像和深度图像中提取。一些工作寻求将眼神分解为多个相关特征,并构建多任务CNN来估计这些特征。Yu等人引入了一个受限的标志-眼神模型来模拟眼标志位置和眼神方向的联合变化[119]。如图9所示,他们构建了一个多任务CNN来估计标志-眼神模型的系数以及缩放和平移信息以对齐眼标志。最后,标志-眼神模型作为解码器计算从估计参数中的眼神。Deng等人将眼神方向分解为眼球运动和头部姿态[76]。他们设计了一个多任务CNN从眼图像中估计眼球运动,从面部图像中估计头部姿态。使用几何变换从眼球运动和头部姿态计算眼神方向。Wu等人提出了一个多任务CNN,同时进行眼睛部分的分割、IR LED光斑的检测和瞳孔及角膜中心的估计[123]。从重建的眼模型中计算眼神方向。其他工作同时执行多个与眼神相关的任务。Recasens等人提出了一种通过预测视频中人物目光所在位置的方法,即使物体在不同的帧中[124]。他们构建了一个CNN来预测每帧中的目光位置和包含目光物体的概率。此外,视觉显著性与场景图像中的人类眼神有很强的相关性[125, 126]。在[127]中,他们同时估计一般的视觉注意力和人类在图像中的眼神方向。Kellnhofer等人提出了一个时间3D眼神网络[43]。他们使用bi-LSTM[128]处理7帧序列来估计不仅眼神方向而且眼神不确定性。

3.2.4 循环CNNs

人类眼球运动是连续的。这启发研究人员通过使用时序信息来提高眼神估计性能。最近,循环神经网络在处理序列数据方面展现出了巨大的能力。一些研究人员采用循环CNN来估计视频中的眼神[43, 79, 84]。我们首先给出一个典型的数据处理工作流程。给定一系列帧{X1, X2, ..., XN},一个统一的CNN fU用于从每个帧中提取特征向量,即xt = fU(Xt)。这些特征向量被输入到一个循环神经网络fR,网络输出眼神向量,即gi = fR(x1, x2, ..., xN)。Palmero等人设置N = 4和i = 4在他们的方法中。他们输入四帧来估计最后一帧的眼神[79]。Kellnhofer等人设置N = 7和i = 4[43]。与Palmero等人相比,他们考虑了目标帧之外的额外三帧。这些方法都选择了最近的三帧(包括前三帧和后三帧)以获得额外的视觉特征。此外,一些方法利用过去的眼神轨迹进行眼神预测[86, 129]。他们选择了更大的时间范围,例如1 ∼ 2秒(30 ∼ 90帧),在眼神预测任务中。我们在图5中可视化了一个示例网络架构。探索了不同类型的输入以提取特征。Kellnhofer等人直接从面部图像中提取特征[43]。Zhou等人结合了从面部和眼图像中提取的特征[84]。Palmero等人使用面部图像、双目图像和面部标志点来生成特征向量[79]。还探索了不同类型的RNN结构,例如GRU[77]在[79]中,LSTM[130]在[84]中和bi-LSTM[128]在[43]中。Cheng等人利用循环CNN来提高从静态图像而不是视频的眼神估计性能[56]。他们将眼神估计泛化为一个顺序的粗到细的过程,并使用GRU来关联从面部图像估计的基本眼神方向和从眼图像估计的眼神残差。

3.2.5 带有其他先验的CNNs

先验信息也有助于提高眼神估计的准确性,例如眼神方向的分解、解剖眼模型和眼运动模式[45, 55, 76, 86, 114, 131]。眼神方向的分解。人类眼神可以分解为头部姿态和眼球姿态。Deng等人使用两个CNN从面部图像中估计头部姿态,从眼图像中估计眼球姿态。他们使用几何变换将这两个结果整合到最终的眼神方向中[76]。解剖眼模型。人眼由眼球、虹膜、瞳孔中心等组成。Park等人提出了一个基于眼模型的拼贴眼神表示[45]。他们渲染眼模型以生成拼贴图像,其中拼贴图像消除了外观变化。他们首先使用CNN从原始图像中生成拼贴图像,并使用另一个CNN从拼贴图像中估计眼神方向。眼运动模式。常见的眼运动,如注视、扫视和平滑追踪,与观看内容和主体无关。Wang等人提出将通用的眼运动模式整合到动态眼神估计中[86]。他们从视频中恢复眼运动模式,并使用CNN从静态图像中估计眼神。两眼不对称属性。Cheng等人发现了“两眼不对称”属性,即两眼的外观不同,而两眼的眼神方向大致相同[44]。基于这一观察,Cheng等人提出在CNN中不对称地处理两眼。他们设计了一个不对称回归网络,用于适应性地加权两眼。眼神数据分布。回归模型的基本假设是独立同分布,然而眼神数据不是i.i.d. Xiong等人讨论了这个问题[114],并设计了一个混合效应模型来考虑个体特定信息。个体间偏差。Chen等人观察到大多数数据集中存在个体间偏差[131, 132]。他们假设存在一个无法从图像中估计的个体依赖偏差。因此,他们提出了一种眼神分解方法。他们将眼神分解为个体依赖偏差和从图像中估计的个体独立眼神。在测试阶段,他们使用一些图像样本来校准不同主体之间的偏差。

3.3 校准

学习一个准确且通用的眼神估计模型并非易事。传统的3D眼模型恢复方法通常构建一个包含个体特定参数(如眼球半径)的统一眼神模型。他们执行个人校准以估计这些个体特定参数。在基于深度学习的眼神估计领域,个人校准也被探索以提高个体特定性能。图10显示了深度学习中个人校准的常见流程。

3.3.1 通过领域适应进行校准

校准问题可以被视为领域适应问题,其中训练集是源域,测试集是目标域。测试集通常包含未见过的主体或环境。研究人员的目标是使用校准样本来提高目标域中的性能。领域适应的常见方法是在目标域中微调模型[42, 133, 134]。这很简单但有效。Krafka等人用SVM替换全连接层并对SVM层进行微调以预测眼神位置[42]。Zhang等人将CNN分成三部分:编码器、特征提取器和解码器[133]。他们在每个目标域中微调编码器和解码器。Zhang等人还学习了一个二维眼神位置的估计值和真值之间的三阶多项式映射函数[135]。一些研究引入了个体特定特征以进行眼神估计[117, 136]。他们在微调过程中学习个体特定特征。Linden等人引入了用户嵌入以记录个人信息。他们通过使用校准样本进行微调来获得未见主体的用户嵌入[136]。Chen等人[131, 132]观察到不同主体的眼神分布不同。他们使用校准样本估计不同主体的估计眼神和真值之间的偏差。他们使用偏差来细化估计。Yu等人通过从校准样本合成眼神重定向的眼图像来生成额外的校准样本[46]。生成的样本也直接用于训练。这些方法都需要标记样本进行监督校准。无监督校准方法最近吸引了很多关注。这些方法使用未标记的校准样本来提高性能。Wang等人提出了一种对齐特征的对抗方法。他们构建了一个判别器来判断图像的来源。特征提取器必须混淆判别器,即生成的特征应该是领域不变的。Guo等人[137]使用源样本形成目标域预测的局部线性表示。相同的线性关系应用于特征空间以生成目标样本的特征表示。同时,他们最小化目标样本的目标生成特征和提取特征之间的差异以进行对齐。Cheng等人[72]提出了一个领域泛化方法。他们提高了跨数据集的性能,而不需要知道目标数据集或接触任何新样本。他们提出了一个自对抗框架来移除面部图像中与眼神无关的特征。Cui等人定义了一个新的适应问题:从成人到儿童的适应[138]。他们使用传统的领域适应方法,测地流核[139],将成人域中的特征转移到儿童域。Bao等人[140]通过将预测的眼神分布与已知的眼神分布对齐来估计关注点。一些在通用任务中众所周知的策略被证明对个性化眼神估计有效。元学习和度量学习在个性化眼神估计中显示出巨大潜力。它们通常需要少量标记样本进行校准。Park等人提出了一个基于元学习的校准方法[47]。他们训练了一个高度可适应的眼神估计网络。该网络一旦用目标个体样本训练,就可以转换为特定于个体的网络。Liu等人提出了一个基于度量的CNN[141]。网络预测两个眼图像之间的眼神差异。在测试阶段,它估计输入和校准图像之间的差异,并将平均结果作为估计。对比学习和均值教师[142]在无监督领域适应中表现良好。它们通常用于跨数据集任务中的眼神估计。Liu等人提出了一个用于无监督跨数据集任务的异常引导的协作学习[112]。他们创建了一组教师-学生网络,其中教师网络在源域中预训练。他们设计了异常引导损失,要求教师和学生网络的输出一致。Bao等人还提出了一个用于无监督跨数据集任务的均值教师架构[111]。他们针对目标域中的旋转进行数据增强,并要求眼神估计中的旋转一致性。Wang等人[143]提出了一个用于跨数据集眼神估计的对比学习。他们提出了一个对比损失函数,以鼓励具有接近眼神方向的样本具有接近的特征距离。

3.3.2 通过用户不知情的数据收集进行校准

在实际应用中,收集足够的校准样本是困难的。以用户不知情的方式收集校准样本是另一种解决方案[144-146]。Salvalaio等人在用户使用计算机时隐式地收集校准数据。他们在用户点击鼠标时收集数据,这是基于假设用户在点击鼠标时凝视光标的位置[146]。他们使用在线学习来微调模型以适应校准样本。一些研究调查了凝视点和显著性图之间的关系[125, 126]。Chang等人利用显著性信息在没有显式校准的情况下适应新用户的眼神估计算法[144]。他们将显著性图转换为可微损失图,该图可用于优化CNN模型。Wang等人引入了一种随机校准过程。他们最小化预测凝视概率分布和真实数据之间的差异[145]。

3.4 设备和平台

3.4.1 相机

大多数眼神估计系统使用单个RGB相机捕获眼图像,而一些研究使用不同的相机设置,例如使用多个相机捕获多视图图像[121, 147, 164],使用红外(IR)相机处理低照明条件[123, 149],以及使用RGBD相机提供深度信息。不同相机及其捕获的图像如图11所示。

Tonsen等人将多个毫米级RGB相机嵌入到普通眼镜框架中[147]。他们使用多层感知器处理不同相机捕获的眼图像,并将提取的特征连接起来以估计眼神。Lian等人在屏幕底部安装了三个相机[121]。他们构建了一个多分支网络来提取每个视图的特征,并将它们连接起来以估计屏幕上的2D凝视位置。Wu等人使用近眼IR相机收集数据[123]。他们使用CNN检测IR图像中光斑、瞳孔中心和角膜的位置。然后,他们使用检测到的特征构建眼模型,并从这些模型估计眼神。Kim等人收集了大规模的近眼IR眼图像数据集[149]。他们合成了额外的IR眼图像,涵盖了面部形状、眼神方向、瞳孔和虹膜等大量变化。Lian等人使用RGBD相机捕获深度面部图像[122]。他们提取眼区域的深度信息,并将其与RGB图像特征连接起来以估计眼神。

3.4.2 平台

眼凝视可以用于估计各种应用中的人类意图,例如产品设计评估[165]、市场研究[166]和人机交互[10, 167, 168]。这些应用可以简单地分为三种类型的平台:计算机、移动设备和头戴设备。我们在图12中总结了这些平台的特点。计算机是外观基础眼神估计的最典型平台。相机通常放置在计算机屏幕的下方/上方[17, 45, 55, 56, 169]。一些工作专注于使用更深的神经网络[17, 50, 54]或额外模块[45, 55, 56]来提高眼神估计性能,而其他研究寻求使用定制设备进行眼神估计,例如多相机和RGBD相机[121, 122]。移动设备包含前置相机但计算资源有限。相关方法通常估计PoG而不是眼神方向,因为几何校准的难度。Krafka等人提出了iTracker用于移动设备[42],它结合了面部图像、两个眼图像和面部网格来估计眼神。面部网格编码了捕获图像中面部的位置,被证明对移动设备中的眼神估计有效[57, 117]。

He等人基于iTracker提出了一种更准确、更快的方法[117]。他们用眼角标志点特征替换了面部网格。Guo等人提出了一种通用的眼神估计方法[152]。他们观察到眼神点估计中的显著抖动问题,并提出使用对抗训练来解决这个问题。Valliappan[170]评估了智能手机上的深度学习眼动追踪。他们展示了算法与现代眼动追踪设备相比具有竞争力的结果。头戴设备通常使用近眼相机捕获眼图像。Tonsen等人将毫米级RGB相机嵌入到普通眼镜框架中[147]。为了补偿低分辨率捕获的图像,他们使用多相机捕获多视图图像,并使用神经网络从这些图像中回归眼神。IR相机也被头戴设备使用。Wu等人使用IR相机收集了MagicEyes数据集[123]。他们提出了EyeNet,这是一个神经网络,用于解决与眼动估计相关的多个异构任务,适用于离轴相机设置。他们使用CNN对3D角膜和3D瞳孔进行建模,并从这两个3D模型估计眼神。Lemley等人使用单个近眼图像作为输入到神经网络,并直接回归眼神[148]。Kim等人遵循了类似的方法,并收集了NVGaze数据集[149]。

3.5 总结

表1总结了现有的基于CNN的眼神估计方法。注意,许多方法没有指定平台[17, 56]。因此,我们将这些方法归类为“计算机”平台。总的来说,开发监督或半/自/无监督CNN结构以估计眼神的趋势在增加。许多最近的研究兴趣转移到通过领域适应或用户不知情的数据收集进行不同的校准方法。第一个基于CNN的眼神方向估计方法是Zhang等人在2015年提出的[17],第一个基于CNN的PoG估计方法是Krafka等人在2016年提出的[42]。这两个研究都提供了大规模的眼神数据集,MPIIGaze和GazeCapture,这些数据集后来被广泛用于评估后续研究中的眼神估计算法。

4 数据集和基准测试

4.1 数据预处理

4.1.1 面部和眼睛检测

原始图像通常包含对眼神估计不必要的信息,例如背景。直接使用原始图像来回归眼神不仅增加了计算资源,也带来了场景变化等干扰因素。因此,通常在原始图像中执行面部对齐以裁剪不必要的信息。一般而言,研究人员首先在原始图像中执行面部对齐以获得面部标志点,并根据这些标志点裁剪面部/眼图像。最近提出了几种面部对齐方法[177-179]。我们在表2中列出了一些典型的面部对齐方法。在获得面部标志点后,相应地裁剪面部或眼图像。没有协议规定裁剪程序。我们提供了一个常见的裁剪程序作为示例。我们让xi ∈ R2表示原始图像I中第i个面部标志点的x,y坐标。中心点x计算为x = 1/n Σn i=1 xi,其中n是面部标志点的数量。面部图像被定义为中心x的正方形区域,宽度w通常根据经验设置。例如,[50]将w设置为标志点间最大距离的1.5倍。眼图像的裁剪与面部裁剪类似,但眼区域通常被定义为中心设置为眼标志点质心的矩形。矩形的宽度基于眼角之间的距离设置,例如,设置为1.2倍。

4.1.2 数据校正

数据校正消除了头部姿态和照明等环境因素。它通过数据预处理方法简化了眼神回归问题。Sugano等人提出通过旋转虚拟相机来校正眼图像,使其指向人脸中的同一参考点[37]。他们假设捕获的眼图像是3D空间中的一个平面,可以在图像上执行虚拟相机的旋转作为透视变换。整个数据校正过程如图13所示。他们计算变换矩阵M = SR,其中R是旋转矩阵,S是缩放矩阵。R还表示旋转后的相机坐标系。旋转后的相机坐标系的z轴zc被定义为从相机到参考点的线,其中参考点通常设置为人脸中心或眼睛中心。这意味着旋转后的相机指向参考点。旋转后的x轴xc被定义为头部坐标系的x轴,以便旋转后的相机捕获的外观面向前方。旋转后的y轴yc可以通过yc = zc × xc计算,xc通过xc = yc × zc重新计算以保持正交性。因此,旋转矩阵R = [xc/||xc||, yc/||yc||, zc/||zc||]。S保持相机与参考点之间的距离,定义为diag(1, 1, dn/do),其中do是相机与参考点之间的原始距离,dn是可以根据手动调整的新距离。他们对图像应用透视变换W = CnMC−1r,其中Cr是原始相机的内参矩阵,Cn是新相机的内参矩阵。眼神方向也可以在旋转后的相机坐标系中计算为。该方法消除了不同头部位置引起的歧义,并校准了相机的内参矩阵。它还旋转捕获的图像以取消头部旋转的翻滚自由度。Zhang等人进一步在[180]中探索了该方法。他们认为缩放不能改变眼神方向向量。眼神方向通过计算。照明也影响人眼的外观。为了处理这个问题,研究人员通常使用灰度图像而不是RGB图像作为输入,并在灰度图像中应用直方图均衡化以增强图像。

4.2 数据后处理

不同的应用需要不同形式的眼神估计。例如,在现实世界的交互任务中,需要3D眼神方向来估计人类意图[7, 181],而屏幕基础的交互则需要2D PoG[10, 182]。在本节中,我们介绍如何通过后处理将不同形式的眼神估计进行转换。我们在表3中列出了符号,并在图14中说明了符号。在本节中,我们将屏幕上的PoG称为2D眼神,将眼神方向称为3D眼神。

4.2.1 2D/3D眼神转换

2D眼神估计算法通常估计屏幕上的目标[42, 86, 144, 152, 183],而3D眼神估计算法估计3D空间中的眼神方向[43, 49, 50, 56, 114]。我们首先介绍如何将2D PoG转换为对应的3D眼神方向g = (gx, gy, gz)。处理流程是我们首先计算相机坐标系(CCS)中的3D眼神目标t和3D眼神起点o。眼神方向可以计算为
为了推导3D眼神目标t,我们通过几何校准获得屏幕坐标系(SCS)相对于CCS的姿态{Rs, Ts},其中Rs是旋转矩阵,Ts是平移矩阵。t计算为t = Rs[u, v, 0]^T + Ts,其中额外的0是SCS中p的z轴坐标。3D眼神起点o通常定义为人脸中心或眼睛中心。它可以通过标志点检测算法或立体测量方法估计。另一方面,给定3D眼神方向g,我们的目标是计算屏幕上对应的2D目标点p。注意,我们也需要像以前提到的那样获得屏幕姿态{Rs, Ts}以及起点o。我们首先计算眼神方向与屏幕的交点,即CCS中的3D眼神目标t,然后使用姿态{Rs, Ts}将3D眼神目标转换为2D目标点。为了推导屏幕平面的方程,我们计算n = Rs[:, 2] = (nx, ny, nz),其中n是屏幕平面的法向量。Ts = [tx, ty, tz]^T也代表屏幕平面上的一个点。因此,屏幕平面的方程是
给定一个眼神方向g和起点o,我们可以写出视线的方程为
通过解方程(2)和(3),我们得到交点t,(u, v, z) = Rs^-1(t - Ts),其中z通常等于0,p = (u, v)是2D目标点在米中的坐标。

4.2.2 眼神起点转换

传统的的眼神估计方法通常以每个眼睛为中心来估计眼神方向。最近,更多的注意力被放在使用面部图像进行眼神估计上,他们定义眼神向量从面部中心指向凝视目标[47, 50, 54, 56]。这里我们介绍一种眼神起点转换方法,以弥合这两种类型的眼神估计之间的差距。我们首先通过校准计算屏幕坐标系(SCS)相对于CCS的姿态{Rs, Ts}和预测的眼神方向g的起点o。然后我们可以根据这些参数写出方程(2)和(3)。3D眼神目标点t可以通过解方程(2)和(3)计算得出。接下来,我们通过3D标志点检测获得新的眼神方向起点on。新的眼神方向可以计算为

4.3 评估指标

用于性能评估的两种指标是角度误差和欧几里得距离。角度误差用于测量3D眼神估计方法的准确性[47, 49, 56]。假设实际的眼神方向是g ∈ R3,估计的眼神方向是^g ∈ R3,角度误差可以计算为:
欧几里得距离已用于测量2D眼神估计方法的准确性[42, 144, 183]。我们用p ∈ R2表示实际的眼神位置,用^p ∈ R2表示估计的眼神位置。我们可以计算欧几里得距离为:

4.4 公共数据集

我们尽力总结了所有关于眼神估计的公共数据集,如表4所示。这些数据集的眼神和头部姿态分布如图15所示。注意,Gaze360数据集没有提供头部信息。我们还讨论了在眼神估计研究中广泛使用的三个典型数据集。Zhang等人提出了MPIIGaze[17]数据集。这是外观基础眼神估计方法最受欢迎的数据集。它包含总共213,659张图像,来自15个受试者。这些图像是在日常生活中收集的,头部姿态没有限制。MPIIGaze数据集提供了2D和3D眼神注释。它还提供了一个标准评估集,包含15个受试者和每个受试者的3,000张图像。这3000张图像由1,500张左眼图像和1,500张右眼图像组成。作者进一步扩展了原始数据集[49, 50]。他们分别提供了相应的面部图像[50]和手动标志注释[49]。EyeDiap[185]数据集由16名参与者的94个视频剪辑组成。它在实验室环境中收集,有三个视觉目标会话:连续移动目标、离散移动目标和浮动球。对于每个受试者,他们记录了总共六次会议,包含两种头部运动:静态头部姿态和自由头部运动。数据收集使用了两个相机:一个RGBD相机和一个高清相机。这个数据集的缺点是缺乏照明变化。

GazeCapture[42]数据集是通过众包收集的。它包含来自1,474名参与者的总共2,445,504张图像。所有图像都是使用手机或平板电脑收集的。每个参与者被要求在没有任何头部运动限制的情况下注视设备上显示的圆圈。因此,GazeCapture数据集涵盖了各种照明条件和头部运动。GazeCapture数据集不提供目标的3D坐标。它通常用于评估不受限制的2D凝视点估计方法。除了上述数据集外,最近还提出了几个数据集。例如,在2018年,Fischer等人提出了RT-Gene数据集[54]。这个数据集提供了准确的3D凝视数据,因为他们使用专用的眼动仪收集凝视数据。在2019年,Kellnhof等人提出了Gaze360数据集[43]。该数据集由238名室内和室外环境中的受试者组成,头部姿态和受试者与相机之间的距离范围广泛。在2020年,Zhang等人提出了ETHXGaze数据集[66]。这个数据集提供了高分辨率图像,涵盖了极端头部姿态。它还包含16种照明条件,用于探索照明效果。

4.5 基准测试

我们在本节中为2D PoG和3D眼神估计建立了基准测试。我们重新实现了典型的凝视估计方法(标记为†)或从他们的手稿中报告性能以进行比较。注意,2D PoG估计方法和3D眼神估计方法不可直接比较,因为它们估计了不同形式的凝视。我们遵循第4.2.1节将估计结果进行转换。我们将2D PoG转换为3D眼神,反之亦然。此外,3D眼神估计方法中有两种不同的凝视定义。传统方法将凝视方向的起点定义为眼睛中心。最近的方法从面部图像估计凝视,他们将凝视向量起点定义为人脸中心。这两种定义之间的差异很小,但直接比较是不公平的。我们还使用第4.2.2节中的后处理方法将这两种定义进行转换。我们分别对2D PoG和3D眼神估计进行了基准测试。3D眼神估计也分为数据集内和跨数据集评估。我们在所有基准测试中用下划线标出了前三名性能。数据集内评估。我们首先展示数据集内评估的比较结果在表5中。第二行包含使用眼图像估计3D眼神的方法,其中凝视起点定义为眼睛中心。第三行的方法从面部图像估计3D眼神。他们将凝视起点定义为人脸中心。最后一行包含从面部图像估计2D PoG的方法。评估数据集包含两个类别,基于数据预处理过程。我们从MPIIGaze[49]、EyeDiap[185]和UT[37]中获取眼图像,并评估将眼睛中心定义为凝视起点的方法在这三个数据集中的结果。结果显示在表5的第三列中。我们从MPIIFaceGaze[50]、EyeDiap[185]、Gaze360[43]、RT-Gene[54]和ETH-XGaze数据集[66]中获取面部和眼图像。我们评估将人脸中心定义为凝视起点的方法在这些数据集中的结果。结果显示在表5的第四列中。

传统方法通常使用眼图像进行凝视估计。Mnist[17]和GazeNet[49]方法使用眼图像和头部姿态向量作为输入进行凝视估计。最近的方法,即第三行的方法,专注于从面部图像估计凝视。尽管计算成本更高,但依赖于面部图像的方法优于以眼图像为中心的方法。值得注意的是,基于面部图像的方法也通常保持超过20帧每秒的可接受推理速度。
在基于面部图像的方法中,GazeTR-Hybird[34]、CA-Net[56]和Gaze360[43]表现更好。Gaze360使用ResNet18进行特征提取,而GazeTR-Hybrid采用ResNet18和变换器的混合架构。预训练显著提高了这两种方法的性能。相比之下,CA-Net利用面部和眼图像的特征,它不需要预训练但网络复杂。关于数据集,Gaze360[43]和RT-Gene[54]是与用户相机距离较大的数据集。大多数方法在这两个数据集中表现出显著的误差,因为图像分辨率低。其他数据集是与用户相机距离较小或使用高分辨率相机收集的。基于外观的眼神估计方法通常在这些环境中实现大约5°的准确率。
跨数据集评估。我们进行了四项任务,包括DE → DM、DE → DD、DG → DM和DG → DD,其中DE、DG、DM和DD分别代表ETH-XGaze[66]、Gaze360[43]、MPIIFaceGaze[50]和EyeDiap[185]数据集。ETH-XGaze和Gaze360被用作训练集,因为它们具有较大的眼神和头部姿态范围。结果如表6所示。无监督领域适应方法通常被提出来解决跨数据集问题。这些方法需要目标图像进行领域适应。我们总结了所需的目标图像数量。Source-free列表示方法在领域适应期间是否需要源图像。

第二行的方法在源数据集上训练模型而无需适应。PureGaze[72]和RAT[111]集成了特定算法以增强模型泛化。他们的模型可以直接应用于多个领域并取得合理的性能。第三行显示了无监督领域适应方法的性能。CRGA[143]和RUDA[111]表现更好,而PnP-GA[112]的要求较低。与第二行的方法相比,这些方法利用目标图像提高特定领域内的模型性能。这种方法为每个领域提供了专用模型,优于PureGaze和RAT。值得注意的是,CSA[143]作为一种无需源数据集的源自由方法,在适应期间不需要源数据集。这种趋势在隐私保护方面具有重要意义。PureGaze-FT[72]每人采样5张图像进行微调。尽管该方法用50张图像就能达到良好的性能,但它需要标记的图像,而以前的方法只需要未标记的图像。2D PoG估计。我们进行了2D PoG估计的实验。我们使用MPIIGaze[49]、EyeDiap[185]和GazeCapture[42]作为评估集,使用欧几里得距离作为评估指标。MPIIGaze和EyeDiap数据集收集了屏幕上的2D PoG。这两个数据集都提供了校准的屏幕姿态,我们可以将眼神方向转换为2D PoG。GazeCapture数据集在移动设备上收集了2D PoG。我们根据设备类型计数结果,例如平板电脑和手机。表7的第二行显示了PoG估计方法的结果。AFF-Net[57]和EFE[187]比其他比较的方法表现更好。第三和第四行显示了转换结果。比较的方法是为眼神方向估计设计的,我们将结果转换为PoG。转换结果显示在EyeDiap数据集中具有良好的准确性,AFF-Net在MPIIGaze数据集中也表现最佳。

5 结论和未来方向

在这项综述中,我们提供了基于深度学习的眼神估计方法的全面概述。与需要专用设备的常规眼神估计方法不同,基于深度学习的方法可以从网络摄像头捕获的眼部外观中回归眼神。这使得算法在现实世界应用中的实现变得容易。我们从四个角度介绍了眼神估计方法:深度特征提取、深度神经网络架构设计、个人校准以及设备和平台。我们总结了外观基础的眼神估计公共数据集,并提供了基准测试以比较最新算法。这项综述可以作为未来眼神估计研究的指南。我们还提出了几个基于深度学习的眼神估计的未来方向。1) 提取更鲁棒的眼神特征。完美的凝视估计方法应该在所有不同的主体、头部姿态和环境中都准确无误。因此,环境不变的凝视特征至关重要。2) 通过快速简单的校准提高性能。系统性能和校准时间之间存在权衡。更长的校准时间可以带来更准确的估计。如何通过快速的校准过程实现令人满意的性能是一个有前景的方向。3) 解释学习到的特征。基于深度学习的方法通常作为凝视估计的黑盒工具。对这些方法中学到的特征的解释将为基于深度学习的眼神估计带来洞见。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章