RGBE-Gaze:用于高频远程凝视追踪的大规模基于事件的多模态数据集
点击上方卡片,关注“AI学术工坊”公众号
点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10706089
论文标题:RGBE-Gaze: A Large-scale Event-based
Multimodal Dataset for High Frequency
Remote Gaze Tracking
作者:Guangrong Zhao, Yiran Shen, Chenlong Zhang, Zhaoxin Shen, Yuanfeng Zhou, Hongkai Wen
各种重磅干货,第一时间送达
论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10706089
论文标题:RGBE-Gaze: A Large-scale Event-based Multimodal Dataset for High Frequency Remote Gaze Tracking
作者:Guangrong Zhao, Yiran Shen, Chenlong Zhang, Zhaoxin Shen, Yuanfeng Zhou, Hongkai Wen
摘要
高频凝视追踪在各种关键应用中都展现出巨大潜力,例如注视点渲染、基于凝视的身份验证和精神障碍诊断。然而,现有的基于 CCD/CMOS 相机的眼动追踪系统要么提供低于 200 Hz 的追踪频率,要么采用高速相机,导致功耗大且设备体积增大。虽然已经有一些基于事件相机的高速眼动追踪数据集和方法,但它们主要针对近眼相机场景量身定制。它们缺乏与远程相机场景相关的优势,例如无需直接接触、增强用户舒适度和便利性以及在自然环境中头部姿势的自由度。在这项工作中,我们提出了 RGBE-Gaze,这是第一个通过同步 RGB 和事件相机进行高频远程凝视追踪的大规模多模态数据集。该数据集是从 66 名不同性别和年龄组的参与者那里收集的。利用定制的混合 RGB-Event 相机设置来收集 360 万张全脸高空间分辨率 RGB 图像和 263 亿个高时间分辨率事件样本。此外,该数据集还包括来自 Gazepoint GP3 HD 眼动仪的 1070 万个凝视参考和通过参与者手动刺激点击获得的 15,972 个稀疏凝视点 (PoG) 地面实况。我们还展示了数据集在头部姿势和距离、凝视方向、瞳孔大小和跟踪频率等特征方面的分布。此外,我们引入了一种专门为收集的数据集设计的基于混合帧事件的凝视估计方法。此外,我们在各种凝视相关因素下对该方法以及现有的基于帧的凝视估计方法进行了广泛的评估,包括不同的主体、凝视方向、头部姿势、头部距离和瞳孔直径。评估结果表明,将事件流作为一种新模式引入数据集可以提高凝视跟踪频率,并在各种凝视相关因素中表现出更高的估计稳健性。
关键字
动态视觉传感器、高频远程注视跟踪、混合帧事件方法。
引言
凝视追踪已在各种研究领域和日常应用中展现出巨大潜力,包括认知科学 [1]、人机交互 (HCI) [2]、教育和培训 [3] 和汽车安全系统 [4]。然而,现有的凝视追踪硬件和软件解决方案往往面临时间分辨率的限制,通常不超过 200 Hz。示例包括 Tobii Pro Fusion/Nano [5]、Pupil Labs [6] 和 Gazepoint GP3 HD 眼动仪 [7]。这些眼动仪主要依赖于 CCD/CMOS 摄像头,其追踪频率受这些设备的帧速率限制。考虑到人眼在扫视过程中可以达到 700◦/s [8] 的峰值角速度和 24,000◦/s2 的加速度 [9],迫切需要高频眼动追踪来揭示快速和不规则眼动中隐藏的信息。这一需求正引领变革性应用的发展,包括降低注视点渲染的功耗 [10]、[11]、捕捉个人独特的眼球运动模式以进行基于注视的身份验证 [12],以及检测眼球运动功能障碍(如扫视潜伏期和不准确追踪),以帮助诊断帕金森病或阿尔茨海默病等精神疾病 [13]、[14]、[15]。
虽然 EyeLink 1000 [16] 和 Tobii Pro Spectrum [17] 等高端追踪器提供 1 KHz 以上的频率,但它们的专用接口、协议和大量的计算要求限制了它们的广泛应用。
最近,生物启发式视觉传感器(称为事件相机 [18]、[19])在各种高速运动捕捉和分析应用中占据了重要地位。这些应用包括帧插值 [20]、光流估计 [21]、事件到视频转换 [22]、手势识别 [23]、[24]、SLAM [25] 和 3D 重建 [26] 等。与以一致帧速率以帧为基础的方式捕捉场景信息的传统 CCD/CMOS 相机相比,事件相机通过单个像素级光强度变化捕捉场景细节,从而产生异步事件流。流中的每个“事件”在检测到每个像素的强度变化时立即触发,提供有关这些强度变化的位置和极性的信息。由于这种异步特性和高效读出,事件相机具有微秒时间分辨率和亚毫秒延迟 [19]。这些特性使得事件相机对于高频注视追踪特别有吸引力。
基于事件的视线追踪已经成为一种革命性的解决方案,它能够在保持低功耗的同时实现超出千赫兹范围的视线追踪。在这方面,已经提出了几种基于事件的眼动追踪数据集和方法。例如,第一个基于事件的眼动追踪工作 EVBEYE [27] 引入了第一个近眼眼动追踪数据集,其中包含 24 个受试者。它提出了一种基于帧事件的混合近眼视线追踪方法,利用参数瞳孔模型根据瞳孔周围的事件更新瞳孔位置。随后,EV-Eye [28] 利用 DAVIS346 事件相机组装了一个更广泛、更多样化的近眼视线追踪数据集,结合了自然的眼球运动模式,如扫视、注视和平滑追踪 [29]、[30]、[31]。提出的 Point2Edge 瞳孔追踪方法可以提供更准确的瞳孔追踪结果。此外,Stoffregen 等人 [32] 提出了一种基于编码差分照明方法的完全基于事件的眼动追踪系统。然而,上述所有基于事件的数据集或方法主要侧重于近眼摄像头场景。
我们知道,凝视跟踪任务通常有两种常见的相机场景[33],即近眼相机场景[6]、[27]、[34]和远程相机场景[5]、[17]、[35]、[36]。在近眼相机场景中,相机传感器位于靠近用户眼睛的位置,使其能够仅聚焦于用户一只眼睛的运动。在远程相机场景中,相机传感器位于距用户一定距离的位置,通常在50厘米到100厘米之间,使其能够捕捉用户眼睛和头部的运动。这两种相机场景有不同的应用,近眼相机通常用于头戴式显示设备,而远程相机通常从显示器或汽车仪表板捕捉图像。相比之下,远程凝视追踪比近眼凝视追踪具有独特的优势,包括无需直接接触、增强了用户的舒适度和便利性以及在自然环境中头部姿势的自由度。这些优势使远程凝视追踪非常适合诸如监控驾驶员行为、婴儿认知分析或其他需要长时间连续监控的场景等应用[37]。然而,远程凝视追踪通常被认为比近眼凝视追踪更困难,因为低分辨率的眼睛图像是用远离用户的摄像头捕捉的,而且需要考虑任意的头部姿势[34]。虽然目前有几个基于帧的远程凝视追踪数据集,如MPIIGaze[35]、ETH-XGaze[36]、Columbia[38]、RT-Gene[39]、EYEDIAP[30]和GazeCapture[40],但据我们所知,目前还没有基于事件的高频远程凝视追踪数据集。本研究旨在填补这一空白,其贡献如下:
我们在文献中引入了第一个基于事件的大规模多模态高频远程凝视跟踪数据集 1,该数据集由 360 万张全脸高空间分辨率 RGB 图像、263亿个高时间分辨率事件样本、1070 万个凝视参考和来自 66 个受试者的 15,972 个稀疏 PoG 地面实况组成。它展示了各种特征、头部距离、凝视方向和瞳孔大小的多样性。此外,根据现有的基于事件的凝视跟踪频率估计方法 [28],该数据集可实现的最大凝视跟踪频率可以超过 13 KHz。 我们设计了一个数据收集系统来应对与收集多模态数据相关的各种挑战。这些挑战包括改善帧像素和事件流之间的空间对齐,以及在眼球运动期间提供凝视参考。 我们提出了一种针对收集的数据集量身定制的基于混合帧事件的凝视跟踪基准测试方法。此外,我们还对该方法以及 RGBE-Gaze 数据集上现有的基于帧的基准测试方法进行了广泛的评估。评估考虑了各种与凝视相关的因素,包括不同的主体、凝视方向、头部姿势、头部距离和瞳孔直径。结果表明,将事件流作为数据集中的新模式纳入可以提高凝视跟踪频率,并增强一系列凝视相关因素的估计稳健性。
3 准备工作
在本节中,我们首先介绍常见的远程注视跟踪模型,概述远程注视跟踪的一般工作流程。接下来,我们介绍 RGBE-Gaze 数据集的不同模式。然后,我们讨论收集系统设计,详细说明如何实现不同模式之间的协调。最后,我们介绍 3D 注视转换方法,该方法解释了如何获取 3D 注视方向作为 RGBE-Gaze 数据集的参考标签。
3.1 远程凝视追踪模型
在本文中,我们探讨了一种常见的远程凝视跟踪模型 [35]、[36]、[50]。术语“远程”是指相机传感器与用户之间的距离为特定距离的情况,通常在 50 厘米到 100 厘米之间。在这种情况下,相机的视野可以覆盖用户的整个面部,从而可以捕捉用户的眼睛和头部的运动。常见的远程凝视跟踪模型 [35]、[36]、[50]、[66] 首先对全脸图像进行归一化,以校正用户的头部运动。随后,从归一化的全脸图像中裁剪出眼睛区域。最后,将眼睛区域和检测到的头部姿势输入神经网络,以回归凝视方向。为了方便起见,我们首先在表 2 中列出了本文使用的关键符号。
3.2 凝视追踪模式
如图 1 所示,RGBE-Gaze 数据集采用四种不同的感知模式,包括 Prophesee EVK4 HD 事件摄像机 [67] 捕获的事件流、FLIR BFS-U3-16S2C RGB 摄像机 [68] 捕获的 RGB 图像、从 Gazepoint GP3 HD 眼动仪 [7] 获得的凝视参考,以及通过参与者的鼠标点击记录的稀疏凝视点 (PoG) 地面实况。
事件流:事件流来自 Prophesee EVK4 HD 事件摄像机,其空间分辨率为 1280x720,延迟小于 100 微秒,动态范围超过 120 dB。该摄像机可捕捉由眼睛和头部运动引起的强度变化产生的正负极性事件。其高时间分辨率使其能够捕捉眼睛周围快速变化的详细阶段。
RGB 图像:RGB 图像由 FLIR BFS-U3-16S2C 相机记录。它采用全局快门操作,具有 1440×1080 的高空间分辨率、226 fps 的最大帧速率以及从 4µs 到 30s 的曝光时间。它捕捉丰富的面部和眼睛纹理信息,有助于面部标志检测和眼睛区域定位。
凝视参考:由于在眼球运动过程中无法获得凝视的真实情况,我们使用商业化的凝视追踪器 Gazepoint GP3 HD 来提供凝视运动参考。该眼球追踪器采用深度摄像头和两个红外光源进行精确的凝视追踪。它估计左眼和右眼相对于深度摄像头焦点的 3D 坐标。此外,它还提供有关计算机屏幕上的凝视点 (PoG)、瞳孔中心、深度摄像头像素域中的瞳孔直径以及真实世界测量值(mm)的信息。记录的数据还包括眨眼持续时间和频率。眼球追踪器的最高采样频率为 150 Hz,经过个性化校准后,凝视估计的角度误差可以达到 0.5。
稀疏 PoG 地面实况:除了 Gazepoint GP3 HD 为移动眼睛提供的凝视参考外,我们还在受试者注视静止刺激时收集稀疏 PoG 地面实况。在数据收集过程中,要求参与者单击刺激的中心,并将屏幕上的鼠标单击位置记录为稀疏 PoG 地面实况。
3.3 收集系统设计
我们设计了一个数据收集系统来解决远程注视跟踪数据集获取中遇到的特定挑战。与近眼注视跟踪系统 [28]、[34] 不同,远程注视跟踪要求使用高空间分辨率摄像机。这种必要性源于这样一个事实:在远程设置中,眼部区域仅占整个摄像机视图的一小部分。现有的事件摄像机,包括 DAVIS 346、DVS 128、三星 DVS 等,[69],都无法满足高空间分辨率的要求。因此,我们选择了目前市场上分辨率最高的 Prophesee EVK4 HD 事件摄像机 [67] 来捕捉事件流。值得注意的是,与 DAVIS 346 事件摄像机(除了事件流之外还可以生成图像帧)不同,Prophesee EVK4 HD 只能输出事件流。为了收集 RGB 帧以实现稳健的特征检测并作为事件更新的基础 [28]、[70],将 RGB 相机与事件相机集成至关重要。为此,我们开发了一种利用分束器的混合 RGB-Event 相机系统 [20]、[71]、[72]。此设置可确保高空间分辨率 RGB 信息与高时间分辨率事件数据的无缝结合。
此外,远程注视跟踪通常旨在规避依赖于主体的校准,强调需要大量注释数据来促进广义表征学习。然而,获取眼球运动期间注视的真实数据是一项挑战。为此,我们使用了商业化的注视跟踪器 Gazepoint GP3 HD,为注视运动提供参考标签。
3.3.1 数据收集设置
数据收集的设置如图 1 所示。在收集过程中,用户坐在桌子前的椅子上,头部运动不受限制。混合 RGBEvent 相机系统由高空间分辨率 RGB 相机 FLIR BFS-U3-16S2C 和高时间分辨率事件相机 Prophesee EVK4 组成,Prophesee EVK4 的对比敏感度阈值偏差 [73] 经过调整以产生足够数量的事件,而 FLIR BFS-U3-16S2C 的曝光时间经过调整以防止过度曝光或曝光不足,从而实现 50 fps 的采集率。Gazepoint GP3 HD 眼动仪位于混合 RGB-Event 相机系统下方,面向拍摄对象的脸部,采样频率设置为 150 Hz。使用分辨率为 1920×1080(52.8 厘米 × 29.8 厘米)的 24 英寸显示器显示刺激圈,引导受试者的注视运动。我们编写了一个同步脚本,以确保在每次数据收集会话之前所有设备都同步。
3.3.2 混合RGB事件相机系统
如图 2(a) 所示,混合 RGB-Event 相机系统由传统 RGB 相机 (FLIR BFS-U3-16S2C) 和事件相机 (Prophesee EVK4) 组成,具有相同的 8mm 焦距、2.0 最大光圈工业 c 型镜头 [74]。50R/50T 分束镜安装在两个传感器前面,以使 RGB 帧与事件流大致对齐。所有设备都用螺丝固定在光学面包板上,以避免滑动。此外,带通光学滤波器 ZLM-532LGP 放置在分束器的入口上方,它可以消除 Gazepoint GP3 HD 眼动仪的高强度红外 LED 对面部和眼部区域的红外反射。
我们对 RGB 相机和事件相机进行几何校准,实现像素到像素的精确匹配,其设置如图 2(b) 所示。首先,我们使用 14 英寸笔记本电脑屏幕在相机系统前显示闪烁的棋盘格。通过逐渐改变屏幕的方向,相机系统同时记录数十帧和相应的事件流。由于 RGB 相机具有更大的空间分辨率,因此其帧被下采样到 1280×720 以匹配事件相机的帧。然后,通过模式帧生成器 [75]、[76] 将事件流转换为棋盘格图像,并提取两个相机的棋盘格的角点以估计两个相机视图之间的单应性矩阵 Th [77]。最后,可以使用单应性矩阵将 RGB 帧扭曲到事件相机的视图。如图 3(a) 所示,视野中的棋盘格图案框(左)与事件流生成的棋盘格图案框(右)很好地对齐。图 3(b) 显示了来自我们的 RGBE-Gaze 数据集的一个示例,左侧是主体面部的 RGB 图像,右侧是超过 20 毫秒内积累的相应事件的可视化。通过定量评估事件相机和 RGB 相机之间的对齐,它在各种拍摄角度和深度上实现了相对较低的均方误差(∼ 0.28 像素)。
3.4 3D凝视转换
在远程凝视跟踪中,获得准确的 3D 注视方向作为参考标签非常重要 [35], [66]。从 3D 刚体变换估计方法 [78], [79] 中汲取灵感,我们提出了一种坐标系变换方法。该方法可以方便地将凝视跟踪器提供的屏幕上的 2D 注视点 (PoG) 转换为 3D 世界中的 3D 注视方向。
如图4所示,获取三维注视方向的一般方法是确定瞳孔中心C与用户在计算机屏幕上注视的点(目标点P)之间的连线,该连线可以近似地看作是眼睛的视线(LoS),三维注视是WCS中LoS方向上的单位向量。但由于这些点的位置对应的坐标系不同,因此在转换之前必须将它们转换到同一个WCS中。
坐标系变换。坐标系变换的关键部分是根据不同坐标系中 个非共线对应点 [80], [81] 的坐标(即图 4(a) 中手动标记的点),估计两个空间笛卡尔坐标系之间的旋转矩阵 和平移矩阵 。我们首先根据右手定则 [82] 定义(世界坐标系,WCS)和(眼动仪坐标系,ECS)。如图 4(a) 所示,WCS 的原点设置在计算机屏幕的左上角,ECS 的原点是眼动仪相机的焦点。坐标系变换的目的是找到 ECS 中的坐标到 WCS 中对应坐标的变换。
为了实现这一目标,我们为多模态数据收集系统提出了一种新的坐标系转换流程。该流程首先在三维空间中找到 个点,并确定它们在 WCS 和 ECS 中的坐标,分别称为 (在 WCS 中)和 (在 ECS 中)。如图 4(b) 所示,为了准确测量 个点的位置,我们在受试者前面放置一块透明亚克力板 (CAS),并借助激光测距仪 [83] 和水平仪使其与计算机屏幕平行。然后,我们在 CAS 上画出 个点,并通过将屏幕和 CAS 之间的距离改变 次来确定不同位置的 个点的坐标,即 。在每一轮中, 个点在 WCS 中的坐标可以用激光测距仪手动测量,而它们在 ECS 中的坐标则借助 Gazepoint 凝视跟踪器进行估计。由于 Gazepoint 能够提供受试者眼睛的 3D 位置,即 ECS 中的坐标,我们需要做的就是让眼睛尽可能靠近透明丙烯酸板上先前手动标记的点。如图 4(b) 所示,我们要求受试者将他们的一只眼睛交替地靠近手动标记的点之一,眼睛的位置可用于近似 ECS 中标记的坐标。将一面镜子放在受试者面前,这样他们就能从反射中知道他们的眼睛和标记之间的相对距离。
旋转矩阵 和平移矩阵 可分别根据 WCS () 和 ECS () 中 个点的测量坐标计算得出。受 3D 刚体变换估计方法的启发,我们求解优化问题,
其中 和 分别是 和 中的样本。由于 ,它是一个超确定性方程,可以通过基于奇异值分解 (SVD) 的方法求解 [81]。利用估计的旋转矩阵 和平移矩阵 ,ECS 中的每个点都可以通过以下方式转换为 WCS:
为了证明坐标系变换对注视跟踪精度的影响,我们在 CAS 上绘制了新的标记,以评估变换的不准确性。结果表明,所提出的变换引入的平均误差小于 0.3 厘米,相当于 0.28 度角。它明显小于远程注视跟踪的误差 [35]、[36]、[51],通常为 4-5 度,证实了我们提出的变换方法的有效性。
PoG 到 3D 注视。如上所述,Gazepoint 眼动仪仅提供 PoG,即计算机屏幕上的注视点,其在 WCS 中的坐标可以通过测量屏幕的高度和宽度轻松获得(例如,图 4(a) 中的目标 )。然后根据公式 (2) 将瞳孔中心在 ECS 中的对应位置(例如,图 4(a) 中的原点 )转换为其在 WCS 中的坐标。最后,LoS 是从瞳孔中心到 WCS 中的 PoG 的 3D 矢量,例如从原点 到目标 ,3D 注视方向 go 是 LoS 方向上的单位矢量,即 。
4 RGBE-Gaze 数据集
基于事件的多模态数据 RGBE-Gaze 数据集包括从一组不同的参与者在多个会话中收集的眼球运动、头部姿势和相关变量的详细记录。详细讨论了数据收集协议、收集数据的特征以及头部姿势、注视方向、瞳孔大小和跟踪频率等关键特征的分布。此外,还采用多模态数据规范化方法作为预处理技术,以减少头部姿势的变化,从而进一步提高基于学习的方法的效率。
4.1 收集协议
对于每个参与者 2,我们设计了六个记录环节,以介绍各种眼动状态和头部姿势。在前四个环节中,计算机屏幕被划分为 11×11 网格,创建 121 个方块。一个脉动的红色圆圈以随机顺序出现在方块的中心,代替一个简单的点以尽量减少干扰。此序列对于每个参与者保持一致。圆圈在 1.8 秒内扩大到最大直径 90px,显示文本“点击!” 0.5 秒,然后在 1.2 秒内缩小到直径 30px。参与者找到刺激物并在看到“点击!”后立即点击其中心。前两个环节涵盖了 121 个点中的最初 60 个点,而后续两个环节则呈现剩余的 61 个点。此序列能够在眼动过程中触发和捕获扫视和注视状态。在最后两个环节中,参与者被要求注视屏幕上平滑移动的刺激物。刺激物最初从右下角水平移动到左上角,然后从左上角垂直移动到右下角。轨迹遵循可预测的方波模式,水平路径间隔 54px,垂直路径间隔 96px,每个方向有 20 条路径。这种运动模式有助于捕捉与平滑追踪相关的眼球运动模式。在所有环节中,参与者被鼓励自由调整坐姿并根据需要移动头部。这种灵活性确保了头部姿势的多样性以及受试者头部与计算机屏幕之间距离的变化。
4.2 数据分布及特点
我们招募了 66 名年龄在 18 至 28 岁之间的参与者(37 名男性和 29 名女性)。每位参与者在两周内参与了六次会议。数据集包括从 RGB 相机 FLIR BFSU3-16S2C、事件相机 Prophesee EVK4 和眼动仪 Gazepoint GP3 HD 收集的多模态数据。具体来说,RGB 相机捕获 360 万张 RGB 图像,事件相机产生超过 263 亿个事件样本,眼动仪收集 1070 万个参考。此外,还记录了受试者 15,972 次鼠标点击(在计算机屏幕上)的坐标位置。数据集的总容量已达到 2.16 Tb。图 5 显示了 9 名受试者的远程全脸 RGB 图像,图像在两个连续帧之间叠加了 20 毫秒的事件。在一些样本中,受试者的头部在运动,导致大量事件覆盖整个脸部。在其他样本中,受试者的头部静止而眼睛在移动,导致事件集中在眼睛周围。我们还在图 6 中展示了从 6 个受试者的全脸样本中裁剪的眼睛区域图像。这些图像与两个连续帧之间 20 毫秒内发生的事件叠加,说明了眼睛区域的外观变化。
头部姿势和头部距离。我们首先在图 7(a) 中绘制整个数据集中 2D 头部姿势角度 (在从 转换的偏航和俯仰方向,参见第 4.3 节)的分布,“热度”值的颜色编码范围从蓝色到红色,表示从最小到最大的采样频率。我们数据集中的头部姿势角度在俯仰方向上的范围为 10 到 50 度,在偏航方向上的范围为 -20 到 25 度。图 7 进一步显示了受试者头部与计算机屏幕之间距离的 PDF,即头部距离 ,记录的大多数距离在 60 厘米到 80 厘米的范围内,计算的平均值是 66.36 厘米。
注视方向。之后,我们在图 8(a) 中显示了 2D 注视角度 的分布(在偏航和俯仰方向上由 3D 注视方向 转换,参见第 4.3 节)。注视角度在俯仰方向上为 [-30,15] 度,在偏航方向上为 [-25,25] 度。此外,图 8(b) 还说明了当受试者注视静止刺激时鼠标点击的屏幕坐标,称为稀疏 PoG 地面实况,用红点表示。同时,我们展示了 Gazepoint GP3 HD 眼动仪在最接近鼠标点击时刻提供的 PoG 参考坐标,用蓝点表示。
瞳孔大小。我们展示了整个数据集中瞳孔大小的分布。在图 9(a) 和 9(b) 中,我们展示了瞳孔直径的累积分布函数 (CDF) 和概率密度函数 (PDF)。我们观察到所有受试者的瞳孔直径大多在 2.5 毫米至 5.5 毫米范围内,其中最大比例在 4 毫米左右。
跟踪频率。最后,RGBE-Gaze数据集的视线跟踪的最高时间分辨率可以参考现有的基于事件的近眼眼动追踪中的跟踪频率计算方法(例如EV-Eye [28])。此过程涉及首先从整个面部事件流中裁剪出眼睛区域,然后将其转换为体素网格以进行网络推理(参见第5.2节)。瞬时跟踪频率使用公式 计算,其中Tn表示每组N中第一个和最后一个事件之间的时间差。这里,N是更新的事件数,表示每当眼睛区域积累N个事件时,它们将与从前一帧开始的事件合并并转换为体素网格以进行视线更新。不同更新事件数的最高更新频率如图10所示。
4.3 预处理
我们介绍了一种针对数据集的数据预处理方法,即多模态数据规范化。数据预处理的核心思想是减少受试者头部姿势的变化,这可以使基于学习的方法更有效[66]。简而言之,它通过相机旋转和缩放将以不同姿势和拍摄距离捕获的输入图像和事件流映射到规范化空间[35],[84]。它通常从地标检测方法开始估计3D头部姿势,然后可以使用3D头部姿势以及相机校准信息进行数据规范化。图11显示了多模态数据规范化的过程。
标志点检测。为了在检测精度和计算时间复杂度之间取得平衡,我们利用最流行的开源库 Dlib [85]、[86] 进行眼睛和面部点检测。如图 11 (a) 第一行所示,Dlib 库获得的代表眼睛和鼻子角的六个标志点显示为绿点。
从相机坐标系 (CCS) 到头部坐标系 (HCS) 的平移 和旋转 可以按如下方式求解。如图 11 (a) 第一行所示,根据右手定则 [82],我们首先将 HCS 的原点定义为左眼中点。 轴即 由连接两眼中点的线确定,从左眼延伸到右眼; 轴即 设置为在三角平面内垂直于 轴,方向从眼睛到鼻子。因此, 轴即 垂直于三角形并从脸部向后指向。然后如何获得 和 是一个经典的透视变换问题,可以通过 OpenCV 库 [87] 中提供的solvePnP函数解决。
多模态数据归一化。归一化过程旨在求解 3D 转换矩阵 ,将眼球中心置于归一化 CCS 中的固定位置,其中 和 分别是旋转矩阵和缩放矩阵。为了获得它们,归一化图像需要满足以下三个条件:
如图 11(b) 底部所示,为了将左眼中心定位在标准化图像的中心,标准化相机必须朝向 HCS 的原点。因此,CCS 的旋转 z 轴(即 )必须是 。
我们希望标准化的眼睛是水平的,即 HCS 的 轴在标准化图像中显示为水平线。因此,HCS 和 CCS 的 x 轴在同一平面上,旋转的 轴定义为垂直于 和 ,即 。然后,旋转相机的剩余 轴定义为 ,旋转矩阵 定义为:
如图11(c)下行所示,标准化图像中的眼睛始终具有相同的大小,即标准化相机与左眼中心的距离为固定的 。因此,缩放矩阵Sc定义为 .
在获得 3D 缩放和旋转矩阵 之后,将其转换为可直接应用于图像像素和事件点的透视图像扭曲矩阵 ,其中 是从相机校准中获得的原始相机投影矩阵, 是为标准化相机定义的相机投影矩阵。值得注意的是,在这个标准化阶段,我们近似认为头部姿势在两个连续帧之间不会发生太大变化。因此,我们忽略事件点的时间信息,将它们视为与帧类似的 2D 平面上,以便这些事件点可以使用与图像像素相同的扭曲矩阵,即 。
此外,除了对眼睛图像和事件点进行归一化之外,头部姿势和 3D 凝视向量也应变换到相同的归一化空间中。根据 Zhang 等人 [66] 的论述,归一化后的头部姿势用旋转矩阵 计算,可以表示为 2D 旋转向量(偏航和俯仰方向)h。此外,归一化的凝视向量可以定义为 ,其中 是 3D 世界中的原始凝视方向向量(参见第 3.4 节)。
5 评估
在本节中,我们采用几种基准测试方法来评估 RGBE-Gaze 数据集的凝视跟踪。首先,我们介绍角度误差评估指标和基准测试方法。随后,我们展示了不同凝视相关因素(包括凝视方向、头部姿势、头部距离和瞳孔直径)对凝视跟踪精度的影响。这些因素已在现有的远程凝视估计数据集 [31]、[35]、[36] 中被广泛选择,以展示数据集的多样性。我们将基于帧事件的混合凝视跟踪方法与基于帧的方法进行比较,以说明整合事件数据如何影响这些凝视相关因素在不同变化范围内的凝视跟踪精度。
5.1 评估指标
我们采用远程注视跟踪任务中最常用的指标 [29]、[33]、[35]、[36]、[39]、[50],即角度误差(以度为单位),来评估各种基准测试方法。该指标量化了参考 3D 注视方向 (由 Gazepoint 眼动仪获得)与预测 3D 注视方向 之间的差异。角度误差定义如下:
5.2 基准测试方法
我们实现了基于帧事件的混合注视跟踪方法(即 RGBE-Gaze 方法),以及五种现有的基于帧的注视跟踪任务基准测试方法。预处理策略在所有方法中保持一致(参见第 4.3 节)。此外,除了 RGBEGaze 方法之外,五种现有的基于帧的基准测试方法的超参数设置、数据输入形状和损失函数均按照其原始论文中提供的规范进行配置。
RGBE-Gaze 如图 12 所示,基于帧事件的混合注视跟踪网络是一个受扩张网络 [50] 启发的多分支模型。它包含两个分支,一个用于帧,另一个用于事件流。
我们首先介绍网络输入。在第一个分支中,我们从归一化帧的中心裁剪眼睛图像。随后,将其转换为分辨率为 的单通道灰度图像,表示为 。在第二个分支中,我们同样利用归一化的事件点从眼睛区域裁剪事件流。然后将眼流转换为体素网格 [20]、[55]、[56]。我们使用 表示通过在时间 和 之间转换事件形成的体素网格,其中 表示最后一个眼帧所在的时刻, 是我们期望获得凝视估计结果的时刻,它也被定义为体素网格的时间戳。我们将体素网格的时间箱数设置为 5 [55],表示为 。体素网格的时间分辨率(两个连续体素网格之间的时间差)设置为 0.4ms,即 ,导致凝视更新频率为 2500 Hz。此外,体素网格的空间分辨率与灰度图像保持相同,即 ,导致体素网格的形状为 (64, 96, 5)。我们总是将体素网格与两个相邻帧的前一帧配对以形成帧事件体素对,作为网络的输入。此外,对于每个凝视参考,我们识别时间上最接近的帧事件体素对,以形成用于训练和测试的标记样本。
然后,我们描述网络架构。对于每个分支,网络以四个卷积层(Conv)开始,中间(第二个和第三个 Conv 之间)有一个大小为 (2,2) 的最大池化层。这四个卷积层的输出通道大小分别为 64、64、128 和 128。所有卷积层的内核大小、步幅和填充分别设置为 (3,3)、1 和 1。随后,应用 卷积层,然后是四个扩张卷积层(Dilated-Conv)和一个完全连接层。扩张卷积层的扩张率分别指定为 ((2, 2), (3, 3), (4, 5) 和 (5, 11))。帧和事件分支的输出以及头部姿势角度 被连接在一起。然后将这些组合信息输入到两个分别具有 514 个和 256 个节点的全连接层中。每个卷积层、扩张卷积层和全连接层都包含批量归一化层,并将 dropout 层应用于所有全连接层。随后,整流线性单元 (ReLU) 用作所有卷积层和全连接层的激活函数。最后,网络的输出是 2D 注视角度向量 ,可进一步转换为 3D 注视方向向量 [35]。训练过程利用 损失和 Adam 优化器。
RGBE-Gaze (w/o EB) RGBEGaze 模型的修改版本,保留了 RGBE-Gaze 模型的帧分支和头部姿势角度输入,并删除了事件分支,其训练和测试样本以及注视参考与 RGBE-Gaze 模型一致,唯一不同的是删除了每个帧-事件体素对的事件体素网格。
MnistNet [88] 这是第一个深度学习驱动的基于外观的凝视跟踪模型。它以灰度眼罩图像作为输入,并通过四层网络架构对其进行处理,该架构由两个卷积层和两个从基于 LeNet 的架构继承而来的全连接层组成。由于头部姿势为凝视方向提供了部分信息,因此它也被纳入全连接层。对于所有基于帧的方法,我们为每个图像样本识别时间上最接近的凝视参考,以形成用于训练和测试的标记样本。
GazeNet [35] 它是 MnistNet 的扩展版本,由继承自 16 层 VGG 网络的 13 个卷积层和另外三个全连接层组成。与 MnistNet 类似,头部姿势也作为补充凝视信息输入到全连接层中。
RT-Gene [39] 它是一个基于多分支的模型,由双流 VGG-16 网络组成。该架构以左眼贴片、右眼贴片和头部姿势贴片作为输入。
FullFace [89] 这是一种基于全脸外观的视线跟踪方法,无需任何眼罩。整个网络从继承自 Alexnet 的特征提取器开始,然后结合空间加权机制,隐式编码面部图像中多个卷积层的关键位置信息。网络以 损失进行训练,以与原始论文保持一致。
Dilated-Net [50] 这是一个利用扩张卷积层 [90] 的模型,它可以有效地增加卷积滤波器的感受野大小,而不会影响参数数量。我们采用原始论文中提供的 SingleEye Dilated-Net 版本 [50] 进行评估,该版本以单眼图像和头部姿势作为输入。
5.3 不同主题的评价
我们首先评估不同受试者的注视跟踪准确性。根据受试者 ID,将数据集分为两部分用于训练和测试;编号从 1 到 33 的受试者被分配到第一部分进行训练,编号从 34 到 66 的受试者被分配到第二部分进行测试。对于每个受试者,所有六个记录会话的数据都包括用于训练和测试。此外,由于整个数据集的规模很大,数据处理非常耗时。为了建立一个易于未来研究人员比较的基准,提取整个数据集的一个子集(即 (2%))进行训练和测试,而不是使用整个数据集。用于训练和测试的样本子集足够大,与现有的远程注视跟踪数据集相比,可以产生合理的注视估计结果(参见表 1)。我们展示了不同基于帧的方法的注视跟踪结果。从图 13 中的结果中,我们可以观察到所有基于帧的方法都实现了 6 度以内的平均角度误差。具体来说,Dilated-Net 的估计精度最高,平均角度误差为 4.96 度,其次是基于 Multi-Branch 的方法 RT-Gene,平均角度误差为 4.99 度。随后,第一个深度学习驱动的视线跟踪方法 MnistNet 及其扩展版本 GazeNet 的平均角度误差分别为 5.09 度和 5.80 度。最后,基于全脸的方法 FullFace 的平均角度误差为 5.55 度。
接下来,我们评估了合并事件数据的影响。我们评估了基于帧事件的混合方法 RGBE-Gaze。鉴于 Dilated-Net 在所有基于帧的方法中实现了最低的平均角度误差,我们将其分离出来,以便在后续评估中与 RGBE-Gaze 单独比较。从完整数据集中提取的 RGBE-Gaze 和 Dilated-Net 的帧索引完全相同。此外,为了进一步验证事件流的实用性,我们引入了 RGBEGaze(w/o EB)方法进行比较。该方法利用从 RGBE-Gaze 方法使用的帧事件体素对中提取的帧样本。评估结果如图 13 所示。总体而言,我们观察到 RGBE-Gaze 的平均角度误差低于 Dilated-Net,从 4.96 度降至 4.57 度。但是,如果我们从 RGBE-Gaze 中删除事件分支,即 RGBEGaze(无 EB)会将平均角度误差从 4.57 度增加到 4.86 度。此外,值得注意的是,对于大多数受试者(26),RGBE-Gaze 的角度误差小于 Dilated-Net。具体来说,受试者 54 和 45 使用 Dilated-Net 后,角度误差减少了 1 度以上。同样,对于大多数受试者(23),RGBE-Gaze 的角度误差也小于 RGBE-Gaze(无 EB)。具体来说,受试者 54、37、62 和 46 使用 RGBE-Gaze(无 EB)后,角度误差减少了 1 度以上。RGBE-Gaze 与 Dilated-Net 的比较结果表明,整合事件流可以提供更高的更新频率,从而使帧-事件-像素对样本在时间上比帧样本更接近凝视参考,这有助于获得更准确的凝视跟踪模型并实现更准确的估计结果。这表明整合事件流以获得更高频率的信息是有意义的。
数据集质量比较:表 1 展示了 RGBE-Gaze 数据集与当前最先进的远程凝视跟踪数据集(包括 ETH-XGaze [36]、MPIIGaze [35]、EYEDIAP [30]、EVE [31])在跨人凝视跟踪任务中的准确度比较。这些数据集的凝视跟踪准确度结果来自各自的出版物 [30]、[31]、[35]。比较结果表明,我们的 RGBE-Gaze 数据集达到了与当前最先进的数据集相当的准确度水平,证实了我们数据集的高质量。此外,值得注意的是,引入事件流作为一种新模式的主要目标之一是提高凝视更新率。我们的数据集可以提供超过 2500 Hz 的更新率,这明显高于最先进的基于视频的数据集提供的 60 Hz 更新率(只有基于视频的数据集才会记录视频中的数据,从而引入更新率的概念,而其他数据集会在参与者注视静态点时触发单个图像,因此缺乏定义的更新率),甚至超过了目前市场上商业眼动仪(如 EyeLink 1000 plus [16](2000 Hz)和 Tobii Pro Spectrum [17](1200 Hz))提供的最高频率。
5.4 不同注视方向的评估
然后,我们分别在图 14(a) 和 14(b) 中展示了 RGBE-Gaze、RGBE-Gaze (w/o EB) 和 Dilated-Net 在不同参考注视角度方向上的角度误差分布。对于每种方法,我们都采用与第 5.3 节中所述的相同的测试模型和测试数据集,报告所有受试者的平均结果。为了更清楚地展示分布趋势,对于每个注视角度方向,即水平注视角度 (偏航角) 和垂直注视角度 (俯仰角),我们显示了每个 0.3 度间隔内的平均角度误差。首先,从图 14(a) 的结果中,我们可以观察到 RGBE-Gaze 的平均角度误差几乎总是低于 RGBE-Gaze (w/o EB) 和 Dilated-Net,在水平注视角度范围 (-20 到 20) 内,角度误差保持在 5 度以下。其次,从图 14(b) 的结果中,我们可以观察到,在垂直注视角度的中心范围内,即 ,与 RGBE-Gaze (w/o EB) 和 Dilated-Net 相比,RGBE-Gaze 始终表现出较低的角度误差。最后,所有方法在两个不同的角度方向上都表现出相似的趋势,即当接近注视范围的边缘时,平均角度误差会增加。这些限制与大多数现有的凝视估计工作类似 [27]、[35]、[39]、[40]。未来的一个潜在解决方案是收集更大角度的凝视参考,例如采用类似于 ETH-XGaze [36] 的多摄像头设置。
5.5 不同头部姿势下的评估
在不受约束的视线跟踪场景中,受试者通常表现出不同的头部姿势角度。我们研究了这些变化对视线跟踪精度的影响。对于每个头部姿势角度方向,即头部姿势的水平头部姿势角度(偏航)和垂直头部姿势角度(俯仰),我们计算三种方法在每个头部姿势角度间隔 0.3 度内的平均角度误差。三种方法的结果分别如图 14(c) 和 14(d) 所示。总体而言,我们可以在大多数头部姿势角度范围内观察到,即 (水平)和 (垂直),RGBE-Gaze 的平均角度误差几乎总是低于 RGBE-Gaze(w/o EB)和 Dilated-Net。此外,随着头部姿势角度范围接近边缘,所有方法的平均角度误差波动都会增加。一种可能的解释是,头部姿势角度边缘的样本太少(参见图 7(a)),在这种情况下,可能没有足够的数据进行准确的模型学习。此外,稀疏的测试样本有助于提高平均估计结果对异常值的敏感性。与凝视方向差异的研究类似,使用多摄像头设置(如基于 SOTA 帧的数据集 ETH-XGaze [36])是未来的潜在解决方案。
5.6 不同头部距离的评估
正如许多商用眼动仪用户手册推荐最佳使用距离 [7]、[17] 一样,受试者头部到屏幕的距离,即 dh,可能是凝视追踪的潜在影响因素。我们评估了不同凝视估计方法对头部距离的稳健性。我们计算了三种方法在每个 0.1 厘米距离间隔内的平均角度误差,结果如图 15(a) 所示。总体而言,我们可以观察到,在头部距离的边缘,尤其是在大于 73 厘米的距离处,所有方法的平均角度误差及其波动范围都会增加。此外,我们可以发现,在绝大多数头部距离范围即 中,RGBE-Gaze 的平均角度误差几乎总是低于 RGBE-Gaze (w/o EB) 和 Dilated-Net 的平均角度误差。
5.7 不同瞳孔直径的评估
瞳孔大小与人的注意力有关[31],其变化可能会影响眼部区域的外观。我们研究了其与凝视估计精度的关系。我们展示了每个瞳孔直径间隔0.04毫米内的平均角度误差,结果如图15(b)所示。通过比较不同方法的精度,我们可以观察到所有方法的角度误差在瞳孔直径的边缘略有增加,RGBE-Gaze的角度误差增加小于RGBE-Gaze(w/o EB)和Dilated-Net。此外,在几乎所有的瞳孔直径范围内,与RGBE-Gaze(w/o EB)和Dilated-Net相比,RGBE-Gaze始终表现出较低的平均角度误差和较小的角度误差波动范围,这种差异在瞳孔直径的边缘尤为明显。
6 限制
RGBE-Gaze 多模态数据集与之前评估的基准一起,为推进高频凝视跟踪算法提供了易于获取的资源。这些资源促进了针对需要详细分析高速凝视跟踪的应用的研究和开发,例如注视点渲染和精神障碍诊断。然而,它并非没有局限性。首先,我们的数据集目前完全从学术机构收集,主要由亚裔学生组成。这可能会引入偏见,特别是在种族多样性方面。我们计划在未来扩展我们的数据集,以纳入更多不同的参与者。此外,虽然与现有的基于视频的远程凝视跟踪数据集 [30]、[31] 相比,我们的数据集以 150 Hz 的更高时间频率提供凝视参考,但以高更新率注释每个事件体素网格样本目前仍然是一个挑战。此外,虽然 RGBEGaze 的头部姿势和注视方向范围涵盖了大多数日常人类场景,但它们并不比仅基于 RGB 的最先进的远程注视跟踪数据集(例如 ETH-XGaze [36])的范围大,并且还需要更多样化的照明条件来增强数据集的可用性。我们计划在未来扩展数据集的头部姿势和照明条件,可能使用类似于 ETHXGaze [36] 的多摄像头设置或在野外环境中收集数据,例如 Gaze360 [51]。
此外,虽然 RGBE-Gaze 的基准测试方法达到了与当前最先进的数据集相当的精度,但仍有几项努力可以进一步提高凝视估计性能。在数据集预处理阶段,以及许多其他现有的远程凝视跟踪方法 [35]、[36],我们利用流行的开源库 Dlib 进行眼睛和面部点检测。然而,更精确的头部姿势估计方法,如手动地标标记或神经网络方法 [39],可以提高准确性。此外,虽然数据规范化减少了受试者头部姿势的变化,但它可能会丢弃与自然姿势变化相关的信息。通过集成深度感应相机(如 RGB-D 相机)来构建具有事件流的 3D 凝视估计模型来应对这一挑战,可以最大限度地保留头部姿势信息。此外,与包括 ETH-XGaze 和 MPIIGaze 在内的多项远程凝视跟踪研究一样,我们使用该数据集的主要目的是鼓励未来研究使用事件相机开发高频凝视跟踪的新算法。在这项研究中,我们不讨论眨眼。由于 Gazepoint 眼动仪直接提供眨眼指数,因此我们将眨眼样本排除在评估之外。制定有效的眨眼识别算法代表了该数据集的另一个有前途的研究途径。
最后,虽然基于 RGBE-Gaze 开发的凝视跟踪算法可以支持离线分析以诊断某些精神疾病,但提高实时性能对于需要高频凝视跟踪的应用(例如注视点渲染和基于凝视的身份验证)至关重要。头部和身体运动引起的显著噪声事件以及数据预处理过程中的其他背景噪声会严重影响数据读取速度。此外,RGBE-Gaze 网络目前包含 2,579,650 个参数。在 NVIDIA 3070 笔记本电脑 GPU 上,处理一个凝视样本大约需要 3.5 毫秒,而在 NVIDIA 3090 GPU 上则需要 2.4 毫秒。未来的研究方向包括开发新的过滤算法以消除与凝视无关的事件点,并集成量化 [91] 和混合精度技术 [92] 以减少基于事件的高频凝视跟踪中的模型大小和运行时计算成本。
总结
在本文中,我们介绍了首创的大规模多模态高频远程凝视跟踪数据集。利用自定义的混合 RGB-Event 相机设置和商用眼动仪,我们从 66 个受试者那里收集了大量数据集,包括帧、事件流、凝视估计参考和稀疏 PoG 基本事实。此外,我们还介绍了一种针对该数据集量身定制的基于混合帧事件的凝视跟踪基准测试方法。对 RGBE-Gaze 数据集上各种基准测试方法的综合评估表明,引入事件流作为一种新模态不仅可以提高凝视跟踪频率,而且在各种凝视相关因素中表现出更高的估计稳健性,包括不同的受试者、凝视方向、头部姿势、头部距离和瞳孔直径。