无需摄像头的低成本AR/VR眼动追踪技术:谷东科技与北京交通大学携手发布最新研究成果

科技   2024-10-11 15:20   广东  

连接未来,增强现实 


近期,Optics发表了一项由北京交通大学与谷东科技携手取得的创新性研究——一种无需依赖高成本摄像头的创新低成本眼动追踪系统


该系统巧妙地运用了塑料光纤(POF)作为光传输介质,通过设计独特的45°双形表面(相对于垂直方向)波导结构,有效实现了眼睛反射光的耦合与传输。研究团队利用SE-Resnet18神经网络,对涵盖76个不同注视方向的观察图像进行了精准分类,系统准确率高达96.9%。

在AR/VR技术领域,眼动追踪作为一项关键技术,对于提升用户体验、优化渲染效率具有重要意义。然而,传统的眼动追踪方案多依赖于高成本的摄像头,这不仅增加了设备的制造成本,还带来了能耗上的挑战。


北京交通大学与谷东科技研发的这一眼动追踪系统使HUD或XR眼镜内部无需安装摄像机和红外光源,从而有效降低了功耗和设备重量.同时也降低了成本和设备复杂性。在佩戴眼镜用户适应性、人机交互(HCI)以及医疗诊断等多个领域展现出广阔的应用前景。目前,该项目已荣获国家自然科学基金的支持,并被纳入国家重点研发计划之中,标志着其研究价值与应用潜力得到了高度认可。


系统实现:


大多数XR头显中的眼动追踪功能都采用摄像头获取图像,从而确定人眼的运动。塑料光纤以其大直径、高数值孔径的显著优势,展现出卓越的光学传输性能,同时加工成本低廉、工艺简便。研究团队通过巧妙设计,将塑料光纤作为光传输的“高速公路”,实现了眼睛反射光的高效传输。

 图1:用于传输眼睛反射光的POF的结构:(a)波导轨结构的制作图 (b)可从眼睛收集反射光的光纤波结构示意图 (d)可以收集从眼睛发出的反射光的玻璃的图片 (e)可通过该耦合光纤采集的眼睛区域


首先将POF固定在一个平面上,然后对其进行圆锥形处理以形成所需的45°角双形表面。通过这种方式,POF能够高效地耦合并传输来自眼睛的反射光,当光线从侧面耦合到光纤上时,它会在光纤抛光的侧面反射并向前传播。在波导设计中,光纤的后端涂成黑色,有效防止环境光从后端进入光纤并干扰输出。光纤抛光后,用650nm激光从光纤远端输入光纤,激光的功率为1mw。大量的光能从纤维的侧面泄漏,如图C所示验证了良好的侧耦合能力。实验中使用的粉末直径为2mm,侧磨深度为1mm。为了提高侧联接头的效率,将两个直径为3mm的半球形透镜粘在纤维槽的背面。


图d为已完成的注视跟踪设备的图片。将POF固定在眼镜的上边缘,眼镜长5.4厘米,宽2.9厘米。通过测试发现,一个凹槽收集的眼睛反射光不能完全包含眼球的信息,因此在底座上设计了两个凹槽结构,它们之间的距离为1cm。可以清楚地观察到,眼球所在的区域已经包括在红光所覆盖的范围内,如图e所示根据光的路径可逆性原理,来自眼睛的反射光也可以通过这个波导结构耦合到光纤中。

图2:注视跟踪的实验结构示意图。(a)眼球追踪实验示意图。(b)实验者进行实验的照片。(c)在计算机屏幕上显示的目标点

电脑屏幕被分成几个区域,每个区域的中心作为眼睛的大方向位置。区域中心有红点,本文定义为目标点。每个目标点都按顺序出现在屏幕上。在这个过程中,眼睛就会盯着目标点。从屏幕反射眼睛进入POF。为了防止由于屏幕更改而导致输出规格网格图的变化,每个目标点都非常小,面积约为屏幕大小的1/3000。光纤的输出端是由眼睛反射的边缘光通过光纤传输后形成的斑点图,由RGB彩色相机捕获并存储在计算机中。


 图3:(a)闭眼和眼睛对应的斑点图。(b)斑点图对应于看左和右。(c)对应的投影图

当目标点在屏幕上移动时,注视点在此过程中的位置也会发生变化,瞳孔和角膜通过纤维反射形成的斑点图都存储在计算机中。在实验中,每个目标点在屏幕上停留20秒,摄像机以视频的形式存储不同目标点所对应的输出斑点,帧数为21帧。共有420个斑点图对应于每个记录点。在实验中,设置了三种分辨率进行测试,识别出的目标点数分别为76、45和15个,如图所示。2(c).图2(b)是一张实验的照片。


测试仪的头部由一个头部支架固定,以确保系统的稳定性,面部与电脑屏幕之间的距离为55厘米。当屏幕上有76个目标点时,两个目标点之间的距离为4cm.两个注视方向之间的角度是4.1。为了直观地观察这些斑点之间的差异,图3在眼睛闭上、睁开、向左、向右、向上、向下看时显示相应的斑点图。这些斑点图成对分组,并在图中。3(a)–3(c)每组图下面的图表表示两个图之间的差异。图中的x和y表示图像的长度和宽度,z 表示相应位置的内像素值的差值。


图4:SE-Resnet18的原理图

在实验验证中,研究团队采用了SE-Resnet18深度学习模型对来自76个不同注视方向的散斑图进行了精准分类,分类准确率高达96.9%。在实验中,将每一组斑点图输入到神经网络进行序列训练,用于分类的网络结构为SE-Resnet18,其示意图如上图所示。


另外值得注意的是,该研究提出的se-resnet网络对每幅图像进行预测大约需要6ms,并且该系统具有实时跟踪注视的能力。此外,该实验还探讨了该系统性能直径的影响,直径为1.5mm的POF作为测试的指南。分类准确率为97%。通过比较,我们不难发现太厚的pof灵活性较差,不适合可穿戴设备。过薄的pof在内部抛光时难度较大,且侧面抛光的区域较小,不利于收集来自眼球的反射光。因此,该眼球跟踪系统的POF直径范围为1.5mm到2mm之间。


完整论文:Cost-effective gaze tracking system based on polymer fiber specklegrams

https://opg.optica.org/ol/abstract.cfm?uri=ol-49-18-5027

END



谷东科技
科技以人为本,智慧赋能行业。
 最新文章