研究人员来自乔治亚理工学院和伊利诺伊大学厄本那-香槟分校,提出了一种新的凝视目标估计框架Gaze-LLE,该框架通过静态DINOv2视觉编码器和简约解码器模块,消除了复杂的多分支架构。Gaze-LLE显著减少了可训练参数,计算量减少95%,并在多个基准测试中实现了先进的性能,尤其在GazeFollow数据集上取得了0.958的AUC和0.099的平均L2误差。该模型不仅高效且具有良好的泛化能力,能够在多个数据集上保持高性能,展示了优化架构中冻结基础模型的有效性。
参考:
https://arxiv.org/abs/2412.09586
点个分享、点赞与在看,你最好看~