Gaze-LLE:基于冻结视觉基础模型构建的用于注视目标估计的新 AI 模型

文摘   2025-01-07 07:46   福建  

研究人员来自乔治亚理工学院和伊利诺伊大学厄本那-香槟分校,提出了一种新的凝视目标估计框架Gaze-LLE,该框架通过静态DINOv2视觉编码器和简约解码器模块,消除了复杂的多分支架构。Gaze-LLE显著减少了可训练参数,计算量减少95%,并在多个基准测试中实现了先进的性能,尤其在GazeFollow数据集上取得了0.958的AUC和0.099的平均L2误差。该模型不仅高效且具有良好的泛化能力,能够在多个数据集上保持高性能,展示了优化架构中冻结基础模型的有效性。


参考:

  1. https://arxiv.org/abs/2412.09586



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章