Sa2VA:通过 SAM-2 和 LLaVA 集成实现密集接地视频和图像理解的统一 AI 框架

文摘   2025-01-17 07:45   福建  

 研究人员来自加州大学默塞德分校、字节跳动、武汉大学和北京大学,提出了Sa2VA,一个突破性的统一模型,旨在实现图像和视频的密集理解。该模型通过最小的一次性指令调优,支持多种图像和视频任务,克服了现有多模态大型语言模型的局限性。Sa2VA结合了SAM-2和LLaVA,将文本、图像和视频整合到共享的LLM令牌空间中,并引入了Ref-SAV,一个包含超过72,000个对象表达的自动标记数据集,以确保强大的基准测试能力。


参考:

  1. https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
  2. https://arxiv.org/abs/2501.04001 



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章