研究人员来自加州大学默塞德分校、字节跳动、武汉大学和北京大学,提出了Sa2VA,一个突破性的统一模型,旨在实现图像和视频的密集理解。该模型通过最小的一次性指令调优,支持多种图像和视频任务,克服了现有多模态大型语言模型的局限性。Sa2VA结合了SAM-2和LLaVA,将文本、图像和视频整合到共享的LLM令牌空间中,并引入了Ref-SAV,一个包含超过72,000个对象表达的自动标记数据集,以确保强大的基准测试能力。
参考:
https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093 https://arxiv.org/abs/2501.04001
点个分享、点赞与在看,你最好看~