Meta AI等开源了一个专注于长视频语言理解的多模态模型:LongVU,它通过时空自适应压缩技术来处理视频数据,擅长处理和理解长视频。
特点:
1、能看懂长视频,支持细粒度的视频内容理解
2、可以回答关于视频内容的各种问题,记忆力特别好,能记住视频中的细节
3、能处理各类场景,从简单的物体运动到复杂的人物互动都可以
4、在有限上下文长度内,能有效处理大量视频帧,减少计算资源的消耗
github:https://github.com/Vision-CAIR/LongVU
Demo:https://huggingface.co/spaces/Vision-CAIR/LongVU
试了一下效果还不错: