.01
.02
一致性扩展:在小规模模型上的设计能够无缝迁移至更大规模的模型,减少了大规模实验的成本。 帧率采样技术(fps Sampling):相较传统的均匀采样,帧率采样能够更高效地保留视频的动态变化。 双视觉编码器(Dual Vision Encoders):SigLIP 擅长空间理解,InternVideo2 则聚焦时间推理,二者结合提供了全面的视频数据表征。 ApolloBench 基准测试套件:精简评估冗余项,提供更详尽的性能洞察。
.03
SigLIP:专注于视频的空间维度,例如物体的细节与构图。 InternVideo2:增强了对视频时间轴的理解,比如动作衔接和节奏。这种组合不仅弥补了单一编码器的局限,还实现了视频数据的平衡表征。
先针对视频数据微调视觉编码器; 再与文本和图像数据集进行集成训练; 最后优化多模态交互能力。
.04
Apollo-1.5B:在 Video-MME 和 MLVU 等任务中超越了许多规模为 4.2B 的模型,如 Phi-3.5-Vision。 Apollo-7B:即使与参数量达 30B 的顶尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表现出色。
.05
视频问答系统:凭借多轮对话能力,Apollo 可以在视频问答和内容理解中实现流畅交互。 内容分析:为娱乐、教育和广告领域提供精准的视频分析服务。 长视频处理:支持长达一小时的视频数据处理,适用于会议纪要生成、视频摘要等复杂任务。
.06
参考:
https://apollo-lmms.github.io/ https://arxiv.org/abs/2412.10360