今日开源(2024-10-29):Meta开源LongVU大模型,过滤重复帧、跨帧token压缩,增强现实世界长视频理解

文摘   2024-10-29 18:13   北京  


🏆基座模型

①项目:LongVU

LongVU项目旨在通过时空自适应压缩技术提升长视频的语言理解能力。该项目结合了先进的视觉编码器和语言模型,能够有效处理和理解长视频中的复杂信息。项目提供了多种资源版本,支持本地部署和在线演示,适用于需要处理视频和语言数据的多种应用场景。

☆一键收藏:

https://sota.jiqizhixin.com/project/longvu


🤖 Agent开发

①项目:CoI-Agent

Chain of Ideas (CoI) Agent 是一个旨在通过大语言模型 (LLM) 智能体来革新研究和新想法开发的项目。该项目提供了一种系统化的方法来生成和发展研究想法,利用先进的自然语言处理技术和机器学习模型,帮助研究人员在科学研究中更高效地探索和创新。

☆一键收藏:

https://sota.jiqizhixin.com/project/coi-agent


②项目:AgenticIR

该项目旨在解决复杂图像恢复问题,利用智能体系统进行图像的去模糊、去雾和增强等处理。通过探索学习和经验积累,系统能够有效地恢复真实世界中的图像质量。

☆一键收藏:

https://sota.jiqizhixin.com/project/agenticir


🛠️框架平台、必备工具

①项目:x.infer

x.infer 是一个框架无关的计算机视觉推理库,旨在通过简单的Python代码实现对任何计算机视觉模型的推理。它支持多种框架和超过1000个模型,提供统一的接口和模块化设计,允许用户轻松集成和替换模型。x.infer 还支持通过 Gradio 启动界面进行交互。

☆一键收藏:

https://sota.jiqizhixin.com/project/x-infer


②项目:PyramidDrop

PyramidDrop是一个旨在通过减少视觉冗余来加速大型视觉语言模型的项目。该项目的核心思想是利用图像标记在不同层次的冗余特性,通过减少深层的冗余来提高训练和推理的效率。PyramidDrop不仅可以在训练过程中加速模型,还可以作为推理加速的即插即用策略,兼具高性能和低推理成本。

☆一键收藏:

https://sota.jiqizhixin.com/project/pyramiddrop


③项目:LLaVA-MoD

LLaVA-MoD是一个高效的框架,旨在通过从大规模多模态语言模型中蒸馏知识来训练小规模多模态语言模型。该项目通过集成稀疏专家混合(MoE)架构来优化网络,并采用两阶段的知识转移策略:模仿蒸馏和偏好蒸馏。实验表明,LLaVA-MoD在多模态基准测试中表现优于现有模型,同时激活的参数数量最少,计算成本低。

☆一键收藏:

https://sota.jiqizhixin.com/project/llava-mod


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章