最新开源:Dispider 实现视频LLMs的主动实时交互!又一个媲美 o1 的“开源推理模型”来了!

文摘   2025-01-14 20:37   广东  
01
Dispider:新型视频大模型,实现视频LLMs的主动实时交互


Dispider
  • 论文链接:https://arxiv.org/abs/2501.03218

  • 项目地址:https://github.com/Mark12Ding/Dispider

Dispider 是一个新型的视频大语言模型(Video LLM),通过解耦的感知(Perception)、决策(Decision)和反应(Reaction)这三个模块,实现了与视频的实时交互。与传统的离线视频处理方法不同,Dispider 能够在视频流中提供连续和及时的反馈,适用于需要实时响应的场景。

  1. 感知:实时视频监控和交互捕捉。

  2. 决策:在适当的情况下提高主动互动。

  3. 反应:与用户持续互动。

论文使用一系列基准测试来评估 Dispider 在不同方面的长视频QA和流视频理解能力



  • StreamingBench:用于评估多模态大型语言模型(MLLMs)流视频理解的最新全面基准测试。

  • ETBench子集:衡量模型在实时视频交互中的主动响应能力。

  • 长视频QA基准测试:包括 EgoSchema、VideoMME 和 MLVU。

  • 流视频理解(Streaming Video Understanding):评估 Dispider 在流视频交互中的性能,强调其处理实时输入和动态响应的能力。

  • 传统视频理解(Conventional Video Understanding):将 Dispider 与传统视频LLMs在常规视频QA基准测试中进行比较,其中模型需要在观看完整视频后提供一个答案。

StreamingBench 评估流视频理解能力

长视频QA基准测试,ETBench实时视频交互

左右滑动查看更多

实验表明,Dispider 不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了架构的有效性。

02
Sky-T1-32B-Preview:又一个媲美 o1 的“开源推理模型”,训练成本不到 450 美元

Sky-T1-32B-Preview 是一个32B参数的推理模型,由 UC Berkeley的Sky Computing Lab 的 NovaSky 团队开发。该模型从 Qwen2.5-32B-Instruct 训练而来,使用了 17K 数据,性能与 OpenAI 早期版本的 o1-preview 模型在数学和编程任务上相当

NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元,远低于以往同类模型的数百万美元。

NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型,生成了Sky-T1-32B-Preview 的初始训练数据,随后“整理”数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式,最终形成了可用的训练集。使用 8 个 Nvidia H100 GPU 机架训练 320 亿参数的 Sky-T1-32B-Preview 模型,大约需要 19 个小时。

在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 编程评估中也表现更佳。

然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。

值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。

03
英伟达开源文生图模型 Sana,笔记本电脑也能秒速生成4K超高清图像


Sana
  • 体验地址:https://nv-sana.mit.edu/

  • 论文地址:https://arxiv.org/pdf/2410.10629

  • Github地址:https://github.com/NVlabs/Sana

Sana 是一个高效的文本到图像生成框架,能够生成高达 4096×4096 分辨率的图像,而且速度惊人,甚至可以在笔记本电脑的 GPU 上运行。该项目通过使用线性注意力机制和仅解码器的文本编码器,实现了高质量的图像合成和强大的文本-图像对齐。

Sana 的核心设计包括:

  1. 深度压缩自编码器:引入的全新自编码器(AE),大幅将缩放因子提高至32倍。

  2. 高效线性DiT(Diffusion Transformer):线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。此外,Sana 还采用了 Mix-FFN,将3x3深度卷积整合到 MLP 中,增强了token的局部信息。

  3. 基于仅解码器「小语言模型」的文本编码器:使用了Gemma(仅解码器LLM)作为文本编码器,替代了以往常用的 CLIP 或 T5,以增强对提示词的理解和推理能力

  4. 高效的训练和采样策略:Sana 采用了 Flow-DPM-Solver 来减少采样步骤,并使用高效的标题标注和选择方法来加速模型收敛。Sana-0.6B 模型比大型扩散模型(如 Flux-12B)小 20 倍,速度快 100 多倍

Sana 的性能表现非常出色。如下表7中,将 Sana 与当前最先进的文本生成图像扩散模型进行了比较。

  • 对于 512×512 分辨率:Sana-0.6B 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍;在 FID、Clip Score、GenEval 和 DPG-Bench 等方面,Sana-0.6B 显著优于PixArt-Σ

  • 对于 1024×1024 分辨率Sana 比大多数参数量少于 3B 的模型性能强得多;在推理延迟方面表现尤为出色。

  • 与最先进的大型模型 FLUX-dev 的比较:在 DPG-Bench 上,准确率相当;在GenEval 上,性能略低;然而,Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍

Sana-0.6B 可以在 16GB 笔记本电脑 GPU 上部署,生成 1024×1024 分辨率的图像仅需不到 1 秒

对于4K 图像生成,Sana-0.6B 的吞吐量比最先进的方法(FLUX)快 100 倍以上

Sana 不仅在速度上取得了突破,在图像质量方面也具有竞争力,即使是复杂的场景,如文字渲染和物体细节,Sana 的表现也令人满意。


参考:
https://cloud.tencent.com/developer/article/2485980

https://medium.com/data-science-in-your-pocket/sky-t1-32b-preview-open-sourced-llm-outperforms-openai-o1-cffd90064f8c

https://github.com/NVlabs/Sana

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章