论文链接:https://arxiv.org/abs/2501.03218
项目地址:https://github.com/Mark12Ding/Dispider
Dispider 是一个新型的视频大语言模型(Video LLM),通过解耦的感知(Perception)、决策(Decision)和反应(Reaction)这三个模块,实现了与视频的实时交互。与传统的离线视频处理方法不同,Dispider 能够在视频流中提供连续和及时的反馈,适用于需要实时响应的场景。
感知:实时视频监控和交互捕捉。
决策:在适当的情况下提高主动互动。
反应:与用户持续互动。
论文使用一系列基准测试来评估 Dispider 在不同方面的长视频QA和流视频理解能力。
StreamingBench:用于评估多模态大型语言模型(MLLMs)流视频理解的最新全面基准测试。
ETBench子集:衡量模型在实时视频交互中的主动响应能力。
长视频QA基准测试:包括 EgoSchema、VideoMME 和 MLVU。
流视频理解(Streaming Video Understanding):评估 Dispider 在流视频交互中的性能,强调其处理实时输入和动态响应的能力。
传统视频理解(Conventional Video Understanding):将 Dispider 与传统视频LLMs在常规视频QA基准测试中进行比较,其中模型需要在观看完整视频后提供一个答案。
左右滑动查看更多
实验表明,Dispider 不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了架构的有效性。
Sky-T1-32B-Preview 是一个32B参数的推理模型,由 UC Berkeley的Sky Computing Lab 的 NovaSky 团队开发。该模型从 Qwen2.5-32B-Instruct 训练而来,使用了 17K 数据,性能与 OpenAI 早期版本的 o1-preview 模型在数学和编程任务上相当。
NovaSky 团队在博客中透露,Sky-T1-32B-Preview 的训练成本不到 450 美元,远低于以往同类模型的数百万美元。
NovaSky 团队利用阿里巴巴的 QwQ-32B-Preview 模型,生成了Sky-T1-32B-Preview 的初始训练数据,随后“整理”数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式,最终形成了可用的训练集。使用 8 个 Nvidia H100 GPU 机架训练 320 亿参数的 Sky-T1-32B-Preview 模型,大约需要 19 个小时。
在性能方面,Sky-T1 在 MATH500(一组“竞赛级”数学挑战)上的表现优于 o1 的早期预览版本,同时在 LiveCodeBench 的编程评估中也表现更佳。
然而,在 GPQA-Diamond 测试中(包含物理学、生物学和化学领域的研究生水平问题),Sky-T1 略逊于 o1 预览版。
值得注意的是,Sky-T1-32B-Preview 似乎是首个真正意义上的开源推理模型,其训练数据集和代码均已公开,用户可以从零开始复现该模型。
体验地址:https://nv-sana.mit.edu/
论文地址:https://arxiv.org/pdf/2410.10629
Github地址:https://github.com/NVlabs/Sana
Sana 是一个高效的文本到图像生成框架,能够生成高达 4096×4096 分辨率的图像,而且速度惊人,甚至可以在笔记本电脑的 GPU 上运行。该项目通过使用线性注意力机制和仅解码器的文本编码器,实现了高质量的图像合成和强大的文本-图像对齐。
Sana 的核心设计包括:
深度压缩自编码器:引入的全新自编码器(AE),大幅将缩放因子提高至32倍。
高效线性DiT(Diffusion Transformer):线性DiT在此替换了传统的二次注意力机制,将计算复杂度从O(N²)降低到O(N)。此外,Sana 还采用了 Mix-FFN,将3x3深度卷积整合到 MLP 中,增强了token的局部信息。
基于仅解码器「小语言模型」的文本编码器:使用了Gemma(仅解码器LLM)作为文本编码器,替代了以往常用的 CLIP 或 T5,以增强对提示词的理解和推理能力。
高效的训练和采样策略:Sana 采用了 Flow-DPM-Solver 来减少采样步骤,并使用高效的标题标注和选择方法来加速模型收敛。Sana-0.6B 模型比大型扩散模型(如 Flux-12B)小 20 倍,速度快 100 多倍。
Sana 的性能表现非常出色。如下表7中,将 Sana 与当前最先进的文本生成图像扩散模型进行了比较。
对于 512×512 分辨率:Sana-0.6B 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍;在 FID、Clip Score、GenEval 和 DPG-Bench 等方面,Sana-0.6B 显著优于PixArt-Σ。
对于 1024×1024 分辨率:Sana 比大多数参数量少于 3B 的模型性能强得多;在推理延迟方面表现尤为出色。
与最先进的大型模型 FLUX-dev 的比较:在 DPG-Bench 上,准确率相当;在GenEval 上,性能略低;然而,Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍。
Sana-0.6B 可以在 16GB 笔记本电脑 GPU 上部署,生成 1024×1024 分辨率的图像仅需不到 1 秒。
对于4K 图像生成,Sana-0.6B 的吞吐量比最先进的方法(FLUX)快 100 倍以上。
Sana 不仅在速度上取得了突破,在图像质量方面也具有竞争力,即使是复杂的场景,如文字渲染和物体细节,Sana 的表现也令人满意。
参考:
https://cloud.tencent.com/developer/article/2485980
https://medium.com/data-science-in-your-pocket/sky-t1-32b-preview-open-sourced-llm-outperforms-openai-o1-cffd90064f8c
https://github.com/NVlabs/Sana