🏆 基座模型
①项目:Pyramidal Flow Matching
★北大联手快手开源了Pyramid Flow Matching,一种基于流匹配的训练高效的自回归视频生成方法。该项目仅在开源数据集上进行训练,能够生成高质量的10秒视频,分辨率为768p,帧率为24 FPS,并自然支持从图像到视频的生成。
☆一键收藏:
https://sota.jiqizhixin.com/project/pyramidal-flow-matching
②项目:Aria
★Aria是一个多模态本地混合专家模型,能够在多种多模态、语言和编码任务中表现出色,尤其在视频和文档理解方面具有优势。它支持长达64K个token的多模态输入,并能在10秒内为256帧视频生成字幕。Aria的设计轻量且快速,能够高效编码不同大小和纵横比的视觉输入。
☆一键收藏:
https://sota.jiqizhixin.com/project/aria
🛠️框架平台、必备工具
①项目:AWT
★AWT是一个创新框架,旨在将预训练的视觉语言模型(VLMs)转移到下游任务中。该框架通过增强、加权和传输技术,提升了VLMs的零样本能力,并通过多模态适配器在少样本学习中表现出色。AWT在零样本和少样本图像及视频任务中设立了新的基准记录,实现了最先进的性能。
☆一键收藏:
https://sota.jiqizhixin.com/project/awt
②项目:Swiftide
★Swiftide是一个用Rust编写的本地库,专为构建大型语言模型(LLM)应用而设计。它通过快速摄取、转换和索引大量数据,然后查询这些数据以便将其注入到提示中,从而实现检索增强生成(RAG)。Swiftide旨在提供一个快速、易用、可靠且易于扩展的RAG库,使开发者能够从想法到生产环境快速构建AI应用。
☆一键收藏:
https://sota.jiqizhixin.com/project/swiftide
③项目:PMRF
★PMRF是一种新颖的照片级真实感图像恢复算法。该算法在完美的感知质量约束下,近似地实现了最小化均方误差(MSE)的最优估计器。该项目提供了在不同测试集上的定量和视觉比较结果。
☆一键收藏:
https://sota.jiqizhixin.com/project/pmrf
④项目:FineVideo
★FineVideo是一个包含超过43,000个视频和3,400小时的视频数据集,附有丰富的描述、叙述细节、场景分割和问答对。该项目提供了一套完整的代码库,用于视频的收集和标注,支持大规模数据处理和分布式计算。
☆一键收藏:
https://sota.jiqizhixin.com/project/finevideo
👋网页端访问:https://sota.jiqizhixin.com