11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

科技 2024-12-13 18:47 山东

从2月份OpenAI第一次发出Sora的视频，到现在已经10个月了，Sora终于上线。

但是，Sora经历了这么久的沉淀，效果也不能说是完美。

3月份北大团队提出要复刻Sora，启动了一个叫Open-Sora的计划。

在当时还觉得就是他们团队随便玩玩。

但是没想到，他们坚持了下来，而且真的拿出成果给大家看了。

从3月份到现在，一直在不断地迭代更新。

总有一天，开源跟闭源的差距会越来越小。

当前版本我认为，已经算是开源里不错的AI项目了，就这个更新速度来看的话，即将到来的版本可能还会有惊喜。

今天给大家介绍的是1.3版本。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

DEMO

官方给了一段黑神话悟空的创意视频DEMO，用的是图生视频功能。

项目亮点

1、高性能 CausalVideoVAE，训练成本低

高压缩比，能将视频压缩至原来的 1/256（4×8×8），在保证优秀性能的同时，大大降低了训练成本。
Causal 卷积支持图像和视频的同时推理，且仅需 1 个节点即可完成训练。

2、基于 3D 注意力的视频扩散模型，时空特征联合学习

采用全新的稀疏注意力架构，替代了传统的 2+1D 模型。
3D 注意力能够更好地捕捉空间和时间的联合特征，提升了模型对时空特性的理解能力。

技术特点

1.多组件架构：

Wavelet-Flow Variational Autoencoder (WF-VAE)：通过多级小波变换在频率域获取多尺度特征，并将其注入到卷积网络中，以减少内存使用并提高训练速度。
Joint Image-Video Skiparse Denoiser：将2+1D视频生成去噪器改为3D全注意力结构，增强了模型对世界的理解能力，包括物体运动、相机移动、物理和人类行为。

Condition Controllers：设计了帧级图像条件控制器，以支持包括图像到视频、视频转换和视频延续在内的多种任务。

2.高效训练和推理策略：

Min-Max Token Strategy：通过聚合不同分辨率和时长的数据，实现高效的NPU/GPU计算，并最大化数据的有效使用。
Adaptive Gradient Clipping Strategy：提出自适应梯度裁剪策略，基于梯度范数检测异常数据，防止异常值扭曲模型的梯度方向。
Prompt Refinement Strategy：开发了提示细化器，使模型能够合理扩展输入提示，同时遵循语义，增强视频运动的稳定性并丰富细节。

3.多维数据管理流程：

Multi-dimensional Data Processor：包括检测跳跃剪辑、剪辑视频、过滤快慢动作、裁剪边缘字幕、过滤审美分数、评估视频技术质量以及注释字幕。
LPIPS-Based Jump Cuts Detection：基于学习感知图像补丁相似性（LPIPS）实现视频剪辑检测方法，防止快速运动镜头的错误分割。

4.条件注入模型：包括深度图、姿态图、草图、文本等控制条件，实现精确的单帧操作。

5.视频生成模型的框架：能够处理包括文本提示、多图像和结构控制信号（如边缘检测、深度、草图等）在内的多种条件查询。

6.Skiparse Attention：提出了一种新的稀疏注意力机制，减少了计算复杂度，同时保持了对物理世界的复杂交互的建模能力。

7.结构条件控制器：提出了一种新的结构条件控制器，以高效地将结构信号（如Canny边缘、深度图、草图）集成到基础模型中，实现可控生成。

项目链接

https://github.com/PKU-YuanGroup/Open-Sora-Plan

论文链接

https://arxiv.org/abs/2412.00131

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉