首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
大半年过去,主流视频生成模型们超越Sora了吗?
科技
2024-11-24 09:25
北京
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
近日,有消息称 OpenAI 的视频生成模型 Sora 将正式上线。在 Sora 发布后的近 9 个月时间里,MiniMax-Video-01、Kling 1.5 等视频生成模型陆续发布,不少表示已经达到了 Sora 级别。
大半年过去了,这些主流视频生成模型们超越 Sora 了吗?
目录
01
.
大半年过去,这些主流视频生成模型们超越 Sora 了吗?
Sora 发布大半年之后,主流的文生视频模型表现如何?类 Sora 模型们追上了吗?
02.
超越 Sora?文生视频领域关键技术进展盘点
T2V 模型目前面临的共同挑战有哪些?T2V 领域有哪些关键技术进展?
03.
AI 视频生成技术仍不成熟,距离「好用」还很远
AI 视频生成应用距离「好用」还有多远?
01
大半年过去,这些主流视频生成模型们超越 Sora 了吗?
1、今年 2 月,视频生成模型 Sora 发布,可以输出长达一分钟的高质量视频,打破了在此之前仅可生成几秒视频的限制。且生成效果惊艳,可以维持时间和空间上的一致性,特别是在动态场景的 3D 一致性和长时依赖关系处理方面表现优异。
2、然而 Sora 作为「期货」迟迟没有发布,屡次传出研究搁置、将于近期正式上线等消息。在 Sora 发布后的近 9 个月时间里,MiniMax-Video-01、Kling 1.5 等视频生成模型陆续发布,不少表示已经达到了 Sora 级别。
3、目前,视频生成技术仍处于早期不成熟阶段。文生视频模型的研究主要分为三条技术路径。其中,以 Sora 为代表的 DiT 架构是当下主流的技术路径。
① 以 Stable Diffusion 为基础,沿着文生图,将文生图拓展到时间维度,采用逐帧生成的思想,适用于时长较短地视频生成;
② 将扩散模型(Diffusion Models)应用于视频生成,如 Meta 的 Make-a-video、Runway 的 Gen 系列模型均采用了扩散架构。在此基础之下,又出现了 Diffusion Transformers(DiT)架构,将 Transformer 引入到扩散模型中,Transformer 能够通过自注意力机制(Self-Attention)能够捕捉全局依赖关系,能够更好地理解和生成复杂图像结构。Sora、Vidu 等均是 DiT 架构,相较于第一条路径,DiT 架构对于长文本或长视频的理解能力会更强,生成能力也更好,是目前的主流技术路径;
③ 还有一条目前应用较少,但同样有潜力的技术路径,即基于大型语言模型(LLM)的自回归架构,如谷歌团队发布的 VideoPoet 模型,能够从多种条件信号合成高质量视频,采用了仅解码器的 Transformer 架构,处理包括图像、视频、文本和音频在内的多模态输入。
④ 此外,还有一种研究方向为通过大世界模型(Large World Model)来做视频生成模型,通过整合视频和语言数据,来实现多模态理解和生成。如 UC Berkeley 的 LWM,设计了 RingAttention 机制,可以高效处理长达 100 万个 token 的序列。
4、在 Sora 模型之后,国内外不乏有多个模型在生成视频时长、分辨率、复杂场景等维度逼平或超越了 Sora 模型。[13] [17]
表:2024 年文生视频模型及产品信息(部分)
1) abab-video-1( MiniMax)
① abab-video-1 模型主打高清视频生成,可以生成原生高分辨率、高帧率视频,最高支持原生分辨率 1280*720 的 25 帧视频,效果不亚于 Sora。在视频生成模型评测体系 VBench 上,在画质、连贯性等方面处于领先,其中 Quality Score 为 85.13%,位列第二,仅次于谷歌的 T2V-Turbo-v2(85.13%)。
② abab-video-1 模型由 MiniMax 于今年 9 月发布,基于该模型的海螺 AI 创意视频平台支持文生视频、图生视频功能,在运动场景的生成方面生成效果优越,尤其是人体动作的流畅度和逼真度表现。
2)Kling 1.5(快手)
① Kling 模型实现了生成视频时长的突破,可以生成长达 2 分钟的视频。Sora 生成的视频时长为 1 分钟。
② Kling 模型由快手于今年 6 月发布,能够生成时长 2 分钟、1080p 分辨率的高质量视频。9 月,推出了 1.5 版本,新版本模型提高了画质,能够直出 1080p 视频,在画面主体动幅更大、动作、质量、文本响应度方面进行了优化。同时,引入了「运动笔刷」功能,提升了视频生成的控制能力。
3)豆包视频生成(字节)
① 豆包视频生成模型 PixelDance 和 Seaweed 主要的优势在精准的语义理解,以及多动作多主体交互,在多个镜头切换时,能保持主体、风格、氛围和逻辑的一致性。根据论文《Make Pixels Dance: High-Dynamic Video Generation》,PixelDance 在使用文本指令基础之上,还引入了图像指令,包括视频的第一帧和最后一帧的图像,可以提供更精细的视觉细节和控制视频的开始和结束场景。同时,能够生成连续的视频片段,并在生成过程中使用前一片段的最后一帧作为下一片段的第一帧指令,以确保时间一致性和视频质量。
② PixelDance、Seaweed 两款模型由字节跳动于今年 9 月推出,基于自研的 DiT(Document Image Transformer)架构,主打时序性复杂动作指令和交互能力。模型支持多摄像头控制(如缩放、平移、旋转和跟踪),并能生成 3D 动画、2D 动画和传统艺术风格等多种类型的视频。
4) Dream Machine 1.5( Luma AI)
① Dream Machine 模型被称为是 Sora 的「最强竞品」,能够根据文字或图片生成高质量的逼真视频,视频生成速度快,能够在 120 秒的时间内生成 120 帧画面。
② 今年 8 月,Luma AI 发布了 Dream Machine 1.5 版本,相较于 1.0 版本,提升了视频生成效果以及动作追踪能力,同时能生成更准确的带有文字的画面。
5) Gen-3 Alpha( Runway)
① Gen-3 Alpha Turbo 模型在生成视频一致性和运动控制方面具有优势。Gen-3 Alpha Turbo 模型拥有摄像机控制功能,用户能够精确控制摄像机运动,实现平滑环绕和戏剧性变焦。在 Runway 展示的示例视频中,用户可以自由地放大和缩小场景,保持 AI 生成的角色和背景的完整性,3D 效果逼真。在视频生成模型评测体系 VBench 上,Gen-3 的 motion smoothness 的评分较高为 99.23%,Gen-2 为 99.58%。
② Gen-3 Alpha 模型由 Runway 于今年 6 月发布 ,对比上一代模型在在光影、质量、构图以及文本语义还原等方面实现了提升。Gen-3 Alpha 是新模型系列的首款,支持高度可描述性的视频生成,包括时间密集字幕和创意场景过渡。
5、尽管生成效果惊艳的视频生成模型陆续推出,但视频生成模型目前存在的动态运动、多镜头场景、在长时间视频中保持动态一致性等方面的共同缺陷仍存在。
02
超越 Sora?文生视频领域关键技术进展盘点
针对于文生视频领域,技术进展主要集中在长视频、视频分辨率、多物体生成/交互、复杂场景、多镜头、动态运动等方面。[14]
1、长视频生成
① 长视频生成是文本到视频(T2V)领域的一个研究方向,要求模型能够理解和模拟长期时间依赖关系,并保持视频内容的连贯性......
关注👇🏻
「机器之心PRO会员」,前往「收件箱」查看完整解读
👀 往期回顾
👀
01
AI 竞赛进入推理阶段:扩展测试时计算是万能的吗?Scaling What 成为关键
传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时间计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?
...
02
谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?
...
03
「压缩即智能」,成就 LLM 的 Transformer 未必是终极解?
知识压缩理论已经获得验证了?LLM 范式有变革征兆了?LLM 范式会向哪个方向演进?为什么Transformer 未必能够长青?有哪些声音在质疑Transformer?有哪些非Transformer的可行路线?...
04
从文本到屏幕:「Project Jarvis」们能实现 AGI 吗?
头部 AI 公司为何都在做 AI 自主计算机操控?这事可行吗?和RPA的区别是什么?AI Agent自主操控计算机需要具备哪些能力?微软、谷歌、Anthropic 在 AI Agent 方面的动作有何异同?
...
更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。
http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650944029&idx=1&sn=ac282e1939ddb69318e4f1c55f6d92f2
机器之心
专业的人工智能媒体和产业服务平台
最新文章
AI版周扒皮!打字速度慢、鼠标超30秒未动,就被AI「警告」,Karpathy下场评论
RTX 4090可跑、完全开源,最快视频生成模型问世,实测一言难尽
RL「误人」?LeCun 在技术路线上又有何战略摇摆?
智能体零样本解决未见过人类设计环境!全靠这个开放式物理RL环境空间
研究大模型门槛太高?不妨看看小模型SLM,知识点都在这
大半年过去,主流视频生成模型们超越Sora了吗?
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
如今的智能体,已经像人一样「浏览」视频了,国内就有
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
大模型不会推理,为什么也能有思路?有人把原理搞明白了
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
扣子OpenAPI突进智能语音战场!点满低延时、定制化、随时打断和音色克隆技能(内测开启!)
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到
大模型代肝,自动刷《崩铁》升级材料,Claude操纵计算机还能这么用!
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
室温超导学术不端、多次Nature撤稿,这位印度裔学者被大学解雇
德国科学家激进观点:意识是虚拟的,存在于大脑构建的梦中
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
高通的自研架构芯片,正在整合生成式AI世界
发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型
大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」
取人类与大模型之长,人机协作式智能软件开发框架AgileGen来了
面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述
精度与通用性不可兼得,北大华为理论证明低精度下scaling law难以实现
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
钻石冷却的GPU即将问世:温度能降20度,超频空间增加25%
可以实现零代码开发的OPPO智能体平台,到底强在哪?
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
对标o1,Kimi放出了最能打的国产模型
怎样保证你不是AGI独裁者?马斯克为何退出OpenAI?早期邮件公开了
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,照样能跑酷
扩展测试时计算是万能的吗?Scaling What成为关键
突破无规则稀疏计算边界,编译框架CROSS数倍提升模型性能
谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
传说中Ilya Sutskever精选论文清单:AI领域40大论文完整版「破解」完成
首个自主机器学习AI工程师,刚问世就秒了OpenAI o1,Kaggle大师拿到饱
LeCun 的世界模型初步实现!基于预训练视觉特征,看一眼任务就能零样本规划
NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
这三家国内机构合作成果,斩获EMNLP 2024最佳论文奖,主办方:明年苏州见!
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉