Open AI Sora解读及产业影响展望

财富   2024-12-11 22:20   广东  
星球收录10W+上市公司闭门会议纪要、
产业专家调研纪要、行业及公司数据库
卖方观点、精选研报。
日均更新200+机构投研资料。
要点(文末有彩蛋)
1、Sora的发展历程与前期准备
Sora的发展预测与实际发布:在二月份时,专家预测Sora代表下一代视频生成模型技术,当时预测其会在第四季度发布。从二月到发布期间,Sora做了很多工作。
安全相关工作:Sora模型会进行社交裂变,为避免AI被滥用,要做红队测试,针对偏见幻觉等问题优化,避免产出涉及反社会、色情、暴力等违规内容的视觉模型。
成本与定价:二月份测算生成60秒视频约需16美金。现在Sora有新的包定价,最便宜的可做5 - 20秒视频,分辨率从480P到1080P,如1080P 5秒视频需200个credit点数,最贵的20秒1080P要2000个credit,价格下滑为商用铺垫基础。
融资与算力积攒:过去10个月OpenAI在融资,用途之一是建立集群。Sora月活用户过亿,并发模型推理对GPU消耗大,过去几个月在积攒算力。
产品体验迭代:从文字视频扩展成文本 + 图片和视频、文本 + 视频再生成三种场景,模型文件得到扩展。线上版本推出五大核心功能,如Storyboard可将用户提示词设成剧本,还有Recut、Remix、Blender等功能,提升用户体验。
人物相关的优化:Sora生成视频会涉及很多人物,为避免生成的人物与现实人物撞脸导致IP冲突,会筛选过滤数据集、重整数据库。
2、Sora的意义与影响
开启视频生成商用阶段:Sora的发布意味着视频生成模型开始进入商用阶段,这是过去一年模型不断迭代的结果。
对相关行业的影响:影视、教育、广告营销等行业会将Sora模型及集成3D模型的工具深度用于业务流中提效和创意生成,对创意产业链也会产生深远影响。
带动视频生成潮流:Sora推出后,预计在2025年不管B端还是C端,会产生大量基于类似软件模型制作的视频,如新闻、电影小剧本等方面会产生新玩法。
对国产视频生成模型的影响:Sora对中国大陆、香港、澳门、亚太地区禁用,对国产视频生成模型是利好,会推动国产模型发展。虽然国产模型目前没这么强,但一直在追赶。
算力需求拉动:如果Sora要支撑现有客户在线推理,大概需要六七十万张等价的H100算力。海外巨头有大量H100、B、DD200等采购需求,国内随着视频生成模型在B端C端流行,推理侧也会产生大量算力需求。
3、Sora视频时长相关
20秒视频的权衡:Sora最新版本最长生成20秒视频,这是权衡的结果。生成更长视频面临连贯性、多视角切换、多人物多动物高速运动时变形等挑战,20秒能在提示词和故事板功能下做出相对可控高质量的视频。
20秒叠加生成更长视频的技术:Sora允许用户用时间戳拖鼠标选取某几帧作为下一个20秒的输入,加上故事板关键字提取过渡的方式,可使多个20秒视频连贯合成一个整体,理论上可生成三分钟、五分钟甚至更长视频。
4、国产视频生成模型与Sora的比较
国内主要玩家与技术线路:国内主要有快手、字节跳动等约8家视频生成模型玩家,技术线路主要有基于Diffusion扩散模型(如阿里通义万相)和类似Sora的DIT架构(Diffusion Transformer)。
时长差距:如快手能做两分钟1080P视频,其他家大多只能做十几秒甚至更短。
多镜头切换差距:国内在多镜头切换方面做得较好的是快手和海螺视频,但与Sora相比,在多人物多物体同时运动时,国产模型在人物细节、画面清晰度上有差距,且Sora能在更多场景切换,有更多视角。
产品功能差距:国内目前主要支持文本图像或文本 + 图片生成视频,Sora有更多用户体验功能,如recut、remix、storyboard等,且Sora能做特征提取用于下一段视频生成,这是工程上的差距。
国内模型的商业化情况:目前实现商业化的主要是快手,其在线上提供不同价位的视频生成服务,在快手和B站已有大量基于其AI制作的视频,用户量和生产视频数量暂时靠前,其他如爱奇艺、Kuaishou等偏B端场景,用于做广告、电商等垂直场景。
数据方面:Sora有五大数据集,数据量达上百万小时高质量数据,国产在活成数据量、数据标注方式上有缺失,Sora采用有效帧提取方式压缩数据用于训练,国产在这方面与Sora不同。
算力方面:Sora有数十万H100机型,国产没有这么大的集群支撑海量业务。
工具链方面:目前国内模型在工具链方面较普通,未来模型需要与工具深度整合重构,特别是针对专业用户,可能会有大厂提供相关工具。
5、Sora与Adobe的关系
Adobe的应对策略:Adobe是专业人士常用的工具,过去一年Adobe旗下产品开始集成一些成熟模型如ChatGPT。面对Sora,Adobe未来有竞争和合作两条路,大概率会集成Sora的API到自己的供应链中,向专业用户收费并与Sora分成,而不是与Sora展开厮杀,二者未来是共存关系,C端可能竞争,专业领域更多合作。
6、Sora的数据训练来源
数据来源种类:Sora的数据来源包括公开数据集(如YouTube、coco、Kinetics等,体量为Terabyte级别)、社交媒体数据(如Twitter、Instagram)、专业影视素材(购买的电影、电视剧等)、游戏引擎合成数据(如Unreal引擎合成素材、CGI合成人脸等)、自动驾驶数据等,数据量达数百万个小时。
7、Sora的应用行业
创意视频与社交分享:C端用户会用Sora生成创意视频分享到社交媒体,制作短视频。
广告样片制作:广告公司竞标时可先AI合成多种风格样片供选择,再根据选中情况深度制作。
影视样片制作:影视行业可先合成表达电影风格或情节的视频用于版号审核,降低成本。
教育互动视频:在教育行业可用于还原历史事件,制作教育互动视频。
虚拟社交:对话式虚拟社交中,虚拟角色可根据指令生成动作,如小说人物打拳等。
电商产品展示:电商领域可通过合成方式对产品进行更个性化的展示和介绍,节省拍摄费用。
游戏场景创作:游戏行业可利用Sora创作故事中的场景和情节,相关数据可用于游戏开发。
新闻媒体画面生成:新闻媒体可根据新闻稿生成匹配画面用于播报投放。
8、Sora的待迭代问题
时长与连贯性提升:Sora未来可能以季度为单位迭代时长,目前20秒的时长在连贯性和物理规律上做了权衡,未来可向30秒、40秒等更长时长迭代。
物理规律与动作自然度提升:时长增加时,画面人物动作的自然流畅性和遵循物理规律方面面临挑战,这是未来要提升的方向。
文字相关细节:画面中涉及文字(特别是中文、亚洲字体)时会出现变形、错误等问题,在风格一致性和细节上需要迭代。
空间细节:Sora在穿越不同空间时,物体与空间的位置关系等空间细节需要优化。
推理效率提升:目前生成视频需要几十秒,未来要提升到几秒就能快速生成画面。
9、Sora逐帧编辑相关
逐帧编辑的技术难点:Sora通过storyabord方式提取关键帧用于下一段视频生成,难点在于判断用户划取的帧是否为有效关键帧,以及前后20秒视频的衔接,不过随着时间推移这些问题有望解决。
Q&A
Q:年初版本的SORA最长能生成60秒视频,而最新版本(如刷刷淘宝)最长只能生成20秒视频,如何解读这种变化?
A:SORA以20秒作为最长单次生成长度是权衡的结果。生成更长视频时,面临连贯性、多视角切换、多人物多动物高速运动时变形等挑战,比如100人跳广场舞时背后人的面部表情、手部会变形,汽车追赶时高速运动较难控制。20秒可利用提示词和故事板功能做出相对可控、高质量的视频。此外,它有个技术,允许用户以时间戳方式拖动鼠标,如拖动某几帧作为下一个20秒的输入,加上提示值告知下一个20秒相同人物动作,这样通过20秒叠加和故事板关键字提取过渡,能连贯合成整体视频,理论上可做三分钟、五分钟甚至更长视频,SORA以20秒为单位做连贯性和时长的平衡,能更好地还原运动类视频等的细节。
Q:国内大模型公司在视频生成赛道上的进展如何?与SORA的核心差距环节有哪些?
A:国内主要有快手的可怜、世界的极梦AI、爱思科技的Pixworth、MiniMax海螺视频、质谱的质谱轻盈、阿里的通义万相、VtoVIDU、腾讯等玩家。技术线路大概分两类,一类基于Diffusion扩散模型(如通义万相),另一类是类似SORA的DIT架构(Diffusion Transformer)。差距方面,一是时长,快手能做两分钟1080P视频,其他家大多十几秒甚至6 - 10秒;二是多镜头切换,快手和海螺视频在国内处于头部,但与SORA相比,在多人物多物体同时运动时,SORA人物脸型手等不变形,而它们画面中后排人物会模糊粗糙;三是多场景切换,SORA能在不同场景切换,可模仿无人机航拍等多视角,国内模型目前差距明显;四是产品功能,国内目前主要支持文本图像或文本加图片生成视频,SORA做了recut、remix、storyboard等用户体验功能,还可做特征提取用于下一段生成,这是工程上的差距。整体上,国内能打的大概三家,目前最强的是科大讯飞和质谱轻盈,追梦AI可能会追赶上来,未来在国内赛道上主要玩家是快手、腾讯等,目前快手已实现商业化,提供不同价格水平的视频生成服务,在快手和B站上有大量基于其AI生成的视频,爱奇艺、Kuaishou等更偏向B端的广告、电商等垂直场景。
Q:国内玩家追赶SORA的难度大吗?需要什么样的改进或投入来缩小差距?
A:难度较大。因为头部厂家受SORA启发,模型架构类似(如都为VIT),但SORA前后叠加了如clip、VAE等模型组件才能完整生成系统。在数据方面,SORA有五大数据集,包括社交媒体数据、自动驾驶数据、游戏引擎合成数据等,数据量达高质量的百万小时,而国产在几个维度有缺失,如合成数据较少、数据标注方式有差异(SORA采用有效帧提取方式压缩数据量用于训练)。在算力上,SORA有数十万H100机型,国内无法像SORA一样有大集群支撑海量业务。在工具链方面,目前国内比较普通,未来模型会被工具深度整合重构,明年可能会出现大厂提供的工具类来触达专业用户。
Q:SORA是用什么数据训练的?
A:SORA的数据来源较多。第一季度(二月份时深度拆解过),一是公开数据集,如YouTube、coCOCO、Kinetics等网上可下载的数据,体量为Terabyte级别;二是从社交媒体(如Twitter、Instagram)搜集的数据;三是花钱购买的专业影视素材,包括电影、电视剧、纪录片、动画片、卡通片等;四是游戏引擎合成数据(如通过Unreal引擎合成现实中不存在的场景、通过CGI合成人脸和人物形象),还有自动驾驶数据等。所有数据加起来有数百万个小时的数据量。
Q:SORA未来会对哪些行业有重大影响,会有哪些重大应用呢?
A:文档未提及,无法准确回答。
Q:SORA在B端和C端的应用有哪些?
A:在C端,用户可用来生成创意视频分享到社交媒体、做短视频,如在专业领域可用于制作广告样片(广告公司竞标时可先AI合成多种风格样片供广告商选择,选中后再深度制作)、影视行业可合成样片用于报审版号、教育行业可用于还原历史事件制作教育互动视频、对话式虚拟社交可让虚拟角色根据指令做动作、电商领域可将产品做更个性化展示介绍、游戏行业可创作故事场景情节用于游戏开发;在B端虽未明确提及,但提到在各个行业(包括新闻媒体行业,可根据新闻稿背景生成匹配画面用于播报投放等)都会被广泛使用,明年在个人社交媒体、新闻教育、电影视广告等行业都会被深度使用并影响创业行业。
Q:SORA还没解决的关键问题有哪些?
A:文本未给出回答,无对应A内容。
Q:SORA未来会沿着哪些方向迭代?
A:SORA未来会沿着以下几个方向迭代:一是以一个季度为单位迭代时长,从目前的20秒默认值向30秒、40秒等更长时长迭代;二是提升时长与连贯性中间的技术,在物理规律的理解和动作的自然度上继续提升;三是在风格一致性和细节上进行迭代,尤其是画面有文字(如中文、韩文、日文等亚洲字体)场景下的变体问题;四是在空间细节上进行迭代,如物体跟空间的位置关系等;五是提升推理效率,能够在几秒内快速生成一个画面。
Q:SORA如果想实现逐帧编辑有什么技术难度吗?还是说只是没做这个功能而已,后面很容易加上?
A:这个功能是通过storyabord方式对20秒关键内容提取,难点有两个。一是在用户划水过程中,AI判断划的帧是否为有效帧(关键帧),这个技术难度不大,主要是识别有效帧;二是有效帧提取出来后,下一个20秒的输入如何与之前衔接,这是较大挑战。这个功能应该是可以做的,只是暂时还没做或者正在做,随着视频时长变长,目前看到的较长视频多是由若干个10秒、20秒、30秒拼合衔接而成,所以这个功能难度不大。

加微信领取星球优惠券

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章