首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
Open AI Sora解读及产业影响展望
财富
2024-12-11 22:20
广东
星球收录10W+上市公司闭门会议纪要、
产业专家调研纪要、
行业及公司数据库
、
卖方观点、精选研报。
日均更新200+机构投研资料。
要点
(文末有彩蛋)
1、Sora的发展历程与前期准备
Sora的发展预测与实际发布:在二月份时,专家预测Sora代表下一代视频生成模型技术,当时预测其会在第四季度发布。从二月到发布期间,Sora做了很多工作。
安全相关工作:Sora模型会进行社交裂变,为避免AI被滥用,要做红队测试,针对偏见幻觉等问题优化,避免产出涉及反社会、色情、暴力等违规内容的视觉模型。
成本与定价:二月份测算生成60秒视频约需16美金。现在Sora有新的包定价,最便宜的可做5 - 20秒视频,分辨率从480P到1080P,如1080P 5秒视频需200个credit点数,最贵的20秒1080P要2000个credit,价格下滑为商用铺垫基础。
融资与算力积攒:过去10个月OpenAI在融资,用途之一是建立集群。Sora月活用户过亿,并发模型推理对GPU消耗大,过去几个月在积攒算力。
产品体验迭代:从文字视频扩展成文本 + 图片和视频、文本 + 视频再生成三种场景,模型文件得到扩展。线上版本推出五大核心功能,如Storyboard可将用户提示词设成剧本,还有Recut、Remix、Blender等功能,提升用户体验。
人物相关的优化:Sora生成视频会涉及很多人物,为避免生成的人物与现实人物撞脸导致IP冲突,会筛选过滤数据集、重整数据库。
2、Sora的意义与影响
开启视频生成商用阶段:Sora的发布意味着视频生成模型开始进入商用阶段,这是过去一年模型不断迭代的结果。
对相关行业的影响:影视、教育、广告营销等行业会将Sora模型及集成3D模型的工具深度用于业务流中提效和创意生成,对创意产业链也会产生深远影响。
带动视频生成潮流:Sora推出后,预计在2025年不管B端还是C端,会产生大量基于类似软件模型制作的视频,如新闻、电影小剧本等方面会产生新玩法。
对国产视频生成模型的影响:Sora对中国大陆、香港、澳门、亚太地区禁用,对国产视频生成模型是利好,会推动国产模型发展。虽然国产模型目前没这么强,但一直在追赶。
算力需求拉动:如果Sora要支撑现有客户在线推理,大概需要六七十万张等价的H100算力。海外巨头有大量H100、B、DD200等采购需求,国内随着视频生成模型在B端C端流行,推理侧也会产生大量算力需求。
3、Sora视频时长相关
20秒视频的权衡:Sora最新版本最长生成20秒视频,这是权衡的结果。生成更长视频面临连贯性、多视角切换、多人物多动物高速运动时变形等挑战,20秒能在提示词和故事板功能下做出相对可控高质量的视频。
20秒叠加生成更长视频的技术:Sora允许用户用时间戳拖鼠标选取某几帧作为下一个20秒的输入,加上故事板关键字提取过渡的方式,可使多个20秒视频连贯合成一个整体,理论上可生成三分钟、五分钟甚至更长视频。
4、国产视频生成模型与Sora的比较
国内主要玩家与技术线路:国内主要有快手、字节跳动等约8家视频生成模型玩家,技术线路主要有基于Diffusion扩散模型(如阿里通义万相)和类似Sora的DIT架构(Diffusion Transformer)。
时长差距:如快手能做两分钟1080P视频,其他家大多只能做十几秒甚至更短。
多镜头切换差距:国内在多镜头切换方面做得较好的是快手和海螺视频,但与Sora相比,在多人物多物体同时运动时,国产模型在人物细节、画面清晰度上有差距,且Sora能在更多场景切换,有更多视角。
产品功能差距:国内目前主要支持文本图像或文本 + 图片生成视频,Sora有更多用户体验功能,如recut、remix、storyboard等,且Sora能做特征提取用于下一段视频生成,这是工程上的差距。
国内模型的商业化情况:目前实现商业化的主要是快手,其在线上提供不同价位的视频生成服务,在快手和B站已有大量基于其AI制作的视频,用户量和生产视频数量暂时靠前,其他如爱奇艺、Kuaishou等偏B端场景,用于做广告、电商等垂直场景。
数据方面:Sora有五大数据集,数据量达上百万小时高质量数据,国产在活成数据量、数据标注方式上有缺失,Sora采用有效帧提取方式压缩数据用于训练,国产在这方面与Sora不同。
算力方面:Sora有数十万H100机型,国产没有这么大的集群支撑海量业务。
工具链方面:目前国内模型在工具链方面较普通,未来模型需要与工具深度整合重构,特别是针对专业用户,可能会有大厂提供相关工具。
5、Sora与Adobe的关系
Adobe的应对策略:Adobe是专业人士常用的工具,过去一年Adobe旗下产品开始集成一些成熟模型如ChatGPT。面对Sora,Adobe未来有竞争和合作两条路,大概率会集成Sora的API到自己的供应链中,向专业用户收费并与Sora分成,而不是与Sora展开厮杀,二者未来是共存关系,C端可能竞争,专业领域更多合作。
6、Sora的数据训练来源
数据来源种类:Sora的数据来源包括公开数据集(如YouTube、coco、Kinetics等,体量为Terabyte级别)、社交媒体数据(如Twitter、Instagram)、专业影视素材(购买的电影、电视剧等)、游戏引擎合成数据(如Unreal引擎合成素材、CGI合成人脸等)、自动驾驶数据等,数据量达数百万个小时。
7、Sora的应用行业
创意视频与社交分享:C端用户会用Sora生成创意视频分享到社交媒体,制作短视频。
广告样片制作:广告公司竞标时可先AI合成多种风格样片供选择,再根据选中情况深度制作。
影视样片制作:影视行业可先合成表达电影风格或情节的视频用于版号审核,降低成本。
教育互动视频:在教育行业可用于还原历史事件,制作教育互动视频。
虚拟社交:对话式虚拟社交中,虚拟角色可根据指令生成动作,如小说人物打拳等。
电商产品展示:电商领域可通过合成方式对产品进行更个性化的展示和介绍,节省拍摄费用。
游戏场景创作:游戏行业可利用Sora创作故事中的场景和情节,相关数据可用于游戏开发。
新闻媒体画面生成:新闻媒体可根据新闻稿生成匹配画面用于播报投放。
8、Sora的待迭代问题
时长与连贯性提升:Sora未来可能以季度为单位迭代时长,目前20秒的时长在连贯性和物理规律上做了权衡,未来可向30秒、40秒等更长时长迭代。
物理规律与动作自然度提升:时长增加时,画面人物动作的自然流畅性和遵循物理规律方面面临挑战,这是未来要提升的方向。
文字相关细节:画面中涉及文字(特别是中文、亚洲字体)时会出现变形、错误等问题,在风格一致性和细节上需要迭代。
空间细节:Sora在穿越不同空间时,物体与空间的位置关系等空间细节需要优化。
推理效率提升:目前生成视频需要几十秒,未来要提升到几秒就能快速生成画面。
9、Sora逐帧编辑相关
逐帧编辑的技术难点:Sora通过storyabord方式提取关键帧用于下一段视频生成,难点在于判断用户划取的帧是否为有效关键帧,以及前后20秒视频的衔接,不过随着时间推移这些问题有望解决。
Q&A
Q:年初版本的SORA最长能生成60秒视频,而最新版本(如刷刷淘宝)最长只能生成20秒视频,如何解读这种变化?
A:SORA以20秒作为最长单次生成长度是权衡的结果。生成更长视频时,面临连贯性、多视角切换、多人物多动物高速运动时变形等挑战,比如100人跳广场舞时背后人的面部表情、手部会变形,汽车追赶时高速运动较难控制。20秒可利用提示词和故事板功能做出相对可控、高质量的视频。此外,它有个技术,允许用户以时间戳方式拖动鼠标,如拖动某几帧作为下一个20秒的输入,加上提示值告知下一个20秒相同人物动作,这样通过20秒叠加和故事板关键字提取过渡,能连贯合成整体视频,理论上可做三分钟、五分钟甚至更长视频,SORA以20秒为单位做连贯性和时长的平衡,能更好地还原运动类视频等的细节。
Q:国内大模型公司在视频生成赛道上的进展如何?与SORA的核心差距环节有哪些?
A:国内主要有快手的可怜、世界的极梦AI、爱思科技的Pixworth、MiniMax海螺视频、质谱的质谱轻盈、阿里的通义万相、VtoVIDU、腾讯等玩家。技术线路大概分两类,一类基于Diffusion扩散模型(如通义万相),另一类是类似SORA的DIT架构(Diffusion Transformer)。差距方面,一是时长,快手能做两分钟1080P视频,其他家大多十几秒甚至6 - 10秒;二是多镜头切换,快手和海螺视频在国内处于头部,但与SORA相比,在多人物多物体同时运动时,SORA人物脸型手等不变形,而它们画面中后排人物会模糊粗糙;三是多场景切换,SORA能在不同场景切换,可模仿无人机航拍等多视角,国内模型目前差距明显;四是产品功能,国内目前主要支持文本图像或文本加图片生成视频,SORA做了recut、remix、storyboard等用户体验功能,还可做特征提取用于下一段生成,这是工程上的差距。整体上,国内能打的大概三家,目前最强的是科大讯飞和质谱轻盈,追梦AI可能会追赶上来,未来在国内赛道上主要玩家是快手、腾讯等,目前快手已实现商业化,提供不同价格水平的视频生成服务,在快手和B站上有大量基于其AI生成的视频,爱奇艺、Kuaishou等更偏向B端的广告、电商等垂直场景。
Q:国内玩家追赶SORA的难度大吗?需要什么样的改进或投入来缩小差距?
A:难度较大。因为头部厂家受SORA启发,模型架构类似(如都为VIT),但SORA前后叠加了如clip、VAE等模型组件才能完整生成系统。在数据方面,SORA有五大数据集,包括社交媒体数据、自动驾驶数据、游戏引擎合成数据等,数据量达高质量的百万小时,而国产在几个维度有缺失,如合成数据较少、数据标注方式有差异(SORA采用有效帧提取方式压缩数据量用于训练)。在算力上,SORA有数十万H100机型,国内无法像SORA一样有大集群支撑海量业务。在工具链方面,目前国内比较普通,未来模型会被工具深度整合重构,明年可能会出现大厂提供的工具类来触达专业用户。
Q:SORA是用什么数据训练的?
A:SORA的数据来源较多。第一季度(二月份时深度拆解过),一是公开数据集,如YouTube、coCOCO、Kinetics等网上可下载的数据,体量为Terabyte级别;二是从社交媒体(如Twitter、Instagram)搜集的数据;三是花钱购买的专业影视素材,包括电影、电视剧、纪录片、动画片、卡通片等;四是游戏引擎合成数据(如通过Unreal引擎合成现实中不存在的场景、通过CGI合成人脸和人物形象),还有自动驾驶数据等。所有数据加起来有数百万个小时的数据量。
Q:SORA未来会对哪些行业有重大影响,会有哪些重大应用呢?
A:文档未提及,无法准确回答。
Q:SORA在B端和C端的应用有哪些?
A:在C端,用户可用来生成创意视频分享到社交媒体、做短视频,如在专业领域可用于制作广告样片(广告公司竞标时可先AI合成多种风格样片供广告商选择,选中后再深度制作)、影视行业可合成样片用于报审版号、教育行业可用于还原历史事件制作教育互动视频、对话式虚拟社交可让虚拟角色根据指令做动作、电商领域可将产品做更个性化展示介绍、游戏行业可创作故事场景情节用于游戏开发;在B端虽未明确提及,但提到在各个行业(包括新闻媒体行业,可根据新闻稿背景生成匹配画面用于播报投放等)都会被广泛使用,明年在个人社交媒体、新闻教育、电影视广告等行业都会被深度使用并影响创业行业。
Q:SORA还没解决的关键问题有哪些?
A:文本未给出回答,无对应A内容。
Q:SORA未来会沿着哪些方向迭代?
A:SORA未来会沿着以下几个方向迭代:一是以一个季度为单位迭代时长,从目前的20秒默认值向30秒、40秒等更长时长迭代;二是提升时长与连贯性中间的技术,在物理规律的理解和动作的自然度上继续提升;三是在风格一致性和细节上进行迭代,尤其是画面有文字(如中文、韩文、日文等亚洲字体)场景下的变体问题;四是在空间细节上进行迭代,如物体跟空间的位置关系等;五是提升推理效率,能够在几秒内快速生成一个画面。
Q:SORA如果想实现逐帧编辑有什么技术难度吗?还是说只是没做这个功能而已,后面很容易加上?
A:这个功能是通过storyabord方式对20秒关键内容提取,难点有两个。一是在用户划水过程中,AI判断划的帧是否为有效帧(关键帧),这个技术难度不大,主要是识别有效帧;二是有效帧提取出来后,下一个20秒的输入如何与之前衔接,这是较大挑战。这个功能应该是可以做的,只是暂时还没做或者正在做,随着视频时长变长,目前看到的较长视频多是由若干个10秒、20秒、30秒拼合衔接而成,所以这个功能难度不大。
加微信领取星球优惠券
股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
最新文章
字节火山引擎大会干货分享
比亚迪人形机器人专家交流纪要
算力新技术:ASIC对比GPU
AI陪伴玩具+字节AI产业链机会
速冻行业渠道专家交流纪要
AI大模型产业更新
家居专家交流纪要
AI智能眼镜专家交流纪要
调味品专家交流纪要
车规级传感器专家交流纪要
消费板块大涨,还有哪些个股有机会?
专家解读钠电池行业进展情况
Open AI Sora解读及产业影响展望
乳制品专家交流纪要
2025年国内光伏展望及海上光伏发展前景
激光雷达行业交流纪要
首席解读12月政治局会议
对话产业专家:OPEN AI O1解读及产业影响展望
人形机器人几轮行情的复盘经验
光伏行业重磅会议开启,利好哪些个股?
人形机器人催化不断,利好哪些个股?
AI产业如火如荼,后续行情如何演绎
国产半导体零部件的春天
宠物经济专家交流纪要
美国对华半导体制裁影响几何?
运动服饰品牌专家交流纪要
AI玩具产业专家交流纪要
生物柴油专家交流纪要
光伏专家分享行业近况信息
固态电池-硅基负极专家交流纪要
智能驾驶专家交流纪要
制裁升级,半导体设备与材料各环节投资机会
“医保+商保”一站式结算趋势解读
专家分享固态电池行业进展
谷子经济:千亿蓝海市场,把握IP衍生赛道机会
锂电产业链需求及价格展望
特朗普2.0时代的半导体投资策略
固态电池专家交流纪要
固态电池行业最新进展
2025年该如何布局科技硬件和半导体行业?
头部电池企业固态电池进展
液冷板块高景气核心逻辑及后续展望
锂电排产及涨价信息更新
锂电板块尾盘拉涨原因!
固态电池-硅基负极专家交流纪要
低空专家解读eVTOL六城试点
海外储能专家交流纪要
AI眼镜专家交流纪要
华为机器人产业创新中心利好哪些个股?
从珠海航展看低空经济投资机遇
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉