字节新发布两款视频AI大模型,性能显著提升。本文对这两款模型的能力与应用场景;创新与亮点;豆包大模型生态;以及传媒行业的发展机遇进行分析。
字节新发布两款视频AI大模型,性能显著提升
9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,发布了豆包两款视频大模型PixelDance V1.4与Seaweed,并同时面向企业市场开启邀测,公司预计在国庆节后上线火山方舟平台。根据火山引擎巡展发布的内容,我们看到豆包视频生成模型的技术创新体现在:1)通过高效的DiT融合计算单元,可更充分地压缩编码视频与文本;2)使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。我们认为,豆包新模型的发布意味着国产视频生成模型能力再进一步,同时能够在多个内容相关领域实现商业化,建议关注影视及IP相关受益逻辑,及AI应用投资机会。
问题#1:两款模型能力有何差别,分别用于什么场景?
1)PixelDance V1.4基于DiT结构,主要特点在于“叙事连贯性”,支持复杂的多主体互动和时序性动作,能生成高动态、炫酷运镜的视频,并且具备一致性多镜头生成能力,支持多种风格和比例,可生成10秒的故事短片。我们预计或将更侧重于需要叙事的短剧及微电影等行业的创作;2)Seaweed大模型基于Transformer架构,主要特点在于“高质量视频效果”,能根据用户输入的高清图像分辨率进行适配和保真,Seaweed可生成5秒视频,并延长至20-30秒。我们预计将提升营销、电商等场景制作素材的效率。
问题#2:这次的视频大模型有何不同?
对比Sora及其他国产视频生成大模型,我们认为本次发布的视频生成模型最大的亮点在于:1)攻克多镜头切换的一致性难题,镜头切换时能保持主体、风格、氛围的一致,具备一键生成故事性多镜头短片能力;2)解锁了时序性多拍动作指令与多个主体间的交互能力,能在同一个视频画面中指定不同动作的主体,且主体间动作较为连贯。我们认为,此次发布的新模型实现了较大的技术突破,解决了此前视频生成模型中画面效果类似动态PPT,且人物间交互画面无法实现的痛点,实现了真正的视频生成。
问题#3:豆包大模型生态进程如何?
豆包音乐模型、豆包同声传译模型也在巡展中同时发布,此外豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型也迎来升级。我们看到随着大模型矩阵的持续完善,C端应用也在快速落地,如豆包相关的模型技术已经首先应用到了旗下剪映、即梦AI和醒图工具中。而据火山引擎巡展的数据,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,多模态方面,日均生成图片5000万张,日均处理语音85万小时,相关数据表明C端落地及渗透速度在持续加速。
问题#4:新视频模型的发布给传媒行业带来哪些机遇?
一方面,我们预计字节视频新模型将应用到内容创作相关领域,包括电商营销、动画教育、城市文旅、微电影和短剧等,提升内容生产效率与质量。可大幅降低制作门槛的同时拥有较高质量。我们认为拥有核心导演或创意人才及IP资源的公司有望受益。另一方面,随着模型技术进步及相关人才的成长,AI应用端有望加速落地,产业迎来催化。
风险提示:竞争加剧风险,行业监管风险,模型技术进展不及预期风险。
相关研报
朱珺 分析师 S0570520040004 | BPX711
吴珺 分析师 S0570523100001
关注我们
https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/research
免责声明