作者 | 张莹
编辑 | 杨锦
运营编辑 | 李阳
字节跳动的Sora终于来了!
9月24日下午,在字节跳动旗下火山引擎举办的AI创新巡展上,火山引擎一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。
目前视频生成模型赛道拥挤,不仅有Sora,还有Vidu、可灵、Dream Machine等。
稍晚一步的豆包,把竞争力放在了目前视频生成模型的痛点上——多动作多主体交互和多镜头的一致性。
除了豆包视频生成模型外,火山引擎还发布了音乐模型、同声传译模型,并升级通用语言模型、文生图模型、语音模型。
数据显示,截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5000万张,此外,豆包目前日均处理语音85万小时。
字节跳动进军AI视频生成
火山引擎总裁谭待在介绍豆包视频生成模型时称,“我们在这里面有非常多的技术创新,比如通过⾼效的DiT融合计算单元、全新设计的扩散模型训练⽅法和深度优化后的Transformer结构,这样让整个⽣成视频的动作更灵动,镜头更多样,细节更丰满。”
通过这些技术创新,豆包视频生成模型可以达到什么效果?
第一,多动作多主体交互。
谭待在现场展示了一则此次发布的模型生成的视频。该视频的描述是“特写⼀个⼥⼈的面部,有些⽣⽓,戴上了⼀副墨镜;这时⼀个男⼈从画⾯右侧⾛进来抱住了她”。
豆包视频模型完全遵循了这一复杂指令,实现了多动作多主体交互的视频生成。
多角色互动一直是视频生成模型的难题,大部分视频生成模型只能完成简单指令单一动作。豆包视频生成模型的早期版本今年2月就在即梦上应用。搜狐科技早前上手即梦时发现,即梦在遇到多主体也会出现手部畸变、面部不自然等问题。而此次火山引擎发布的豆包视频生成模型具有精准的语义理解能力,可以遵从更复杂的prompt,解锁时序性多拍动作指令与多个主体间的交互能力,或许可以改善这一问题。但在豆包此次发布的宣传视频中,豆包视频模型处理在处理多主体、动作交互时,仍有手部细节处理不到位的问题。AI生成视频往往是单镜头的,一旦镜头切换就可能出现主体变换的问题。而⾖包视频模型可以让视频在主体的⼤动态与镜头中进行炫酷和平滑切换,拥有变焦、环绕、平摇、缩放、⽬标跟随等多镜头语⾔,使得生成的视频不是简单的PPT动画。多镜头切换时难以保持一致性是视频生成的难点之一。此次发布的豆包视频生成在一个 prompt 内实现多个镜头切换,同时保持主体、风格、氛围的一致性。此外,豆包视频模型还支持黑白、3D 动画、2D 动画、国画等多种风格,1:1、3:4、4:3、16:9、9:16、21:9 等六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅。不过目前,新款豆包视频生成模型还在即梦AI内测版小范围测试,未来将逐步开放给所有用户。此次发布的视频模型还有待市场的大范围检验。视频生成模型竞争升级
当前,视频生成大模型赛道拥挤,国内外企业纷纷发力。今年2月,OpenAI发布视频大模型Sora。该大模型可以通过文本指令输出长达60秒的视频,演示视频备受赞叹。不过现在Sora还没有向公众开放,因此被外界调侃为“期货”。此后半年,视频生成大模型集中涌现。先是生数科技在4月份推出Vidu,两个月后,快手发布视频生成大模型“可灵”。紧接着,AI初创公司Luma AI也发布了视频生成工具Dream Machine,Runway推出新的视频生成模型Gen-3 Alpha。就在豆包视频生成模型发布的五天前,阿里在云栖大会上发布通义万相视频生成大模型,APP端更是不限次使用。上述大模型中,Vidu、可灵、Dream Machine、通义万相等均对外开放,而非“期货”。在激烈竞争之下,字节跳动也加入进来。豆包两款视频生成大模型的发布,被认为是字节跳动正式进军AI视频生成的标志。按照现在的时间来算,豆包入局时间较生数科技、快手等晚了几个月。“今天也有朋友问,豆包视频模型为什么在现在这个时间点推出,我们不是说一定要抢第一,推出一个不是特别好的产品。”谭待在与搜狐科技等媒体交流时,解释了为何此时才发布视频模型。在他看来,模型是影响未来十年、二十年的长远的东西,“希望推出的是比较成熟的产品。”此次推出的豆包视频大模型,优势就在于语义理解能力、多镜头下的一致性。同时,谭待指出,抖音、剪映对视频理解和理解,也是豆包视频生成的一大优势。“大模型价格已不再是阻碍创新的门槛”
效果不好、成本太贵、落地太难,是火山引擎智能算法负责人、火山方舟负责人吴迪认为的大模型在业务场景落地的关键挑战。5月份,字节跳动宣布,豆包主力模型定价比行业平均水平低99.3%,第一个把模型成本做到每千token低于一厘钱,打响了大模型价格战的第一枪。随后,阿里云也宣布阿里云宣布其9款商业化及开源系列模型降价。百度智能云宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。2024云栖大会期间,阿里云宣布三款通义千问主力模型再次降价,最高降幅达90%。在会后的群访环节中,谭待进一步称,“我觉得这不是价格战,而是大家要把应用做起来的时候,要把成本做到一个合理的价格,现在大家已经做到了。”对于大模型价格战打到负毛利的说法,谭待并不完全认同。不过谭待未透露豆包的毛利。但谭待强调,to b最重要的事情就是可持续,不能像to c一样“羊毛出在猪身上”,模型免费、靠广告赚钱是不成立的,to b卖的东西就必须做到正毛利。谭待在演讲中提到,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。火山引擎披露,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时增长十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。据谭待介绍,业内多家大模型目前最高仅支持300K甚至100K的TPM(每分钟token数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值更是达到630K。基于此,⾖包Pro默认支持高达800K的初始TPM。在谭待看来,大模型的应用成本已经得到很好解决。“大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”