一、前言
11月15日,字节跳动的两款重要视频生成模型——PixelDance和Seaweed,正式在即梦AI平台上线。用户可通过即梦AI的网页版或手机应用进入“视频生成”界面,并在视频模型中选择“视频P2.0 Pro”或“视频S2.0 Pro”进行免费体验。
每位用户每天可获得60积分(首日体验可获得88积分)作为免费使用额度,而生成一次视频所需消耗的积分则在5至40之间。尽管如果希望充分体验这两款新模型,60积分的每日使用额度可能稍显不足,然而考虑到可灵1.5大模型目前尚无法免费使用,即梦AI的使用政策则显得较为友好。
回到PixelDance,这款模型在去年的11月份凭借其卓越的动态视频生成能力在人工智能社区引起了显著关注。研究成果显示,PixelDance在生成结果的动态表现上明显优于当时的其它现有模型。今年9月底,PixelDance与Seaweed两款新模型在火山引擎与即梦AI针对创作者和企业客户开展的小范围邀请测试,再次受到广泛关注。参与内测的创作者们在体验后纷纷给予高度评价,称其为“字节视频生成模型的大杀器”等。
那么,S2.0、S2.0 Pro和P2.0 Pro三款模型具体效果如何,又分别有哪些不同的适用场景和特色功能呢?我们对此进行了详细测评。
二、新模型功能介绍
即梦AI在原有的1.2模型以外,接连发布S2.0、S2.0 Pro、P2.0 Pro三款新模型。三款模型都支持文生视频和图生视频,但功能侧重有所不同。
视频支持5s和10s两个时长,视频比例包括21:9、16:9、4:3、1:1、3:4、9:16六种。
S2.0:快速生成能力
S2.0模型是三款新模型中最先发布的,具备高效生成能力,生成5秒视频仅需60秒。此外,在视频分辨率、画质清晰度、流畅性效果等维度均进一步提升,能够生成幅度更大的动作,且动作效果更加自然流畅,细节更丰富,还可以生成人物微表情、自然的服饰、头发等细节。
S2.0 Pro:首帧一致性能力与合理动效能力
S2.0 Pro最突出的能力首帧一致性,指的是模型生成的视频与作为首帧的用户输入的图像,在主体、风格、色彩等细节方面能够保持一致。因此可以看到,S2.0 Pro是一款定位图生视频的模型。
S2.0 Pro第二大能力则是更加流畅的镜头运动和更自然的动作效果,生成的视频能够有更合理的动效和生动的运镜。
即梦官方将S2.0 Pro比喻为【拿放大镜的细节控“画家”】,能够精确描绘原作的每一笔,复制色彩的微妙变化与光影的细腻处理,同时赋予创意新的生命和动感。
P2.0 Pro:复杂提示词遵循与多镜头切换能力
与S2.0 Pro模型不同,从P2.0 Pro宣传的功能上就可以看到,P2.0 Pro是一款侧重文生视频的模型。相对于细节控画家的比喻,即梦将P2.0 Pro比喻为【高度服从命令的“士兵”】。P2.0 Pro拥有极高的提示词遵循能力,对复杂的提示词仍然可以保持严格的遵循。
P2.0 Pro的另一大特色则是镜头切换与组合的能力。在一个提示词内,P2.0 Pro能够在保持视频内形象主体、风格和氛围一致的前提下,实现多个镜头切换及多镜头组合,让视频讲述更加丰富和完整的故事。多镜头切换包括在生成的视频中展现快速切换的场景,以及在不同角色之间转换视角。
官方的演示视频中,一只绿毛怪物在舞动的同时,镜头向外推进,通过爆炸的火焰实现了较为流畅自然的镜头切换,从远距全身切换到了脸部的特写。两个镜头之间怪物的形象完全一致,毛发、火焰等细节也都非常真实。
三、模型测试
01
P2.0 Pro
针对5s视频使用三种不同风格与场景的复杂提示词进行测试,生成时间在两分四十秒左右。
提示词1:在奇幻森林深处,精灵射手在追逐一只发光的鹿,开始是森林的中景展示精灵与鹿的追逐,然后切换到精灵拉弓射箭的手部特写,最后切换到鹿逃窜的背影视角,画面呈现空灵奇幻风格。
提示词2:未来都市中,身着银色机甲的战士在高楼间穿梭战斗,先全景展示城市与战斗场景,再切换到战士面部表情特写,最后以从战士视角俯瞰战场结束,画面风格为炫酷科幻风。
提示词3:在废弃的游乐园,小丑玩偶坐在旋转木马前,背后是生锈的摩天轮。先以全景呈现游乐园的荒废景象,然后切换到小丑玩偶破损的脸部特写,最后以夜晚灯光下游乐园的全景结束,画面风格为写实的诡异惊悚风,色调昏暗。
提示词遵循能力测评
多镜头切换能力测评
我们接着对提示词1进行修改,尝试修复动态不足的问题。
提示词:在奇幻森林深处,精灵射手在追逐一只发光的鹿,开始是森林的中景展示精灵与鹿的追逐动态画面,然后切换到精灵拉弓射箭的动态手部特写,画面呈现空灵奇幻风格。
评测:效果没有得到改善,反而有所下降,只有鹿的动态,射手的动态和手部特写完全丢失。
又针对10s长度视频进行测试,重新使用5s提示词内效果最好的小丑作为提示词。
提示词:在废弃的游乐园,小丑玩偶坐在旋转木马前,背后是生锈的摩天轮。先以大远距全景空镜呈现游乐园的荒废景象,然后切换到小丑玩偶破损的脸部特写,最后以夜晚灯光下游乐园的全景结束,画面风格为写实的诡异惊悚风,色调昏暗。
生成视频:生成时间在四分四十秒左右。
评测:小丑面部细节较为真实,头上的裂缝和污渍等细节保持了非常好的一致性。但即使在修改提示词后,仍然不能理解全距离全境空镜的含义。但10s短视频并没有像预期的能够承载更多的镜头切换,原本5s视频中的多镜头切换在10s视频中反而丢失了,镜头的移动也变得非常缓慢,且最后的全景也没有展现出来。总体效果不及5s版本。
02
S2.0模型
提示词1:在奇幻森林深处,精灵射手在追逐一只发光的鹿,开始是森林的中景展示精灵与鹿的追逐,然后切换到精灵拉弓射箭的手部特写,最后切换到鹿逃窜的背影视角,画面呈现空灵奇幻风格。
评测:帧率低,有动态效果,但是变化缓慢,追逐变为了漫步;在弓箭与脸部重叠时人物脸部会出现问题,弓箭动态中存在部分缺失问题,远处的鹿也存在问题,场景光影的一致性不稳定,鹿在动态中也不稳定;不具备镜头切换能力。
提示词2:未来都市中,身着银色机甲的战士在高楼间穿梭战斗,先全景展示城市与战斗场景,再切换到战士面部表情特写,最后以从战士视角俯瞰战场结束,画面风格为炫酷科幻风。
生成视频:生成时间一分十五秒左右
评测:展现出了高楼间穿梭战斗的情形,但动效是通过类似背景和镜头的移动实现的,人物本身没有移动,导致穿梭的方向是反向的;整体效果优于P2.0 Pro生成的两个视频的第一个镜头;但不具备镜头切换能力。
提示词3:在废弃的游乐园,小丑玩偶坐在旋转木马前,背后是生锈的摩天轮。先以全景呈现游乐园的荒废景象,然后切换到小丑玩偶破损的脸部特写,最后以夜晚灯光下游乐园的全景结束,画面风格为写实的诡异惊悚风,色调昏暗。
评测:背景旋转木马稳定性差,不具备镜头切换能力。
03
S2.0 Pro
提示词1:图中的人慢慢走过向日葵,脸逐渐抬起看向远方
评测:人物、风格、细节、色彩一致性都得到很好的保持,人物的运动、向日葵的摆动都很自然,人物胸口抱着的花没有得到很好处理,但总体效果较好。
提示词2:比熊先在原地轻轻抖动身体,抖落身上可能存在的灰尘,随后开始缓慢走动,在 走动过程中自然地嗅闻周围的空气,毛发随着动作自然摆动。
评测:一致性得到非常好的保持,比熊的动作非常自然流畅,效果很好
提示词3:篮球入网,篮网因篮球的冲击而剧烈晃动
评测:初始几帧表现非常好,篮球的转动很自然,纹路和文字也得到正确的保持,但后续篮球背面文字出现问题,且动态幅度小,篮球无法落入网中;篮网的晃动较为自然,但不符合物理规律。
提示词4:展现从不同角度观察这份水果拼盘的动态过程
评测:表现惊人的好,转动非常自然,并且可以随着转动调整光影的位置。
提示词5:无文字Prompt
评测:整体效果很自然,一致性很好,但中间横杆存在消失模糊的问题
四、结语
经过整体评估,P2.0 Pro在提示词遵循能力和多镜头切换能力方面表现“时好时坏”,当前的AI视频生成仍然无法避免大量抽卡。
此次更新发布的S2.0 Pro和P2.0 Pro虽然均为即梦AI的核心视频生成工具,但它们针对不同的使用场景和需求。S2.0 Pro适合需要精准表现初始图像细节的场景,如广告推广、产品演示等,用户在使用中只需输入一张图像,即可生成符合要求的视频。相比之下,P2.0 Pro则更适合故事叙述和情景再现等复杂场合。创作者可以通过输入详细的文字提示,生成多样化的影片内容,更适用于短视频制作及社交媒体营销等领域。
从S2.0到S2.0 Pro和P2.0 Pro,即梦在视频生成功能的每次更新都在稳定性、动效和视频运镜等方面带来了显著提升,期待未来进一步的完善。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai