一、引言
继Openai发布Sora开始,视频生成类的产品开始雨后春笋般的发芽。此前,我们已经测评过可灵等诸多优秀的模型与产品。2024年4月27日,清华大学人工智能学院的成立和生数科技与清华大学联合发布了“清华版Sora”——Vidu。7月份Vidu正式上线,凭借在多镜头生成、语义理解以及2D动画方向不错的表现,引发了行业内的关注。
9月11日,生数科技在北京举办的媒体开放日上,发布了Vidu的重磅功能——「主体参照」(Subject Consistency)。这一功能不仅允许用户上传任意主体的一张图片,还能够在视频生成过程中保持主体形象的一致性,并通过描述词切换场景,生成逻辑连贯的高质量视频,对于整个AIGC视频的创作流程带来了比较大的颠覆。
传送门:
https://www.vidu.studio/create/img2video
然而,Vidu的新功能真的像宣传片中展示的那样强大吗?不付费的用户又会获得怎样的体验呢?废话不多说,先给出我们的结论——
1、 免费版及标准版下只能生成高性能视频,视频生成虽较快,但生成质量稳定性较差;
2、 在角色类的单一主体生成上,Vidu在2D图片的一致性以及稳定性表现上要远超过3D图片;
3、 在单主体物品图像生成方面,免费版的Vidu对普通的物品已实现足够高的质量和稳定性,对于一些训练数据外的物品表现还是不够理想;
PS:本次测试使用免费版进行测试,高级版本的具体效果会在后续进行测试。
二、产品介绍
2.1
什么是「主体参照」
所谓「主体参照」,就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。一些图生视频模型只能基于首帧画面的连续生成,无法直接输出目标场景。即使参照了主体,也只能在首帧图片的图片构图下“命题作文”。
不同于其他产品,Vidu可以通过文字描述,在保持提供主体一致性的情况下任意转换生成的场景和构图。另一个Vidu的优点是,不局限于人物,即使是鞋子、包包等物品,也可以作为「主体参照」的主题进行视频创作与生成。换言之,Vidu的「主体参照」可以根据给定的任意主体生成符合提示词要求的场景和构图。
2.2
界面展示
● 页面设计:Vidu的界面很简单,但是很有巧思,尤其是欢迎界面的小窗设计,让人联想到胶片机的放映窗。进入创作界面后整个页面清晰简洁,产品的三个功能“图生视频”、“参考生视频”和“文生视频”整齐排列于页面的左上角;
● 操作流程:
主界面进入后,整体可以看到模型的三大功能:图生视频、参考生成、文生视频。用户在上传图片后,可以通过输入提示词优化生成的视频,同时产品还支持中文输入提示词,并且能够选择是否对提示词进行优化。
左上角中间部分的“参考生视频”模式就是本次新发布的“主体参照”功能;
点击上传参考图片,若是图片中只存在单一主体,Vidu会自动框选主体,如果图片中出现2个及以上的主体,则需要手动选择想要生成视频的主体(目前版本不支持多主体视频创建);
用户还可以选择视频生成模式(高性能=生成速度更快;高质量=生成画面质量更好)与生成时长,最长时长为8s,完成描述以及参数选择后即可点击“创作”按钮等待视频生成。
● 结果调试:
视频的生成分成排队等待和生成2个步骤,付费升级即可跳过第一步,但免费版下也并不需要等待太久;整体视频的生成速度较为迅速,实测在性能模式下,单个视频的等待时间不超过3min。生成完成后,用户可以在右侧直接看到生成结果,并可对结果进行再创作和高清化的选项,目前Vidu输出的最高分辨率为1080P。
如果对结果不满意,还可以进行反馈和建议,帮助产品进行提升。
2.3
产品商业化
与大多数产品一样,目前Vidu采用了分级订阅制。一共支持4个版本:免费版仅支持生成时长为4秒的视频;标准版及以上版本支持生成时长为8秒的视频。此外,高级版和尊享版还可以设置“高质量”参数,以提高视频主体参照的稳定性。
三、主体一致性测评
真人角色一致性
女人走在大学校园的大道上,两边都是树木
在真人角色一致性测评中,生成的视频中王宝钗面部神情和头饰等细节的还原非常精细到位。但是视频前半段手上拿着的扇子到了最后一帧竟然消失不见,手部的动作也由拿着扇子轻轻晃动突兀地放在了腹部。
或许是由于提供的主体为半身照,尽管Vidu对全身服饰的补充显得尤为自然贴合,但是和现代大学校园的氛围不是很一致。
阳光明媚,温暖的金色光芒洒在沙滩上。镜头从远处缓缓拉近,捕捉她的微笑和享受海风的姿态。
从左侧的免费版本与右侧的高级版本生成的视频中可以明显看出差异,除了画面清晰度之外,高级版本的视频在画面主体一致性方面表现得更为稳定。
然而值得注意的是,即使在免费版本中,人物的微表情和动作仍然显得十分自然,且人物面部特征在全长4s的视频中未发生偏移。背景中海浪的波动变化也符合现实规律。
3D角色一致性
女人在跳舞
同样地可以观察到,视频中的人物相对于图片仅还原了部分的面部特征,存在一定偏差。值得肯定的是,生成视频中的人物微表情变化和上半身舞蹈动作都显得十分自然。
美中不足的是四妹的那段视频怎么最后一帧出现了3只手臂,莫非是识别出了原型是蜘蛛(bushi)。
这只猫头鹰装饰着翠绿的羽毛,好奇地环顾四周,它那圆圆的大眼睛以浓厚的兴趣观察着周围的每一个细节
在官方给出的3D角色生成的示例中,可以发现Vidu在主体一致性和稳定性上都呈现了不错的表现。猫头鹰摇头晃脑的小动作和面部细节变化都很到位,背景树林的光影错落有致也很自然。
2D角色一致性
小女孩拿着叉子在吃蛋糕;小企鹅在冰场滑雪
与3D图像相比,2D图像的主体一致性更加稳定。
无论是复杂的动画角色还是简约的Q版形象,Vidu在确保主体一致性的同时,能够依据视频中的动作对动画角色的面部细节进行自然变化。
动物角色一致性
小狗从草地上笑着跑过来
在动物一致性测试中,Vidu表现优异,无论是小狗的动作细节还是视频背景的光影效果,都高度贴近现实。
物体一致性
一款时尚的手提包配有编织手柄和波点围巾,优雅地展示在奢华的陈列柜上。场景设置在一家别致的精品店中,柔和、温暖的灯光突出了包袋浓郁的棕色和闪亮的金色心形搭扣。氛围散发着精致和独特性,十分吸引人
Vidu在保证物体一致性及视频全程稳定性的基础上,还做到精准地理解了描述中的“优雅”“氛围”等较抽象的词语并生成了对应风格的视频。
男人将一个完整的折叠屏手机从桌上拿起来
在物体一致性测试中,我们发现,较为常规的物体如手提包能够被准确地理解,整体的生成结果逻辑性上没什么太大问题。
然而,对于华为新推出的三折叠屏手机,即使提供手机完整展开的图片,Vidu仍难以准确理解手机的使用方式。在最终生成的视频中,手机不是被分成两个,就是其大小和形状发生变化。
四、总结
通过此次免费版本的测试,我们可以明显地发现,Vidu在实现人物和物体的主体一致性方面表现尚可,尤其是在2D相关内容的生成中,整体表现优异。但是在全身的场景下,还是会偶尔发不一致和不符合逻辑的情况出现,不过这点似乎是模型本身的问题,以及对于某些训练模型外的新物品生成,Vidu尚无法做到完美理解,期待未来通过更多补充训练来完善模型。
对于一些bad case,官方文档也给出了一些建议,在尝试过程中可以作为参考:
过往AI长视频生成工具在处理一致性问题时,常常面临角色外观变化或场景跳跃的挑战。也有使用关键帧以及局部重绘来控制整条视频生成结果的,但是这反而带来了更多的工作量。而Vidu的“主体参照”新思路在保证一致性的同时,提高了创作自由度,改变了原有的创作范式。这不仅标志着AI完整叙事的开端,也预示着AI视频创作将迈向一个更高效、更灵活的阶段。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai