一、前言
11月13日,生数科技发布最新模型Vidu 1.5版本,声称为“全球首个支持多主体一致性的多模态大模型”。与LoRA等传统的单点微调方法不同,Vidu 1.5的多主体参考实际上是一种上下文记忆。模型将多张图片作为输入并理解,把多主体、多特征之间的关系作为上下文进行记忆和关联。Vidu 1.5 支持用户上传1至3张参考图片,实现对单主体的外观与动态的精准控制,还支持通过模型生成多主体间的交互及主体与场景的无缝融合。
目前 Vidu1.5 模型支持图生视频、参考生视频、文生视频三大功能,新用户登录后每月赠送80积分,并可以体验三次720P清晰度的视频生成,极速画质和720P画质每次生成视频分别消耗4积分和12积分。免费用户视频时长限定在4秒,付费用户可以选择8秒视频和1080P画质。在生成速度方面,4s时长极速画质视频生成时间大约为26秒左右,4s时长720p则大约需要2分40秒左右,两者均包含10s左右的排队时间。
二、能力测评
01
文生视频
Vidu1.5整体生成视频质量低于即梦,最大问题主要体现在画面质感差、美观度差(视频2),推测和训练数据质量低有关。但令人惊喜的是,虽然Vidu没有宣传模型在镜头切换方面的能力,但Vidu1.5具备一定的转场能力(视频3&4)。
此外Vidu可能针对动效幅度做出了较为激进的调教,生成结果中几乎不会出现人物、物体几乎不发生移动的情况,但目前Vidu的稳定性仍无法很好支撑这么大幅度的动态效果(视频3)。
Case 1
场景从一个繁忙的城市街道宽景开始,一只巨大的、毛茸茸的独眼怪物站在车流和行人中间。它蓬松的金棕色毛发与城市环境形成了一种柔和的滑稽对比。它从厚厚的毛发中掏出一把梳子梳理着自己的毛发。
评价:街景生成质量较低,尤其是马路上行人的质量和稳定性极差;怪物生成质量尚可,动态效果幅度较大,梳子的稳定性较差。整体画面动画感强,与即梦演示视频差距较大。
Case 2
在奇幻森林深处,精灵射手在追逐一只发光的鹿,开始是森林的中景展示精灵与鹿的追逐,然后切换到精灵拉弓射箭的手部特写,最后切换到鹿逃窜的背影视角,画面呈现空灵奇幻风格。
评价:整体质量远低于即梦,精灵射手画风与森林画风存在严重的割裂,稳定性低;森林背景稳定性较好;对“发光“的理解存在严重偏差。
Case 3
未来都市中,身着银色机甲的战士在高楼间穿梭战斗,先全景展示城市与战斗场景,再切换到战士面部表情特写,最后以从战士视角俯瞰战场结束,画面风格为炫酷科幻风。
评价:能够理解并执行镜头的切换;生成了在高楼间穿梭的场景,这一点优于即梦;但穿梭过程中机甲战士的稳定性很差,较为混乱。
Case 4
在废弃的游乐园,小丑玩偶坐在旋转木马前,背后是生锈的摩天轮。先以全景呈现游乐园的荒废景象,然后切换到小丑玩偶破损的脸部特写,最后以夜晚灯光下游乐园的全景结束,画面风格为写实的诡异惊悚风,色调昏暗。
评价:同样具备转场能力,且展现出了游乐园的空镜,并清晰展现了旋转木马,这一点优于即刻;但摩天轮的转动没有表现好;小丑玩偶质感很好;总体质量为目前最高。
02
图生视频能力
动态幅度大于即梦,但对原图一致性的保持能力较差,无法保证人物、色彩等细节的一致性,并且元素的稳定性差,总体能力低于即梦S2.0 Pro。
Case 1
图中的人慢慢走过向日葵,脸逐渐抬起看向远方
生成视频1-1:
评价:效果较差。背景在视频中消失;人像的动作自然,但面部细节丢失。
生成视频1-2:
评价:自行进行了转场,环境、人物一致性被破坏。
生成视频1-3:
评价:效果为最好的一次,但一致性仍然很差,色调未保持一致,脸部细节几乎全部丢失。
Case 2
比熊先在原地轻轻抖动身体,抖落身上可能存在的灰尘,随后开始缓慢走动,在走动过程 中自然地嗅闻周围的空气,毛发随着动作自然摆动。
评价:一致性差,小狗直接换了造型,整体效果也不够自然,但仍然是本组中效果最好的。
Case 3
篮球入网,篮网因篮球的冲击而剧烈晃动
评价:和即梦一样无法完成篮球入网的完整动作,但篮球入网的后半段动态效果大,展现出了篮网的剧烈晃动,这一点上优于即梦。
Case 4
展现从不同角度观察这份水果拼盘的动态过程
评价:稳定性很差,且没有正确理解提示词。
Case 5
镜头拉近
评价:稳定性远低于即梦,木板和纹理存在抖动,最后几帧无法维持稳定。
03
参考生视频
Vidu的主体参考视频可以让大模型识别用户上传的多张图片中的多个主体对象,并在生成的视频中包含上述几个对象,并保持较好的一致性。目前Vidu1.5最多支持三张照片作为输入,可以是三个不同的主体,或者是同一个主体不同角度的照片,以提供更好的3D效果的生成。
整体来看能够实现多主体的识别和呈现,但质量参差不齐,需要文字提示词的配合,在没有文字提示词的配合下容易出现主体丢失的情况
a) 多角度人物主体测试
Case 1
女孩在舞台上演讲,保持妆容、造型相同
评价:对主体的判断出现错误,也可能是默认将三张照片识别为两个主体。
Case 2
女孩在舞台上演讲,保持妆容、造型相同
评价:人物生成效果尚可,发型、衣服、耳饰基本都得到了延续,角度的转动下人物仍然较为自然;但眼睛和手指部分仍存在少许稳定性问题,说话动作下人物下半张脸可能有些许不自然;最大问题是场景环境的生成质量过低。
b) 多人物主体测试
两个女孩友好握手
评价:人物造型特征保持较好,手部稳定性偏差;无法正确理解“握手”的含义
c) 多角度人物主体+场景主体测试
Case 1
女孩在比萨斜塔前自拍
生成视频1-1:
评价:人物造型得到了延续,但脸部特征一致性较差,几乎无法辨认出是原本的人物;无法正确理解比萨斜塔的倾斜,倾斜角度明显变小,在运镜过程中画面稳定性差;背景中的行人等细节质量极差
女孩在塔前自拍
生成视频1-2:
评价:效果极差,文字提示词去除比萨斜塔后无法理解塔的倾斜,人物面部高度模糊
女孩在场景中自拍(图片输入同1-2)
生成视频1-3:
评价:提示词中不出现塔后,完全忽略了场景主体的输入
Case 2
女孩在黑沙滩上散步
生成视频2-1-1:
评价:对场景的一致性能力仍然不够,岩石的颜色和天空颜色都与原图场景不符合;海浪不符合物理逻辑;人物转身出现重大问题,尝试重新生成
生成视频2-1-2:
评价:对人物主体捕捉失败,重新生成
生成视频2-1-3:
评价:场景遵循仍然差;人物没有转身,尝试修改提示词
Case 3
女孩在黑沙滩上转身定格
生成视频2-2:
评价:仍然无法捕捉场景,色调稳定性差;转动过程中脸部稳定性很差;对衣服图案细节的捕捉较为精准
Case 4
女孩站在街道上环顾四周
评价:整体效果较好,但手臂出现问题
d) 人物主体+场景主体+物品主体测试
Case 1
女孩在黑沙滩上牵着小狗散步
评价:大致主体得到保持,但人脸、手部、狗稳定性均不高
Case 2
女孩用绳子牵着小狗散步
评价:失败,只保留了小狗的主体,丢失人物主体和场景主体
Case 3
女孩和小狗一起散步
评价:场景主体捕捉失败,提示词理解差
Case 4
女孩的手心漂浮着一只金鱼,镜头逐渐拉近
生成视频4-1:
评价:场景和人物较为割裂,未能还原人物全身,未能捕捉到金鱼主体
女孩身边漂浮着一只金鱼,在街道上行走
生成视频4-2:
评价:丢失金鱼主体,人物主体还原性差
Case 5
女孩拿着一罐饮料,站在街道上
生成视频5-1:
评价:人物大致特征得到还原,脸部还原度较差;场景主体的呈现较好,整体效果为目前最好。
文字Prompt不变,将可乐更换为雪碧
生成视频5-2:
评价:整体效果较好,但面部、项链等细节未得到还原
三、总结
经过上述测试后,Vidu1.5的整体表现可以说整体低于预期,虽然在多主体这一玩法上确实能够带给用户新鲜感,但多主体的视频生成质量非常不稳定,容易出现主体丢失、元素模糊、一致性低等问题。
同时Vidu目前生成画面质量仍然不够高,许多生成的视频粗糙、质感差、美观度差。Vidu似乎采用了加大模型动态效果的方式,试图加强视频的表现力以弥补基座模型能力不足的缺陷。但目前Vidu模型的能力难以支持这么大幅度的动效,这也导致在绝大多数生成的视频中,在镜头和人物大幅度移动时容易出现模糊、抖动的情况。
总体来说,Vidu1.5虽然在多主体上做出了突破,但视频效果和稳定性似乎并没有宣传得那么惊艳,期待Vidu在后续能够进一步加强基座模型的能力,给我们带来真正惊艳的视频效果。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai