工具与测评 | Vidu 多主体一致性：一场视频生成的冒险

文摘 2024-12-04 17:30 广东

一、前言

11月13日，生数科技发布最新模型Vidu 1.5版本，声称为“全球首个支持多主体一致性的多模态大模型”。与LoRA等传统的单点微调方法不同，Vidu 1.5的多主体参考实际上是一种上下文记忆。模型将多张图片作为输入并理解，把多主体、多特征之间的关系作为上下文进行记忆和关联。Vidu 1.5 支持用户上传1至3张参考图片，实现对单主体的外观与动态的精准控制，还支持通过模型生成多主体间的交互及主体与场景的无缝融合。

目前 Vidu1.5 模型支持图生视频、参考生视频、文生视频三大功能，新用户登录后每月赠送80积分，并可以体验三次720P清晰度的视频生成，极速画质和720P画质每次生成视频分别消耗4积分和12积分。免费用户视频时长限定在4秒，付费用户可以选择8秒视频和1080P画质。在生成速度方面，4s时长极速画质视频生成时间大约为26秒左右，4s时长720p则大约需要2分40秒左右，两者均包含10s左右的排队时间。

二、能力测评

文生视频

Vidu1.5整体生成视频质量低于即梦，最大问题主要体现在画面质感差、美观度差（视频2），推测和训练数据质量低有关。但令人惊喜的是，虽然Vidu没有宣传模型在镜头切换方面的能力，但Vidu1.5具备一定的转场能力（视频3&4）。

此外Vidu可能针对动效幅度做出了较为激进的调教，生成结果中几乎不会出现人物、物体几乎不发生移动的情况，但目前Vidu的稳定性仍无法很好支撑这么大幅度的动态效果（视频3）。

Case 1

场景从一个繁忙的城市街道宽景开始，一只巨大的、毛茸茸的独眼怪物站在车流和行人中间。它蓬松的金棕色毛发与城市环境形成了一种柔和的滑稽对比。它从厚厚的毛发中掏出一把梳子梳理着自己的毛发。

‍评价：街景生成质量较低，尤其是马路上行人的质量和稳定性极差；怪物生成质量尚可，动态效果幅度较大，梳子的稳定性较差。整体画面动画感强，与即梦演示视频差距较大。

Case 2

在奇幻森林深处，精灵射手在追逐一只发光的鹿，开始是森林的中景展示精灵与鹿的追逐，然后切换到精灵拉弓射箭的手部特写，最后切换到鹿逃窜的背影视角，画面呈现空灵奇幻风格。

评价：整体质量远低于即梦，精灵射手画风与森林画风存在严重的割裂，稳定性低；森林背景稳定性较好；对“发光“的理解存在严重偏差。

Case 3

未来都市中，身着银色机甲的战士在高楼间穿梭战斗，先全景展示城市与战斗场景，再切换到战士面部表情特写，最后以从战士视角俯瞰战场结束，画面风格为炫酷科幻风。

评价：能够理解并执行镜头的切换；生成了在高楼间穿梭的场景，这一点优于即梦；但穿梭过程中机甲战士的稳定性很差，较为混乱。

Case 4

在废弃的游乐园，小丑玩偶坐在旋转木马前，背后是生锈的摩天轮。先以全景呈现游乐园的荒废景象，然后切换到小丑玩偶破损的脸部特写，最后以夜晚灯光下游乐园的全景结束，画面风格为写实的诡异惊悚风，色调昏暗。

评价：同样具备转场能力，且展现出了游乐园的空镜，并清晰展现了旋转木马，这一点优于即刻；但摩天轮的转动没有表现好；小丑玩偶质感很好；总体质量为目前最高。

图生视频能力

动态幅度大于即梦，但对原图一致性的保持能力较差，无法保证人物、色彩等细节的一致性，并且元素的稳定性差，总体能力低于即梦S2.0 Pro。

Case 1

图中的人慢慢走过向日葵，脸逐渐抬起看向远方

生成视频1-1：

评价：效果较差。背景在视频中消失；人像的动作自然，但面部细节丢失。

生成视频1-2：

评价：自行进行了转场，环境、人物一致性被破坏。

生成视频1-3：

评价：效果为最好的一次，但一致性仍然很差，色调未保持一致，脸部细节几乎全部丢失。

Case 2

比熊先在原地轻轻抖动身体，抖落身上可能存在的灰尘，随后开始缓慢走动，在走动过程‍中自然地嗅闻周围的空气，毛发随着动作自然摆动。

评价：一致性差，小狗直接换了造型，整体效果也不够自然，但仍然是本组中效果最好的。

Case 3

篮球入网，篮网因篮球的冲击而剧烈晃动

评价：和即梦一样无法完成篮球入网的完整动作，但篮球入网的后半段动态效果大，展现出了篮网的剧烈晃动，这一点上优于即梦。

Case 4

展现从不同角度观察这份水果拼盘的动态过程

评价：稳定性很差，且没有正确理解提示词。

Case 5

镜头拉近

评价：稳定性远低于即梦，木板和纹理存在抖动，最后几帧无法维持稳定。

参考生视频

Vidu的主体参考视频可以让大模型识别用户上传的多张图片中的多个主体对象，并在生成的视频中包含上述几个对象，并保持较好的一致性。目前Vidu1.5最多支持三张照片作为输入，可以是三个不同的主体，或者是同一个主体不同角度的照片，以提供更好的3D效果的生成。

整体来看能够实现多主体的识别和呈现，但质量参差不齐，需要文字提示词的配合，在没有文字提示词的配合下容易出现主体丢失的情况

a) 多角度人物主体测试

Case 1

女孩在舞台上演讲，保持妆容、造型相同

评价：对主体的判断出现错误，也可能是默认将三张照片识别为两个主体。

Case 2

女孩在舞台上演讲，保持妆容、造型相同

评价：人物生成效果尚可，发型、衣服、耳饰基本都得到了延续，角度的转动下人物仍然较为自然；但眼睛和手指部分仍存在少许稳定性问题，说话动作下人物下半张脸可能有些许不自然；最大问题是场景环境的生成质量过低。

b) 多人物主体测试

两个女孩友好握手

评价：人物造型特征保持较好，手部稳定性偏差；无法正确理解“握手”的含义

c) 多角度人物主体+场景主体测试

Case 1

女孩在比萨斜塔前自拍

生成视频1-1：

评价：人物造型得到了延续，但脸部特征一致性较差，几乎无法辨认出是原本的人物；无法正确理解比萨斜塔的倾斜，倾斜角度明显变小，在运镜过程中画面稳定性差；背景中的行人等细节质量极差

女孩在塔前自拍

生成视频1-2：

评价：效果极差，文字提示词去除比萨斜塔后无法理解塔的倾斜，人物面部高度模糊

女孩在场景中自拍（图片输入同1-2）

生成视频1-3：

评价：提示词中不出现塔后，完全忽略了场景主体的输入

Case 2

女孩在黑沙滩上散步

生成视频2-1-1：

评价：对场景的一致性能力仍然不够，岩石的颜色和天空颜色都与原图场景不符合；海浪不符合物理逻辑；人物转身出现重大问题，尝试重新生成

生成视频2-1-2：

评价：对人物主体捕捉失败，重新生成

生成视频2-1-3：

评价：场景遵循仍然差；人物没有转身，尝试修改提示词

Case 3

女孩在黑沙滩上转身定格

生成视频2-2：

评价：仍然无法捕捉场景，色调稳定性差；转动过程中脸部稳定性很差；对衣服图案细节的捕捉较为精准

Case 4

女孩站在街道上环顾四周

评价：整体效果较好，但手臂出现问题

d) 人物主体+场景主体+物品主体测试

Case 1

女孩在黑沙滩上牵着小狗散步

评价：大致主体得到保持，但人脸、手部、狗稳定性均不高

Case 2

女孩用绳子牵着小狗散步

评价：失败，只保留了小狗的主体，丢失人物主体和场景主体

Case 3

女孩和小狗一起散步

评价：场景主体捕捉失败，提示词理解差

Case 4

女孩的手心漂浮着一只金鱼，镜头逐渐拉近

生成视频4-1：

评价：场景和人物较为割裂，未能还原人物全身，未能捕捉到金鱼主体

女孩身边漂浮着一只金鱼，在街道上行走

生成视频4-2：

评价：丢失金鱼主体，人物主体还原性差

Case 5

女孩拿着一罐饮料，站在街道上

生成视频5-1：

评价：人物大致特征得到还原，脸部还原度较差；场景主体的呈现较好，整体效果为目前最好。

文字Prompt不变，将可乐更换为雪碧

生成视频5-2：

评价：整体效果较好，但面部、项链等细节未得到还原

三、总结

经过上述测试后，Vidu1.5的整体表现可以说整体低于预期，虽然在多主体这一玩法上确实能够带给用户新鲜感，但多主体的视频生成质量非常不稳定，容易出现主体丢失、元素模糊、一致性低等问题。

同时Vidu目前生成画面质量仍然不够高，许多生成的视频粗糙、质感差、美观度差。Vidu似乎采用了加大模型动态效果的方式，试图加强视频的表现力以弥补基座模型能力不足的缺陷。但目前Vidu模型的能力难以支持这么大幅度的动效，这也导致在绝大多数生成的视频中，在镜头和人物大幅度移动时容易出现模糊、抖动的情况。

总体来说，Vidu1.5虽然在多主体上做出了突破，但视频效果和稳定性似乎并没有宣传得那么惊艳，期待Vidu在后续能够进一步加强基座模型的能力，给我们带来真正惊艳的视频效果。

关于LitGate

大家好，我是LitGate，一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例，以及已经沉淀的AI游戏创意demo，相信一定能让你大开眼界！

我们还有一个讨论群📣，如果你对AI创作感兴趣，或者有什么问题想要咨询，欢迎加入我们的讨论群，和大家一起交流学习！（PS：目前群内人数较多，为了有一个优质的讨论环境，请各位添加社区管理员企业微信账号邀请入群

更多精彩活动和功能筹备上线中，敬请期待~

关注我们，一起探索AI创作的无限可能吧！

新版官网地址：www.litgate.ai

LitGate

AI赋能游戏开发，一站式创作者社区 http://www.litgate.ai

最新文章

绫波丽的早餐约会：可灵1.6打破次元壁

Sam耍猴落幕，Sora圣诞首测：从期待到现实的全景剖析

万字字节AI全景：从豆包到全系产品布局的秘密

工具与测评 | Sora首日关停注册，我只能在网上‘拼图’体验

工具与测评 | Vidu 多主体一致性：一场视频生成的冒险

工具与测评 | 即梦AI发布全新视频生成模型：精准细节与多镜头切换引爆创作体验

工具与测评 | 用Cursor构建基于AI的搜索引擎实战教学

学术交流 | 大模型检索增强生成综述

神秘 AI 新贵？成立两年融资过亿美金，志在成为NPC的 “大脑” 缔造者

AI生产实践 | 从梦境到游戏：Oasis的探索与未来潜力

工具与测评 | 从视频风格化到特效创意，AI视频生成工具新功能大盘点

工具与测评 | 2024年50个热门LoRA模型推荐-Stable Diffusion

MiniMax、商汤科技、面壁智能、西湖心辰、声网都来了！RTE 大会「实时互动和大模型」专场开启报名

跑团新作亮相Steam新品节，AI跑团体验迎来新突破

小心！和你热聊的可能不是美女，也不是抠脚大汉，而是AI！(1.5万字解读Seed-TTS技术)

Ola Friend：字节试水 AI 智能体耳机，豆包能否打破硬件魔咒？

时事杂谈 | 大模型比作“人类”，如何成为利器

工具与测评 | AI音乐未来可期？双序列语言模型「SongCreator」

游戏实操课 | AI我用AI做游戏：打造2D角色生成工作流

学术交流 | ReferenceNet 简介及相关算法整理

视频主体一致性大突破：Vidu「主体参照」功能王炸更新

Flux.1 with ComfyUI：新的图像生成冲击波？（内附工作流）

工具与测评 | GPT-4o 更快了，但也更脏了

AI陪伴，不止聊天：《逆水寒》自捏友人新玩法测评

AI生产实践 | 基于大语言模型的海外KOL视频总结与问答

AI界疯狂推出新产品：大模型应用知识梳理

工具与测评 | 字节AI产品大盘点

工具与测评 | 万字长文研究TTS前沿动态

解密AI陪伴类产品趋势：技术进步与市场潜力

学术交流 | 人人都能成为Prompt工程师 - 方法篇

工具与测评 | 驱动万物：LivePortrait

AI战友来袭：《永劫无间》中的“最强辅助“与未来游戏革命

学术交流 | 手把手教你训练属于年轻人的第一个模型

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

线下纪实 | AI Summer School 游戏作品导览

Steam上的智能革新，AI如何玩转游戏新纪元？

工具与测评 | 可灵 vs LUMA ：谁是meme之王？

工具与测评｜换脸哪家强？12款AI照片合成软件深度测评

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉