生数科技发布 Vidu 新版本，解决了视频生成的多主体一致性难题

文摘 2024-11-13 18:57 北京

11 月 13 日，生数科技发布 Vidu 1.5 版本，全新上线「多图参考」功能，官方宣称该版本实现了视频生成模型的新突破：突破「一致性」难题、理解多样化的输入。

尤其是，多主体一致性的能力，可以说是解决了视频生成模型的「杀手级」难题。

功能体验地址：www.vidu.studio

文章内容来自于官方稿件，Founder Park 进行了部分整理。

点击关注，每天更新深度 AI 行业洞察

01 攻克「多主体一致性」难题

在上线之初，Vidu 便具备了角色一致性生成能力，通过锁定人物面部特征解决了视频生成中的关键痛点，确保了人物面部特征的一致性。此项技术允许用户上传自定义角色图并指定该角色在任何场景中进行特定动作。

9 月，Vidu 又于全球率先发布了「主体一致性」功能，将面部一致拓展至全身一致，并且将范围由人物形象扩展到动物、物体、虚拟角色等任意主体。用户只需上传任意自定义主体的图片，便可通过描述词轻松实现在连续不同场景中的主体特征保持一致。

目前除了 Vidu，其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调，才能实现基本的面部一致性。我们相信，随着基础模型的投入和迭代，整体性能将得到大幅度增强，而无需再依赖复杂的单点微调。

具体来说，Vidu 的技术突破在以下三个方面得到了直观地呈现：

1. 复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，Vidu 都能保证其在多个不同视角下的一致性。举个例子，造型复杂的 3D 动画风格角色，无论视角如何变化，Vidu 始终确保头型、服饰的全角度细节一致，避免了传统视频模型在复杂视角切换时产生的瑕疵。

2. 人物面部特征和动态表情的自然一致：在人物特写镜头中，Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性，避免了面部僵硬或失真的现象。精细的面部控制使 Vidu 在创作细腻、真实角色时具有显著的优势。

3. 多主体一致性：Vidu 允许用户上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。例如，用户可以上传主体、客体和环境的图片，创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu 还支持多个主体之间的互动，用户可以上传多个自定义角色，让它们在指定空间内进行交互。此外，Vidu 还支持融合不同主体特征，例如将角色 A 的正面与角色 B 的反面无缝融合，创造出全新的角色或物体。

在官方测试的 Runway、Luma AI 等其他视频模型中，均无法实现以上效果。

02 三张图稳定输出，

视频生成告别 LoRA 炼丹

更值得关注的是，这一突破性的工作源自于 Vidu 1.5 背后基础模型能力的全面提升，而非业界主流的 LoRA 微调方案，无需专门的数据采集、数据标注、微调训练环节，一键直出高一致性视频。

要知道，LoRA 微调一直是业界解决一致性问题最主流的方案。

所谓 LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定主体的多段视频进行微调，让模型理解该主体的特征，从而能生成该主体在不同角度、光线和场景下的形象，保证其在若干次不同生成时的一致性。

简单理解，比如我创作了一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，所以需要拿卡通狗的多段视频，让模型进一步训练，让模型认识这只卡通狗长什么样，从而能够生成。

但问题是，通常 LoRA 需要 20～100 段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本为单次视频生成的成百上千倍。

另外 LoRA 微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化，很难有效控制，所以生成的视频容易产生僵硬或不自然的效果，以及在复杂动作或大幅度变换时，微调模型无法很好地捕捉细节，导致主体特征不够精准。

所以 LoRA 主要适用于大多数简单情形下的主体一致性需求，但对于高复杂的主体或问题场景，需要更多的微调数据和更复杂的模型微调策略。

Vidu 1.5 基于通用模型能力的提升，仅靠三张图就实现高可控的稳定输出，直接省去「炼丹」环节，称得上是「LoRA 终结器」了！

03 视觉模型也可以理解「上下文」了

直观看，要实现上述类似的多主体一致性生成任务，需要模型能够同时理解「多图的灵活输入」，不仅在数量上实现多图的输入，而且图片不局限于特定的特征，这与语言模型的「上下文学习」能力具有显著的相似性。

在语言模型中，理解上下文不仅仅是处理单一的文本输入信息，而是通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。同样地，视频生成或多图生成任务中，模型需要能够理解多个输入图像的准确含义和它们之间的关联性，以及能够根据这些信息生成一致、连贯且有逻辑的输出。

通过不断扩展上下文长度，Vidu 从 1.0 迭代到 1.5 后，出现了明显的智能涌现效应，模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频，到多输入参考信息，未来还将以更长、更丰富的上下文作为输入，进一步提升模型的能力表现。

更多阅读

Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

Alexa 做了 10 年，销量 4000 万台，却还是一个智能闹钟

对话Me.bot产品负责人：PH月榜第二，用另一种方式做AI陪伴

转载原创文章请添加微信：founderparker

http://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247510231&idx=1&sn=b815e4752cbb41f019b0c5e64c2e6c9a

Founder Park

来自极客公园，专注与科技创业者聊「真问题」。

最新文章

做销售SaaS，从以色列到全球化，估值72.5亿美元的PMF方法

OpenAI 在亚洲的首届黑客松，这三个作品获奖了

OpenAI主推的AI PDF工具，一年50万用户，团队只有5个人

硅谷一线增长专家分享：C 端 SaaS 产品增长的七大核心杠杆

来自独立开发者的AI编程上手实战：如何用AI 提高编码效率？哪款工具最好用？

具身智能2024：有什么新变化，谁还在牌桌上？

做出最好大模型的 CEO，不认为 Scaling Law 撞墙了

AI Coding能撑起一个多大的叙事？

对话AIGCode创始人：只有从底层训模型，才能真正释放Coding生产力

Founder Park 招人！一起用内容做点有意思的事

11 种反常识的增长手段！增长黑客，就是挑战规则，恰到好处的邪恶

最挣钱的 AI+PPT 应用有哪些？为什么是它们？

专访Perplexity增长负责人：最大AI搜索的增长尝试，哪些成了，哪些没成？

Mistral放大招：124B多模态，Canvas、搜索、图片生成免费用

对话王诗沐：走出大厂创业，做 3D AI 游戏，瞄准新的内容平台机会

周五聊：AI产品出海，怎么找达人做营销？

Kimi发布新模型，数学能力超o1，产品重点提升留存率

AI 创业出海欧洲，如何找到投资？

下周五聊：AI产品出海，怎么找达人做营销？

对话百度智能云：LLM两年，我们找到了做AI应用的正确范式

下周五聊：AI产品出海，达人营销怎么做？

爆火AI编程工具Bolt，数据公开：4周ARR 400万，周活10万

语音AI赛道全解析：市场规模超 50 亿，最有机会的场景在哪里？

和百度智能云聊聊：LLM面世两年，AI应用开发的「坑」与新共识

生数科技发布 Vidu 新版本，解决了视频生成的多主体一致性难题

Glean：企业AI搜索，估值46亿美元，ARR一年翻4倍

Anthropic 办了一场黑客马拉松，选出了这三款应用

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

The Information爆料：OpenAI调整大模型方向，Scaling Law撞墙？

Alexa 做了 10 年，销量 4000 万台，却还是一个智能闹钟

ARR 指标失效，SaaS 公司该如何重新设计定价模式？

今年最特别的黑客松：AI社会公益、2万美元大奖，速来！

特朗普当选总统，美国大选如何撕裂整个硅谷科技圈？

副业做的应用获25万用户，全职创业却失败，AI创业这么难吗？

PH本周最佳产品介绍：全是AI产品，40%为华人团队

产品转型，创始人用48小时做了个demo，2 个月后公司卖了6.5亿美元

xAI、Anthropic同日上线API：Grok免费公测，Claude Haiku价格暴涨

腾讯开源：3D素材生成模型、最大MoE模型，兼容OpenAI SDK

产品转型6次才找到PMF，这家公司公开了自己的PMF方法论

被迫转型后，9人团队把AI写作做到500万美元ARR

周三聊：AI产品的全球化增长第一步，SEO怎么做？

胖东来真正的商业模式是什么？为什么不做地域扩张？

周三聊：AI产品的全球化增长，SEO怎么做？

OpusClip创始人赵洋：7个月，500万用户，ARR千万美金

秘塔科技专访：AI搜索这件事，我们是怎么想的？

下周三聊：AI产品的全球化增长，SEO怎么做？

ChatGPT AI搜索上线！Altman：这是ChatGPT发布以来，我最喜欢的功能

RTE年度场景三强专访：实时语音、多模态Agent，创业机会在哪里？

下周三聊：AI产品的海外增长，SEO怎么做？

GPT-4o、NotebookLM带来的AI语音新变化，声网们是怎么想的？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉