首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

科技 2024-11-14 14:01 北京

衡宇发自凹非寺
量子位 | 公众号 QbitAI

三张图攒一个毫无违和感的视频！

视频模型领域又沸腾了！

把Runway、LumaAI等一众视频模型都一锅端了。海外用户评价，一众视频模型都实现不了的能力，它竟然给攻破了，甚至在语义理解甚至比图像模型王者Midjorney还强。

这背后就是国产视频模型Vidu——全球最早对标Sora发布的视频模型。昨天新上的“杀手级”功能：多主体一致性。（传送门：www.vidu.studio）

这个功能上周六Vidu就在X上偷偷预热了，昨天正式上线。简单讲，这个功能支持上传1～3张参照，来实现对多主体的控制。

以官方发布的demo为例，丢入“黑人男子、机甲、城市街景”三张图，Vidu 能提取主体、服装、场景，将三者无缝融合，输出一段“男子穿着机甲走在城市街道”的视频内容。

想不到啊！要知道，之前的视频模型理解一段promot都费劲，需要来回抽卡，现在用Vidu生成视频，已经可以跟写作文似的，明确地点、人物、行为、形象，就能实现精准控制和编辑。

海外用户更是直呼“改变了游戏规则”，未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。

比如有用户上传一个女战士的形象图+战场场面，就可以生成堪称史诗级的战争画面。

更有上难度的，直接上群像图，一次上传十个主体（拼图放一块），让Vidu生成一段视频，但显然，这都没有难倒它。

这瞅着感觉以后生成水浒传108将群像也不是不可能嗷！

一致性魔咒，难死一众高手

前面提到，这是目前Runway、Luma AI等全球一众高手都不具备的能力，在功能层面，上述几家都仅仅支持单图输入。

我们以Vidu官方案例，拼图后在这两家分别测试了下。

国外爆火的Runway，却无法理解人物，人物直接突变成了机器人。

而Luma AI无法理解场景，各自动各自的。

这背后其实就是“一致性控制”问题。

这是视频模型的老大难问题，在吐出生成结果的时候，模型往往难以确保主体（无论是人物还是物体）的外观、特征、风格保持一致。

你给它清秀小帅哥，秒变可怖伏地魔那是常有的事。

尤其是一上难度，涉及多主体时，模型更是很难对多个主体同时进行控制，更别提主体间还要保持自然连贯的交互。

就，脑壳痛。

不过这一“世纪难题”现在被Vidu 完美解决了！Attention please！上新期间每人3次免费机会，大家且玩且珍惜。

当然，对于“一致性”问题，Vidu领先业界布局已久。

早在7月底全球上线时，Vidu就推出了“角色一致性”功能，解决人脸一致性问题，对比看，近期可灵1.5刚上线人脸一致性功能。

在9月初，Vidu又全球首发了“主体一致性”功能，允许用户上传任意主体的一张图片，从“人脸一致”拓展到“主体一致”，例如人物的全身一致，不再局限于人脸，甚至动物、商品的一致性保持也不在话下。

短短两个月，Vidu又又又升级了，能实现对单主体的多角度一致，也能实现多主体交互控制、主体与场景融合控制。

如何正确打开（指南宝典）

废话不多说，上指南宝典。Vidu的打开如下：

单主体的一致性视频生成

首先单主体场景。

通过上传特定主体的不同角度或不同景别下的图片，能够能实现对单主体的100%精准控制。

具体来说，第一点是对复杂主体的精准控制。

那就上传几张欧洲古典美女玩玩吧（doge）：

难点可不仅是还原少女的美貌，还有她的头饰、发型、服饰十分复杂，模型很容易犯脱离图片“自行脑补”的灾难。

但在Vidu生成的中景镜头视频中，美女姐姐转个圈圈（涉及背后、侧面视角），不同视角下，角色形象始终如一，保持得挺好。

不单单真实人物，这一能力对3D动画形象来说，通过上传三视图简直是手拿把掐。

第二点是人物面部特征和动态表情的自然一致。

通过上传多张人物特写图，Vidu能够确保人物面部的特征细节和表情变化自然流畅，不会出现面部僵硬或失真的现象。

这次的模特，有请这位小朋友。

从笑容转换到垂眸失落，过度自然，也没有失真：

多主体生成

这次新功能更妙的是能上传多个主体，实现多主体的一致性控制（业内独家）。

多个主体的组合，可以是人物+人物，也可以是人物+场景、人物+道具等，甚至是人物+道具+场景，并在视频生成中实现这些元素的自然交互。

首先是多主体交互，用户可以上传多个自定义角色，让它们在指定空间内进行交互。何不试试让AI界奥特曼和光之巨人迪伽奥特曼同框出镜？

然后奥特曼届的名场面就此诞生：

这里还可以是融合不同主体特征，比如人脸融合，将角色A的正面与角色B的反面无缝融合。

试试穿10号球衣的马斯克。这简直是一键AI换脸神器！

也可以是人物+道具 ，比如试试给人物换装，让马斯克穿礼服。很好……

终极难度就是，人物+道具+场景，用户可以上传主体、客体和环境的图片，创建定制角色身穿特定服装、在定制空间内自由动作的场景。

比如丢给它一张马斯克帅照、一件东北花袄、一辆电动小摩托，输入prompt：

男人穿着花袄在游乐园骑电动车。

他立马就开心得像个五十几岁的大男孩：

这视频来看，道具师、服装师可以双双下线了……

如果不走搞笑路线，来个正经的。这特效效果不止一点点震撼。

必须要提的一点是，以上这些能力的实现并不来自业界主流的LoRA（Low-Rank Adaptation）微调方案。

简单理解，过往的视频模型如果想实现上述换装、人脸融合等场景能力，均需要针对每一个场景设计进行微调。

LoRA效果虽不错，但通常需要20～100段视频，数据构造繁琐，且需要数小时甚至更久的训练时间成本为单次视频生成的成百上千倍；另外LoRA微调模型容易产生过拟合，导致对于动态的表情或肢体动作的变化，很难有效控制。

但Vidu选择在自身通用架构上持续迭代升级，通过提升基础模型带来更泛化的能力，无需专门的数据采集、数据标注、微调训练环节。

仅靠三张图就实现高可控的稳定输出，直接省去LoRA“炼丹”。好家伙，LoRA终结器嘛这不是！

视频模型拥有了“上下文记忆”

Vidu背后的研发团队生数科技也放出了技术架构的介绍，所谓统一化架构：

统一问题形式：将所有问题统一为（视觉输入，视觉输出）；
统一架构：均用单个网络统一建模变长的输入和输出；
压缩即智能：从视频数据的压缩中获取智能。

△

图注：

LLM和Vidu技术架构方案对比

细品，这不就是和LLM一致的“设计哲学”：将所有问题统一为简单输入输出，从压缩中获取智能，同样单个网络统一建模变长的输入和输出。

一旦接受了这个设定，再细品看，想必我们想到了同样的一个类似事件：ChatGPT的智能涌现。

相较于GPT-2、GPT-3，初代ChatGPT背后GPT-3.5之所以能够一炮轰出个AI新时代，正是因为OpenAI在其基础模型上大花功夫，带来通用模型能力的提升。

从开始的预训练+微调的路径，伴随不断的Scaling Up，最终基于一个通用基础模型实现泛化能力。

Vidu的提出让我们看到了，视频模型的训练范式也从“预训练+微调”的路径升级到了通用化的统一架构，并在任务层面实现泛化。

另外还有一点，则是上下文理解能力方面，GPT-3.5能够更好地处理复杂的指令和问题，理解更长的上下文信息，通过关联前后的文本、识别语句之间的关系，生成连贯且符合情境的回答或内容。

有意思的是，在Vidu这儿，我们也看到了“上下文记忆”能力。

此次升级，从单图输入到输入多张参考图像，Vidu能够理解多个输入图像的准确含义和它们之间的关联性，以及能够根据这些信息生成一致、连贯且有逻辑的输出。

这与大语言模型的“上下文学习”（In-Context Learning）能力具有显著相似性，通过上下文学习基于少量的示例或提示快速适应新任务。

至此，Vidu不再仅仅是从文本到视频的渲染工具，不仅仅具备了理解和想象的能力，还能够在生成过程中对上下文信息进行记忆管理。

曾经大语言模型的独有优势，现在在视觉模型中也得以体现。

视觉模型也出现了和语言模型一样的“大跨越”，AGI版图里的一块重要拼图，正在加速进化中。

传送门：www.vidu.studio

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247758284&idx=1&sn=3bc97bd3b22989c7c0deac869123b1cf

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉