国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

科技 2024-11-14 12:45 北京

新智元报道

编辑：编辑部 HYZ

【新智元导读】全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。

来自中国的视频生成模型，再一次震惊了全球大模型圈。

生数科技推出的Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！

上传小哥、机甲、街景，接下来，就是见证奇迹的时刻。

人、物、环境，被天衣无缝地融合到了同一个视频中，简直令人惊叹。

这种方法，颠覆了LoRA等传统的单点微调方法，标志着视频模型统一理解和生成的飞跃！

多模态人工智能，从此有了新标准。

与诸多漫长期货的视频模型不同，Vidu只要不到30s，就能生成一段视频了！

外国友人直接原地惊掉下巴：机甲跟原图一模一样，这绝对是最稳定的视频模型；有人更是言简意赅地给出评价：生数科技是名副其实的游戏规则改变者。

只要上传多个角色、物体和地点的图片，就能立即生成每个物体一致的场景，人手制作一部大片的时代真的来了吗？

左右滑动查看

踊跃的网友们，在评论区纷纷贴出了自己的脑洞素材。

左右滑动查看

而霸气的官号直接在评论区随机摇人，抽中的网友提供的素材，果然诞生了一段段想象力爆棚的视频片段。

左右滑动查看

Vidu 1.5的推出，也揭示这样一个重要现象——

和语言模型一样，视觉模型经过充分训练后，能展现出对上下文的深刻理解、记忆等能力，这正是视觉模型智能涌现的显著特征！

这标志着，视觉模型进入了全新的「上下文」时代，AGI离我们更近了。

地表最强？率先攻克「多主体一致性」难题

一致性控制，是当前视频生成领域中，亟待解决的难题。

我们往往会遇到，AI视频生成的主体（人物/物体）的外观、特征、风格难以保持一致。

由Luma AI生成（左右滑动查看）

更不要提对多个主体完成同时控制了。

不同主体间的特征，会让现有模型容易产生混淆。而且主体间互动也难以保持自然连贯。

如今，这一「世纪难题」被国产模型Vidu攻克了！

它全新上线的「多主体一致性」功能，通过上传1-3张参考图，就能实现对单主体100%精确控制。

同时，还可以实现多主体交互、主体与场景融合控制，让人物、道具、场景无缝集成。

具体来说，Vidu 1.5版本在以下方面，实现了技术突破。

单主体100%精准控制

就单主体而言，只需上传特定主体不同角度、场景下的图片，Vidu就能100%精准控制每个细节。

复杂单主体

通常的视频模型，在生成侧面、背面等刁钻视角画面时，往往靠模型自行脑补，往往会出现一些不符合用户预期的画面。

但是Vidu完全避免了这一问题！

不论是细节丰富的角色，还是复杂的物体，它都能保证在不同视角下单主体的一致性。

话不多说，直接上图。

如下的复古美女中，妆造极其复杂，Vidu能够胜任吗？

不论在任何场景中、视角下，尤其是特写镜头中，她的形象都能保持高度的一致。

即便是3D卡通人物，不论小男孩视角如何变化，他的发型、服饰等全角度保持高度一致。

提示为「小男孩在玩具城里行走，慢慢转身到背面，镜头轻微向右移动」。

传统视频模型在复杂视角切换时产生的瑕疵，统统不见了。

再来一个刁钻的要求，上传两张科比正面图，以及一张背面图，提示是「科比背对着镜头，慢慢转过身冲着镜头笑」。

这确实有点考验AI了。它脑补的画面能行吗？

一张特写，让科比重新回到「战场」，眨眼、微笑、自然摆臂动作，Vidu全部精准拿捏。

中国建筑构造的复杂程度，就不用多说了。那让Vidu生成雪景里的万象神宫，还能保留多少细节？

不论是从远景拉近，还是环绕四周，万象神宫的外观丝毫不变。

通过融合真实建筑和其他元素，Vidu能模拟出极其真实的场景。

人物面部特征和动态表情自然一致

Vidu做整体形象一致的同时，还应该实现面部特征和表情的自然连贯性。

不少AI视频之所以折戟，就是因为面部僵硬或失真太明显，从而导致AI味太浓。

而Vidu在创作细腻、真实角色时具有显著的优势。

我们上传了三张刘德华的红毯照，然后输入提示词「一个男人在颁奖典礼上走红毯」。

只见，「不老男神」刘德华在红毯上朝我们挥手，显得非常自然。

再来看，下面三张不同角度的古风女孩照，Vidu的表现如何？

这张挥手打招呼，真实的微表情，难以让人相信这竟是AI生成的。

从微笑到难过，表情的过渡非常自然。

还有这张从侧面转身背影，Vidu丝毫没有面部僵硬或失真的现象。

同样，下面三张不同视角下的欧美风女孩，陶醉在金灿灿的稻田里。

由此不难看出，在人物特写画面中，Vidu能够确保面部细节特征、表情自然流畅变化，呈现了人物真实本色。

多主体一致性，三张图稳定输出

接下来，才是Vidu真正放大招的时候了。

现在，任何人可以在「多图参考」功能中选择上传多个主体。

它既可以是人物角色，也可以是人物+道具物体、环境背景等等，即便是「多主体」Vidu 1.5也能做到一致性控制。

主体+场景：任意地点想做什么就做什么

上传主体和场景图，就可以实现主体和场景的无缝融合。

比如莱昂纳多的一张照片，就可以让他身处不同的地方，做不同的事。

比如，躺在沙滩的躺椅上。

再比如，在比萨斜塔前拍照。

亦或是，出演经典的电影桥段。

当然这里的主体不仅仅是人，还可以是物体。上传宫殿和手机，魔幻穿越大片这不就来了么。甚至，还把全是马赛克的背景，升级成了电影质感。

人物+道具+场景：以任何形象出现在任何场景

再来个更复杂的——穿着花棉袄的马斯克骑着电动车从游乐场经过。

在这个任务中，有三个主体（角色+道具），Vidu依然处理得天衣无缝。

或者，让小李子穿着粉色的裙子在沙发上跷二郎腿。

再比如，异星男孩、生日蛋糕，外加灵境般的背景，三张图片各不相同，但Vidu依旧可以让其完美地融为一体。

相比之下，国外爆火的Runway却无法理解场景图片，仅将最后两张图片合二为一。

Luma AI就更差些了，将图片罗列出来，像播放幻灯片一样。

总结来说，一致性能够更好融入场景。

双角色主体：次元壁破了！

有了这个超能力，我们就能让雷总和马斯克在一个办公室谈合作了。

你喜欢的IP，也可以联动了。

比如，百变小樱和雷姆一起对着镜头微笑。

有趣的是，Vidu还能融合不同主体特征，将角色A的正面和角色B的反面无缝融合，创造出全新的角色或物体——

球王梅西转过头来，竟然是马斯克。

当然，在创作之余，如今我们还可以借助Vidu的这些新能力恶搞表情包。

比如，从背影看是一位妙龄的少女，没想到转头竟然……还是小李子！

百日进化，Vidu技术解析

如此惊艳的能力背后，其实Vidu也不过刚刚上线逾百日。

早在上线之初，Vidu便具备了「角色一致性」的生成能力，可以通过锁定人物面部特征解决了视频生成中的关键痛点，确保人物面部特征的一致性。

9月，Vidu又于全球率先发布了「主体一致性」功能，将面部一致拓展至全身一致，并且将范围由人物形象扩展到动物、物体、虚拟角色等任意主体。

原图

角色一致性：仅面部保持一致

主体一致性：全身形象保持一致

要知道，除了Vidu，目前其他视频生成模型都无法有效控制面部一致性。

如果一定要实现，还得采用LoRA方案，通过大量相似数据的输入，来进行成本昂贵的单点微调。

但Vidu已经实现了对单主体的精准控制，甚至多主体的一致性生成。

此前生数一直坚信，随着基础模型的投入和迭代，整体泛化能力将得到大幅增强，可以展现出上下文学习能力，无需再依赖复杂的单点微调。

Vidu 新版本的发布，正式证明了这点！从1.0到1.5版本，生数科技已实现世界领先水平的突破。

这次跃阶背后，究竟有哪些技术革新？

无微调大一统架构

以前的视频模型如果想实现一致性生成能力，都不得不对每个场景设计相应的模型进行微调。

它们并不能像语言模型一样，通过上下文学习，基于少量的示例或提示，快速适应新任务。

生数科技却探索出了一条完全与众不同的路。

秉承通用性的理念，Vidu有和LLM一致的设计哲学：

统一问题形式：LLM将所有问题统一为（文本输入，文本输出），Vidu则将所有问题统一为（视觉输入，视觉输出）；
统一架构：LLM和Vidu均用单个网络统一建模变长的输入和输出；
压缩即智能：LLM从文本数据的压缩中获取智能，Vidu从视频数据的压缩中获取智能。

设计哲学一致外，在架构复杂性、数据多样性、生成效率等方面，多模态大模型门槛更高，在此挑战下，Vidu在世界范围内率先推动多模态大模型产生智能涌现，如OpenAI引领LLM的进步和创新。

LLM和Vidu技术架构方案对比

三张图，终结LoRA炼丹

更值得关注的是，三张图高一致性的突破，是Vidu背后基础模型能力的全面提升。

无需专门数据采集、标注、微调训练环节，一键直出高一致性视频。

要知道，LoRA（Low-Rank Adaptation）微调方案一直以来是业界解决一致性问题最主流的方案。

它需要在预训练模型基础上，用特定主体多段视频进行微调，让模型理解主体特征，进而生成其在不同角度、光线、场景下的形象。

同时，还要保证在若干次不同生成时的一致性。

简单理解，比如我创作了一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，所以需要拿卡通狗的多段视频，让模型进一步训练，让模型认识这只卡通狗长什么样，从而能够生成。

但问题是，LoRA前提是需要20～100段视频才能实现。

由于数据构造繁琐，且需要数个小时，甚至更久的训练时间，而且成本还是单次视频生成的成百上千倍。

另外，LoRA微调模型另一弊端是容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。

这导致在动态表情、肢体动作生成控制方面，LoRA难以精准把握，容易呈现出僵硬、不自然的效果。

特别是，在处理复杂或幅度较大的动作变化时，微调模型在细节捕捉上的局限性更为明显，最终导致主体特征不够精准。

因此，LoRA方案只能满足简单场景下主体一致性需求。

但对于高复杂主体、场景时，往往需要更大规模微调数据，以及更复杂的微调策略。

而Vidu凭借强大通用模型能力，仅用三张图，实现高可控稳定输出。

这一过程，直接直接省去「炼丹」环节，堪称「LoRA终结器」！

视觉模型，正式进入「上下文时代」

怎样才能实现多主体一致性的生成任务？

首先模型要做到的，就是能同时理解「多图的灵活输入」。并且，不仅在数量上是多图输入，图片还要不限于特定特征。

这就和语言模型的「上下文学习」能力显著相似。

为什么语言模型能理解上下文？关键就在于，它不仅会处理单一的文本输入信息，还能通过关联前后的文本、识别语句间的关系，让生成的回答连贯、符合情境。

同样，在视频生成或多图生成任务中，模型也需要能理解多个输入图像的准确含义，及它们之间的关联性，然后还要根据这些信息，生成一致、连贯且有逻辑的输出。

通过不断扩展上下文长度，Vidu从1.0迭代到1.5后，就已经出现了明显的智能涌现效应，通过视觉上下文，就能直接生成大量新任务下的视频了！

视觉智能涌现，加速AGI到来

语言模型的发展，已然呈现了一条通往AGI的可行路径。

然而，依赖单一的文本输入仍无法实现全面逼近人类的高度智能。

要实现更加通用和全面的智能，必须对更多模态进行良好的理解和生成建模，尤其是视觉模态，它为AI提供更加直观、丰富的世界理解方式，是通往AGI的关键一环。

的确，和语言模型在深层次智能上的突破相比，视觉模型目前尚存在较大差距。

但Vidu 1.5版本展现出智能涌现，意味着视觉模型不仅能理解、能想象，还能在生成过程中进行记忆管理。

曾经大语言模型独有的优势，竟在视觉模型中体现出来了。

至此，Vidu已不再仅仅是高质量、高效的视频生成器，在生成过程中融入上下文和记忆，无疑意味着视觉模态智能的大跨越。

具备更强认知的视觉模型，将成为AGI的一块重要拼图。

参考资料：

https://www.vidu.studio

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652540271&idx=1&sn=6ddfeea64c9018383ce459acbcbb5d7c

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉