AI视频生成迎来重大突破：国产Vidu模型实现多主体完美融合，30秒生成电影级画面

文摘科技 2024-11-22 19:10 广东

| 当硅谷还在为Sora惊叹时，中国已经开启了AI视频生成的新纪元。

今年2月，OpenAI发布Sora，整个科技圈为之沸腾。随后，国产AI视频开启了“基建狂魔”模式。

可灵、即梦等一众AI视频应用纷纷走在了Sora的前面。

Vidu，更是其中的佼佼者。近日，Vidu 1.5正式上线，直接开创了视觉AI的"上下文时代"。

〔颠覆性突破：告别"畸形脸"和"断层感"〕

还记得早期AI生成的视频有多"惊悚"吗？人物转个身就变了一个人，场景切换像在放PPT，这些问题困扰了整个行业。

而现在，Vidu 1.5只用30秒，就能让你看到：

● 梅西转身变成宋小宝，挥手致意

‍

● 二次元少女与真人明星同框漫步

‍

● 甄嬛与马斯克行走在故宫当中

‍

这些看似天马行空的创意，在Vidu 1.5这里都成为了现实。更令人惊叹的是，所有画面都保持着高度的连贯性和真实感，仿佛是精心拍摄的电影片段。

这就是Vidu1.5的多主体一致性功能！用户上传至多3张图，来实现任意人物、任意物件和任意场景的一致性。

比如我现在上传这三张图，然后prompt是“一个穿着赛博朋克衣服的女人正在向你走来。”

（免费额度生成的质量略差，同时排队真的很久！！！）

〔技术解析：中国模式的创新突破〕

为什么Vidu能实现这样的突破？秘密在于其开创性的技术架构。

1. 大一统架构的突破

传统视频AI往往需要针对不同任务设计不同模型。而Vidu团队另辟蹊径，设计出了类似大语言模型的统一架构：

● 统一问题形式：LLM将所有问题统一为（文本输入，文本输出），Vidu则将所有问题统一为（视觉输入，视觉输出）

● 统一架构：LLM和Vidu均用单个网络统一建模变长的输入和输出

● 压缩即智能：LLM从文本数据的压缩中获取智能，Vidu从视频数据的压缩中获取智能

2. 上下文能力的突破

就像ChatGPT能记住整个对话过程一样，Vidu 1.5实现了视觉领域的"上下文理解"：

● 可同时理解多个主体特征

● 精准把控角色形象变化

● 维持场景转换的连贯性

● 确保动作表情的自然流畅

3. 效率提升的突破

传统方案（LoRA）需要：

● 收集20-100段视频素材

● 耗费数小时进行训练

● 投入大量计算资源

仍可能出现不稳定情况

而Vidu 1.5只需：

● 上传1-3张参考图片

● 等待30秒

在传统LoRA的训练逻辑中，即便训练成功、使用成功，依旧有可能会出现不稳定的情况，而Vidu1.5就能很好规避这类问题。这不仅是效率的提升，更是AI视频生成范式的革新。

回看Vidu的发展历程，就是一部中国AI速度的缩影：

2024年7月 - 首次实现人物面部特征的一致性控制，成为全球首个解决面部崩坏问题的模型；

2024年9月 - 突破全身一致性控制，将控制范围扩展至动物、物体等领域；

2024年11月 - 实现多主体一致性突破，开创视觉模型的上下文时代。

短短百余天，Vidu完成了从0到1的跨越。它不仅革新了AI领域，也革新了诸多应用场景。

〔应用革命：重新定义创意边界〕

1.影视制作

● 特效制作成本大幅降低

● 创意呈现更加自由

● 制作周期显著缩短

● 小成本制作也能实现大片效果

2.广告营销

● 产品展示更加灵活

● 场景切换更加自然

● 创意实现门槛降低

● 制作效率大幅提升

3.内容创作

● 二次元与现实完美融合

● 虚拟角色更加丰富

● 跨次元互动成为可能

● 创意表达更加自由

〔写在最后〕

Vidu 1.5的出现，不仅是AI技术的进步，也预示着AI发展的新方向。

1.技术融合

● 视觉模型与语言模型的结合

● 多模态理解能力的提升

● 跨领域创新的加速

2.能力进化

● 上下文理解更加深入

● 生成质量持续提升

● 创作自由度更高

从追赶到并跑，再到领跑，国产AI正在以惊人的速度和创新力，书写着属于自己的传奇。在AI这个没有终点的赛道上，“国产AI们”正在用一个个突破，定义着新的可能。

曾经，我们仰望硅谷的创新；现在，我们开创着属于中国的AI新路。

有人说，AI是这个时代最大的变量，但“中国速度”正在成为这个变量中最确定的答案。

当AI的想象力，遇见中国的创造力，我们不只是在跑一场比赛，更是在开创一个时代。

你都看到这了，不如，随个赞、点个在看呗~

感谢你一路到看这。

打败你的不是AI，而是比你更善于使用AI的人。

我整理了一份全网最全的【AIGC知识库】，其中包含了100+AI绘画课程，以及AI音乐、AI副业、ChatGPT实战等一系列AIGC教程供大家参考学习。

关注【ACG彼方】公众号，回复【知识库】即可获取“知识库”。

点这里👇关注我，记得标星哦～

ACG彼方

彼方学院（Animation Comics Games Academy 简称:ACG ）是一个拥有专业团队，面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业，提供多样化、定制化服务的综合平台。

OpenAI「圣诞狂欢」第三天 | Sora正式上线，它没有辜负期待，但也没超越期待

OpenAI「圣诞狂欢」第一天 | 满血版o1正式上线，有点东西但不多

10秒直出一张海报 | 即梦全新绘画大模型让设计师又双叒叕「失业」了

Sora遭遇严重泄露！艺术家愤怒"复仇"OpenAI，测试通道全网疯传3小时后紧急关闭

AI视频生成迎来重大突破：国产Vidu模型实现多主体完美融合，30秒生成电影级画面

秘塔AI上线“知识库”功能，AI搜索领域再掀波澜

打败Stability，赶超Midjourney，险胜FLUX，这个AI绘画产品叫Recaft

字节新产品「炉米Lumi」即将上线，剑指Liblib

智谱AI发布AutoGLM，解锁了人机交互更多的可能性

这个自定义网页的AI插件，让你体验到AI时代的“外挂”是什么

AI全自动短视频来了 | Suno Scenes让你一张图、一个视频秒转歌曲大作（附全网最详细教程）

从符合物理学到不讲物理，Pika 1.5全新特效功能「Pikaffects」引发全网病毒式传播

招生简章 | AI商业绘画系统班

被版权折磨的新媒体人，最终选择了AI

澳门研学精彩回顾丨2024“艺起探澳门”粤港澳大湾区文化交流之旅圆满结束！

播客AI化？NotebookLM，一期从无到有的播客音频只需要不到5分钟

GPT系列已被终结？OpenAI发布最强「o1」大模型，我们迈向了AI行业的新纪元

OpenAI的「草莓」大模型打响头炮 | Self play RL成LLM新范式，第二阶段的大模型爆发期即将来临

招生简章 | 虚幻引擎交互开发工程师班

无缝双语体验，这个国产最强AI翻译插件叫沉浸式翻译（附全网最细教程）

一个几分钟就能完成海报设计、网页设计的AI，它叫Ideogram（附教程）

每周AI资讯

告别熬夜，这个AI让你一键生成PPT，它就叫Kimi

腾讯元宝再度发力，上线长文精读，解救了我那蹩脚的英语阅读

每周AI资讯

彼方学院师生代表参加香港中文大学黄锦辉教授新书发布会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉