视觉模型学会LLM独门秘籍「上下文记忆」,迎来智能涌现的大爆发!

科技   2024-11-15 09:32   北京  
机器之心原创
机器之心编辑部

「在吗?我这儿有三张图,你能攒一个视频出来吗?」最近,在 X 平台上,国产视频模型 Vidu 玩起了在线接单。



你猜怎么着?拿到这三张图之后,这个模型还真能攒一个毫无违和感的视频,人、物、背景的交互非常自然,人物的面部特征、动态表情也没有因为大幅度的动作而变形。


这项成果来自国产视频模型 Vidu,由清华系大模型公司生数科技自主研发,这也是全球最早对标 Sora 发布的视频模型。

自 7 月正式上线以来,Vidu 持续进化,如今已经升级到了 1.5 版本。

Vidu 这次升级在功能层面最大的特点在于「多主体一致性」的突破,能把多张参考图中的多个主体自然地融合到一个视频中

有了这项能力,马斯克穿大花袄给「电动车」代言都不用亲自飞过来;


提示词:男人穿着花袄在游乐园骑电动车。

让小李子穿高定走个秀,也是分分钟成真;


提示词:男人穿着红色的裙子在走秀

直观看,Vidu1.5 的推出大大提升了视频模型的可玩性。

但好玩只是表象,背后还藏着三大惊喜:

一是视频模型能控制多主体了!

二是视频模型拥有记忆了,能对「上下文特征」进行关联了!

三是视频模型告别 LoRA,通用架构就可以支持泛化任务了!视频模型迎来智能涌现!

攻克视频模型的「杀手级」难题

在视频生成中,保持「单主体一致性」就已经是一大难题,更别提说对「多主体」的控制。

比如同时上传男孩、生日蛋糕、水晶背景,生成一段「男孩手里拿着蛋糕在水晶场景里」的画面。

这里涉及三个主体特征,当前的视频模型无法理解这么多的特征,输出结果「大翻车」。

比如海外爆火的 Runway,虽然一定程度上也在融合,但是主体关系明显错误。


同样热度很高的 Luma AI,直接来了一段 PPT 播放。


而 Vidu 能同时理解三个主体特征,将三者完美融合,同时严格遵循指令要求,手拿蛋糕、身处水晶里 —— 物理空间关系完美契合。


这段画面,是在 Vidu 中通过上传人物角色图、道具图、环境图,一键生成。

但这还只是其中一种打开方式,Vidu 还可以直接融合不同主体特征,比如将角色 A 的正面和角色 B 的反面无缝融合。

小试一下,马斯克直接换上 10 号球衣替梅西上场踢球;


提示词:男人背对着镜头,慢慢转过头冲着镜头笑

另外也可以上传多个自定义角色,让它们在指定空间内进行交互

喜欢的二次元角色,画风差了十几年,也可以同框一起逛街:  


提示词:两个女孩在一起逛商场。

甚至可以直接上传人物图 + 道具图,让指定人物用指定道具做出指定的动作;


提示词:一个女孩正在骑摩托车在城市街头。

视频模型也能读懂「上下文」了

要实现诸如以上的效果,模型需要做到几点:

  • 理解多主体的特征,简单说,有哪几样主体,都长什么样,模型能理解和记住;

  • 理解描述指令的含义,知道要输出一个什么画面;

  • 对不同主体、不同特征进行关联,比如「小男孩拿着蛋糕」这一画面,模型在记住男孩和蛋糕的特征之后,还需理解空间方位是怎样,将两个主体合理关联到一起。


这个过程是不是有点眼熟?对,这个实现路径在大语言模型 LLM 中同样出现过,就是「上下文学习」(In-context Learning)。

我们知道,在过去几年语言模型的突飞猛进中,「上下文学习」功不可没。LLM 的成功,就在于模型不仅仅是处理单一的文本输入信息,而是能够关联前后的文本、识别语句之间的关系,从而生成连贯且符合情境的回答或内容。

简单说,就是支持的输入更灵活(多段、甚至超长文本的输入),还能做记忆管理(理解含义),上下文关联(理解上下文),最后再输出。

如今 Vidu1.5 也是这样的路径。不再是仅接受单一输入,从单图输入拓展到多图的灵活输入,而且不局限于特定特征,同时能在多输入间建立关联、理解复杂的描述,并输出符合逻辑的内容。

这套独属于 LLM 的独门秘籍,视频模型现在也学会了。

终结 LoRA,通用架构的再一次成功

Vidu 为什么能实现「上下文记忆」能力,或许答案就藏在技术架构上。

生数科技官方放出了背后的技术架构,无独有偶,是和 LLM 相似的「设计哲学」。

具体来说,可以分为三个维度:统一问题形式、统一架构、压缩即智能

  • 统一问题形式:LLM 将所有问题,不管是对话、翻译,还是代码,都统一为(文本输入,文本输出),Vidu 则是将所有问题统一为(视觉输入,视觉输出);

  • 统一架构:均用单个网络统一建模变长的输入和输出;

  • 压缩即智能:LLM 从文本数据的压缩中获取智能,Vidu 从视频数据的压缩中获取智能,都是从海量预训练数据中压缩提取丰富的知识。


LLM 与 Vidu 技术架构方案对比

这样的设计思路,概括来说就是,用一个通用化的模型来处理所有任务,避免复杂多样的专用任务模块

要知道,过往的视频模型如果想实现上述换装、人脸融合等不同任务,需要针对每一个场景进行微调。

就是所谓 LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定场景、特定主体的多段视频进行微调,让模型理解该场景下的主体特征。

简单理解,比如要实现人脸融合的任务,将我的脸融合到别的人物角色上,但模型在预训练过程中并没有学习过我长什么样,所以首先需要基于多段我的视频,让模型进一步训练,让模型认识我长什么样,从而能够生成。

但这里的问题是,通常 LoRA 需要 20~100 段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本为单次视频生成的成百上千倍。

另外 LoRA 微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态表情或肢体动作变化,很难有效控制, 生成的视频容易产生僵硬或不自然的效果,以及在复杂动作或大幅度变换时,微调模型无法很好地捕捉细节,导致主体特征不够精准。

所以 LoRA 主要适用于大多数简单的任务场景,但对于高复杂的问题场景,需要更多的微调数据和更复杂的模型微调策略。

但就像 LLM 用一个通用模型统一了所有文本类场景,Vidu 也是基于通用的模型来统一视觉类任务。

视觉智能涌现,AGI 要加速到来了?

Vidu1.5 的推出让我们仿佛看到了大语言模型「来时路」的样子。

架构层面,从「预训练 + 微调」的范式,进化到无需微调就能覆盖广泛的下游任务。表现层面,通过不断扩展上下文,实现更多更复杂任务的直接生成。这无疑让我们联想到 ChatGPT 的智能涌现时刻。

如 OpenAI 引领 LLM 的进步和创新,Vidu1.5 的推出则在世界范围内率先推动了多模态大模型产生智能涌现。

当然多模态模型与语言模型仍然存在显著差异,在架构复杂性、数据多样性、生成效率等方面,多模态模型需要处理的问题更复杂、门槛更高。

这也意味着,多模态大模型领域的「智能涌现」更难能可贵。

面向 AGI 的终局看,从 ChatGPT 引爆世界开始,领域内至今已形成共识,大语言模型的训练和推理阶段均存在 Scaling Law,这揭示了通往 AGI 的可行路径。

但最近,学界和业界对于未来 LLM 迭代方向的讨论不少,其中不乏「Scaling Law (扩展法则)到头了」这种悲观的声音,AGI 发展受阻。

但 Vidu1.5 的诞生或许能打消一部分人的疑虑。

具体来看,关于大语言模型「Scaling Law 到头了」的判断,主要源于可用于训练的高质量文本数据已经趋于枯竭。新的文本数据变得难以获得,Scaling Law 在文本领域面临瓶颈。

相比之下,视觉数据的获取则更为容易。随手一拍或摄录便能得到全新的影像素材,丰富的视觉数据为 Scaling Law 提供了源源不断的「燃料」。


再到现如今,Vidu1.5 的推出,又证明了视觉模型在架构上的突破。「数据」和「架构」两大难题,均得到良好解决。这表明在视觉模型中,Scaling Law 将焕发新的活力。

从单输入主体的文 / 图生视频,到多输入参考信息,如今,大语言模型的独特优势已经在视觉模型中尽数体现。一个清晰可见的趋势是,未来将能以更长、更丰富的上下文作为输入,进一步提升视觉模型的表现。

所以,对于视觉生成这件事来说,技术的奇点刚刚出现!

另外,目前业界共识,仅依赖单一的文本输入始终是无法实现全面逼近人类的高度智能。要实现更加通用和全面的智能,必须对更多模态进行良好的理解和生成建模,尤其是视觉模态,因为它是更直观、更丰富的世界理解方式。

所以 Vidu1.5 的突破,或许打通了前往 AGI 的关键一环。虽然 LLM 的增长在放缓,但视觉模型领域正迎来大爆发,这或许将从另一个维度加速 AGI 的到来!

如今,Vidu 1.5 版本已正式上线,感兴趣的同学可上手试用!

体验地址:www.vidu.studio

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

机器之心
专业的人工智能媒体和产业服务平台
 最新文章