首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

科技 2024-11-15 09:32 北京

机器之心原创

机器之心编辑部

「在吗？我这儿有三张图，你能攒一个视频出来吗？」最近，在 X 平台上，国产视频模型 Vidu 玩起了在线接单。

你猜怎么着？拿到这三张图之后，这个模型还真能攒一个毫无违和感的视频，人、物、背景的交互非常自然，人物的面部特征、动态表情也没有因为大幅度的动作而变形。

这项成果来自国产视频模型 Vidu，由清华系大模型公司生数科技自主研发，这也是全球最早对标 Sora 发布的视频模型。

自 7 月正式上线以来，Vidu 持续进化，如今已经升级到了 1.5 版本。

Vidu 这次升级在功能层面最大的特点在于「多主体一致性」的突破，能把多张参考图中的多个主体自然地融合到一个视频中。

有了这项能力，马斯克穿大花袄给「电动车」代言都不用亲自飞过来；

提示词：男人穿着花袄在游乐园骑电动车。

让小李子穿高定走个秀，也是分分钟成真；

提示词：男人穿着红色的裙子在走秀

直观看，Vidu1.5 的推出大大提升了视频模型的可玩性。

但好玩只是表象，背后还藏着三大惊喜：

一是视频模型能控制多主体了！

二是视频模型拥有记忆了，能对「上下文特征」进行关联了！

三是视频模型告别 LoRA，通用架构就可以支持泛化任务了！视频模型迎来智能涌现！

攻克视频模型的「杀手级」难题

在视频生成中，保持「单主体一致性」就已经是一大难题，更别提说对「多主体」的控制。

比如同时上传男孩、生日蛋糕、水晶背景，生成一段「男孩手里拿着蛋糕在水晶场景里」的画面。

这里涉及三个主体特征，当前的视频模型无法理解这么多的特征，输出结果「大翻车」。

比如海外爆火的 Runway，虽然一定程度上也在融合，但是主体关系明显错误。

同样热度很高的 Luma AI，直接来了一段 PPT 播放。

而 Vidu 能同时理解三个主体特征，将三者完美融合，同时严格遵循指令要求，手拿蛋糕、身处水晶里 —— 物理空间关系完美契合。

这段画面，是在 Vidu 中通过上传人物角色图、道具图、环境图，一键生成。

但这还只是其中一种打开方式，Vidu 还可以直接融合不同主体特征，比如将角色 A 的正面和角色 B 的反面无缝融合。

小试一下，马斯克直接换上 10 号球衣替梅西上场踢球；

‍提示词：男人背对着镜头，慢慢转过头冲着镜头笑

另外也可以上传多个自定义角色，让它们在指定空间内进行交互。

喜欢的二次元角色，画风差了十几年，也可以同框一起逛街：

提示词：两个女孩在一起逛商场。

甚至可以直接上传人物图 + 道具图，让指定人物用指定道具做出指定的动作；

提示词：一个女孩正在骑摩托车在城市街头。

视频模型也能读懂「上下文」了

要实现诸如以上的效果，模型需要做到几点：

理解多主体的特征，简单说，有哪几样主体，都长什么样，模型能理解和记住；
理解描述指令的含义，知道要输出一个什么画面；
对不同主体、不同特征进行关联，比如「小男孩拿着蛋糕」这一画面，模型在记住男孩和蛋糕的特征之后，还需理解空间方位是怎样，将两个主体合理关联到一起。

这个过程是不是有点眼熟？对，这个实现路径在大语言模型 LLM 中同样出现过，就是「上下文学习」（In-context Learning）。

我们知道，在过去几年语言模型的突飞猛进中，「上下文学习」功不可没。LLM 的成功，就在于模型不仅仅是处理单一的文本输入信息，而是能够关联前后的文本、识别语句之间的关系，从而生成连贯且符合情境的回答或内容。

简单说，就是支持的输入更灵活（多段、甚至超长文本的输入），还能做记忆管理（理解含义），上下文关联（理解上下文），最后再输出。

如今 Vidu1.5 也是这样的路径。不再是仅接受单一输入，从单图输入拓展到多图的灵活输入，而且不局限于特定特征，同时能在多输入间建立关联、理解复杂的描述，并输出符合逻辑的内容。

这套独属于 LLM 的独门秘籍，视频模型现在也学会了。

终结 LoRA，通用架构的再一次成功

Vidu 为什么能实现「上下文记忆」能力，或许答案就藏在技术架构上。

生数科技官方放出了背后的技术架构，无独有偶，是和 LLM 相似的「设计哲学」。

具体来说，可以分为三个维度：统一问题形式、统一架构、压缩即智能。

统一问题形式：LLM 将所有问题，不管是对话、翻译，还是代码，都统一为（文本输入，文本输出），Vidu 则是将所有问题统一为（视觉输入，视觉输出）；
统一架构：均用单个网络统一建模变长的输入和输出；
压缩即智能：LLM 从文本数据的压缩中获取智能，Vidu 从视频数据的压缩中获取智能，都是从海量预训练数据中压缩提取丰富的知识。

LLM 与 Vidu 技术架构方案对比

这样的设计思路，概括来说就是，用一个通用化的模型来处理所有任务，避免复杂多样的专用任务模块。

要知道，过往的视频模型如果想实现上述换装、人脸融合等不同任务，需要针对每一个场景进行微调。

就是所谓 LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定场景、特定主体的多段视频进行微调，让模型理解该场景下的主体特征。

简单理解，比如要实现人脸融合的任务，将我的脸融合到别的人物角色上，但模型在预训练过程中并没有学习过我长什么样，所以首先需要基于多段我的视频，让模型进一步训练，让模型认识我长什么样，从而能够生成。

但这里的问题是，通常 LoRA 需要 20～100 段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本为单次视频生成的成百上千倍。

另外 LoRA 微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态表情或肢体动作变化，很难有效控制，生成的视频容易产生僵硬或不自然的效果，以及在复杂动作或大幅度变换时，微调模型无法很好地捕捉细节，导致主体特征不够精准。

所以 LoRA 主要适用于大多数简单的任务场景，但对于高复杂的问题场景，需要更多的微调数据和更复杂的模型微调策略。

但就像 LLM 用一个通用模型统一了所有文本类场景，Vidu 也是基于通用的模型来统一视觉类任务。

视觉智能涌现，AGI 要加速到来了？

Vidu1.5 的推出让我们仿佛看到了大语言模型「来时路」的样子。

架构层面，从「预训练 + 微调」的范式，进化到无需微调就能覆盖广泛的下游任务。表现层面，通过不断扩展上下文，实现更多更复杂任务的直接生成。这无疑让我们联想到 ChatGPT 的智能涌现时刻。

如 OpenAI 引领 LLM 的进步和创新，Vidu1.5 的推出则在世界范围内率先推动了多模态大模型产生智能涌现。

当然多模态模型与语言模型仍然存在显著差异，在架构复杂性、数据多样性、生成效率等方面，多模态模型需要处理的问题更复杂、门槛更高。

这也意味着，多模态大模型领域的「智能涌现」更难能可贵。

面向 AGI 的终局看，从 ChatGPT 引爆世界开始，领域内至今已形成共识，大语言模型的训练和推理阶段均存在 Scaling Law，这揭示了通往 AGI 的可行路径。

但最近，学界和业界对于未来 LLM 迭代方向的讨论不少，其中不乏「Scaling Law （扩展法则）到头了」这种悲观的声音，AGI 发展受阻。

但 Vidu1.5 的诞生或许能打消一部分人的疑虑。

具体来看，关于大语言模型「Scaling Law 到头了」的判断，主要源于可用于训练的高质量文本数据已经趋于枯竭。新的文本数据变得难以获得，Scaling Law 在文本领域面临瓶颈。

相比之下，视觉数据的获取则更为容易。随手一拍或摄录便能得到全新的影像素材，丰富的视觉数据为 Scaling Law 提供了源源不断的「燃料」。

再到现如今，Vidu1.5 的推出，又证明了视觉模型在架构上的突破。「数据」和「架构」两大难题，均得到良好解决。这表明在视觉模型中，Scaling Law 将焕发新的活力。

从单输入主体的文 / 图生视频，到多输入参考信息，如今，大语言模型的独特优势已经在视觉模型中尽数体现。一个清晰可见的趋势是，未来将能以更长、更丰富的上下文作为输入，进一步提升视觉模型的表现。

所以，对于视觉生成这件事来说，技术的奇点刚刚出现！

另外，目前业界共识，仅依赖单一的文本输入始终是无法实现全面逼近人类的高度智能。要实现更加通用和全面的智能，必须对更多模态进行良好的理解和生成建模，尤其是视觉模态，因为它是更直观、更丰富的世界理解方式。

所以 Vidu1.5 的突破，或许打通了前往 AGI 的关键一环。虽然 LLM 的增长在放缓，但视觉模型领域正迎来大爆发，这或许将从另一个维度加速 AGI 的到来！

如今，Vidu 1.5 版本已正式上线，感兴趣的同学可上手试用！

体验地址：www.vidu.studio

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943077&idx=1&sn=6feff84f9af3237673d936953f2bbcba

专业的人工智能媒体和产业服务平台

最新文章

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉