金鸡·学术论坛·年度演讲 | 朱军：多模态大模型重塑视频创作

体娱 2024-11-28 11:24 北京

2024年中国金鸡百花电影节金鸡电影论坛·学术论坛圆满落幕。本次论坛以“电影：人工智能与人本智能”为主题，旨在探讨AI和人本智能之间的复杂关系及其对电影的深刻影响，思考、展望保有人本主义精神的AI电影时代。“金鸡年度演讲”是今年新设的学术论坛单元，邀请电影学界、业界外的名家，对论坛主题进行跨界思辨，以新颖形式深化电影思考，拓宽电影思想边界。

朱军‍

清华大学人工智能研究院副院长

生数科技创始人兼首席科学家

大家好，感谢主持人的介绍，感谢大会主办方的邀请，我个人非常荣幸能参与金鸡学术论坛的年度演讲环节。人工智能快速发展让我们看到了很多的可能性，其中极为重要的一点就是人工智能与影视等内容创作领域的深度融合，这也是我今天想和大家分享的主题。

我这次演讲的第一部分是概述现代人工智能，特别是大模型技术的发展状态。

从模拟人类感知和表达世界的方式来看，多模态大模型技术的发展是必然趋势。通过融合多模态信息，将显著提升表达和交互的效率，从而实现更通用更复杂任务的处理能力。这不仅能够赋能数字内容的个性化生产，还能与物理世界结合，比如赋能自动驾驶的智能决策等。

近年来发展最为迅速的视频模态领域，从早期的原理探索，到底层架构的突破，再到成熟模型的发布，这一领域的发展路径清晰可见。2022年下半年以来，新的架构支撑起大规模的训练，随后Sora模型的发布在全球范围内引起了广泛关注。国内在这一领域的进展也同样迅速，在Sora模型发布短短两个月后，国内大模型团队生数科技就联合清华大学推出了性能对标的“Vidu”模型，这标志着国内视频模型领域的一个重要里程碑，同时也为多模态技术的发展开辟了新篇章。随着不断演化和提升，Vidu模型在效果层面不断迭代优化，同时在影视、动画等多领域率先探索融合赋能的可能性。

接下来，我要谈的第二部分是多模态大模型破局视频创作困境。

随着内容生态的日益成熟，视频内容创作领域正面临着多重挑战，包括内容的丰富性、创作效率以及用户对高质量内容日益增长的需求。多模态大模型的兴起则为这些困境提供了解决方案。

比如以Vidu为例，用户可以仅通过上传图片或输入文字描述来生成复杂的视频内容，这大大降低了视频创作的技术门槛，使得普通用户也能轻松创作视频，从而激发内容的多样性。对于专业用户而言，Vidu模型也极大提高了视频创作的效率。Vidu近期推出的多图一致性功能，允许用户仅使用几张设定图就能高效生成视频，这极大提升了视频创作的灵活性，全面释放了内容创作生产力。重要的是，这一全新能力完全是在基座模型上自然涌现，而不是通过传统的精细化微调来实现的。

随着多模态技术的不断迭代，内容制作的成本效益和质量都将得到全面提升。这不仅在创意内容创作领域展现出巨大潜力，也推动了人工智能技术从单纯的娱乐工具向生产力工具的转变。

最后，演讲的第三部分，是探讨现在的视频大模型能做到什么地步，未来前景是什么。

自Sora模型问世以来，全球多模态大模型领域的发展显著提速，国内更是走在世界前列。如今，国内多模态大模型也正逐步走向产业落地，赋能影视、动画等领域，成为制作团队的重要技术工具。

在今年的国庆档期间，国内艺术家团队利用Vidu为《毒液·最后一舞》打造了一支独特的水墨风格宣传片。通过采用Vidu替代了90%的后期工作，整体制作效率较传统流程提高了三倍多。这一案例展示了多模态大模型在影视创作领域的应用潜力。

技术与创作的融合还需一个循序渐进的过程。从影响范围看，多模态大模型的短期影响力最先体现在短视频领域，继而扩展到短剧、中剧，最终覆盖长篇电影，从小屏幕逐步走向大屏幕。从制作环节看，目前主要替代后期特效制作，随着技术的不断进化，其应用将逐步渗透至中期拍摄环节，最终实现对整个制作流程的全面赋能。从该目标出发，音视频内容的协同创作及更多模态的深度融合也将成为多模态大模型发展的重要趋势。

除了赋能专业内容生产，随着模型推理性能的提升，未来多模态大模型还有望实现实时内容创作与交互。这将推动互动剧和互动电影的发展，使用户能够与剧情互动，自定义内容剧情，打造个性化的剧集，从而开启全新的内容消费模式。

此外，多模态大模型的应用也不局限于传统的内容创作领域，还可以融入家居服务机器人和自动驾驶车辆等智能设备中，通过与环境交互生成数字内容，实现有机互动，为用户提供沉浸式体验。这些趋势充分展现了多模态大模型将能够同时在数字空间和物理空间为人类带来广阔的想象力和创造力。

电影艺术杂志

《电影艺术》始终走在中国电影艺术发展的最前沿，关注国内外电影研究领域的新动态，为CSSCI来源期刊。主要栏目：特别策划、访谈录、电影批评、影艺观察、理论研究、视与听、影史影人、产业研究。

最新文章