2025年才刚开始，AI视频生成技术又要迎来重大突破了？

文摘 2025-01-10 18:24 贵州

点击蓝字关注我吧！

2025年才刚开始，AI视频生成技术又要迎来重大突破了？

阿里旗下通义万相视频生成模型2.1版重磅升级

性能全面提升，为AI艺术创作打开新大门

今天上午，阿里旗下的通义万相视频生成模型宣布了2.1版的重磅升级。新发布的模型有两个版本，分别是通义万相2.1极速版和专业版，前者注重高效性能，后者瞄准卓越表现力。据介绍，通义万相此次全面升级了模型整体性能，尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展，为AI的艺术创作打开了新的大门。

权威榜单成绩亮眼，超越国内外众多模型

模型强不强，再来跑个分。目前，在权威视频生成评测榜单VBench Leaderboard上，升级后的通义万相以总分84.7%的成绩登上榜首位置，超越了Gen3、Pika、CausVid等国内外视频生成模型。看起来，视频生成的竞争格局又迎来了一波新变化。

实测表现力提升，特效字体玩转自如

最近一段时间，视频生成大模型的迭代速度很快，新版本的通义万相有没有实现代差级别的提升？我们进行了一番实际测试。AI视频会写字了，首先，AI生成的视频终于能告别“鬼画符”了。此前，市面上主流AI视频生成模型一直无法准确地生成中英文，只要是该有文字的地方，就是一堆难以辨认的乱码。如今这一行业难题被通义万相2.1破解了。它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。现在，用户只需输入简短的文字描述，即可生成具有电影级效果的文字和动画。

复杂运动流畅自然，物理规律理解显著提升

复杂的人物运动一度是AI视频生成模型的“噩梦”。而通义万相通过先进的算法优化和数据训练，能够在多种场景下实现稳定的复杂运动生成，特别是在大幅度肢体运动和精确的肢体旋转方面，表现十分出色。

运镜媲美电影大师，长文本指令遵循进步大

大导演斯皮尔伯格曾说过：一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头，摄影师们恨不得上天入地、飞檐走壁。不过在这个AI时代，“拍”电影就容易了许多。我们只需输入一句简单的文本指令，比如镜头左移、镜头拉远、镜头推进等，通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。要想AI生成的视频效果达到惊艳水准，必然离不开精准的文本提示。然而，有时大模型“记性”有限，面对包含各种场景切换、角色互动和复杂动作的文本指令，它就容易丢三落四，不是遗漏细节，就是搞不清逻辑顺序。上新后的通义万相在长文本指令遵循方面就有了较大的进步。

擅长多种艺术风格，适配不同终端设备

新版通义万相还能生成电影质感的视频画面，同时对各类艺术风格也有很好的支持。此外，它还支持不同长宽比，能够更好适配电视、电脑、手机等不同终端设备。

基础模型大幅优化，全方位“变身”

去年9月19日，阿里云在云栖大会上发布了通义万相视频生成大模型，带来了影视级高清视频的生成能力。作为阿里云全自研的视觉生成大模型，它采用了Diffusion+Transformer的架构，支持图像和视频生成类任务，在模型框架、训练数据、标注方式和产品设计上均有诸多创新，提供了业界领先的视觉生成能力。此次升级后的模型中，通义万相团队进一步自研了高效的VAE和DiT架构，针对时空上下文关系的建模进行了增强，显著优化了生成效果。

视频生成的GPT-3时刻还有多久？

自去年2月，OpenAI的Sora问世以来，视频生成模型成为了科技界竞争最为激烈的领域。国内到海外，创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成，AI视频想要做到人们可以接受的程度，难度高了不止一个等级。如果像OpenAI CEO山姆·奥特曼说的那样，Sora代表了视频生成大模型的GPT-1时刻。那么我们在此基础上实现文本指令对AI的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力，再加上快速变换风格场景这样AI独有的功能，或许就可以很快迎来新的“GPT-3时刻”。

传送门：https://tongyi.aliyun.com/

AI推荐神器：

白日梦AI更新，写实风3.0，可以把作品导入剪映草稿！

未来AI工具

推荐最新最前沿最好用的AI工具~写新AixNew

最新文章

免费又强大的在线TTS神器！海螺AI国内版了解一下

解锁创意新境界：可灵AI「多图参考」功能让视频创作游刃有余！

字节跳动推出的AI编程工具——Trae，开发者必备神器

Luma推出Ray2：只需5秒，脑洞变视频！

AI短剧赛道，普通人的创富新机遇！