2025年才刚开始,AI视频生成技术又要迎来重大突破了?

文摘   2025-01-10 18:24   贵州  

点击蓝字关注我吧!

2025年才刚开始,AI视频生成技术又要迎来重大突破了?

阿里旗下通义万相视频生成模型2.1版重磅升级

性能全面提升,为AI艺术创作打开新大门

今天上午,阿里旗下的通义万相视频生成模型宣布了2.1版的重磅升级。新发布的模型有两个版本,分别是通义万相2.1极速版和专业版,前者注重高效性能,后者瞄准卓越表现力。据介绍,通义万相此次全面升级了模型整体性能,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展,为AI的艺术创作打开了新的大门。

权威榜单成绩亮眼,超越国内外众多模型

模型强不强,再来跑个分。目前,在权威视频生成评测榜单VBench Leaderboard上,升级后的通义万相以总分84.7%的成绩登上榜首位置,超越了Gen3、Pika、CausVid等国内外视频生成模型。看起来,视频生成的竞争格局又迎来了一波新变化。

实测表现力提升,特效字体玩转自如

最近一段时间,视频生成大模型的迭代速度很快,新版本的通义万相有没有实现代差级别的提升?我们进行了一番实际测试。AI视频会写字了,首先,AI生成的视频终于能告别“鬼画符”了。此前,市面上主流AI视频生成模型一直无法准确地生成中英文,只要是该有文字的地方,就是一堆难以辨认的乱码。如今这一行业难题被通义万相2.1破解了。它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。现在,用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。


复杂运动流畅自然,物理规律理解显著提升

复杂的人物运动一度是AI视频生成模型的“噩梦”。而通义万相通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,特别是在大幅度肢体运动和精确的肢体旋转方面,表现十分出色。


运镜媲美电影大师,长文本指令遵循进步大

大导演斯皮尔伯格曾说过:一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头,摄影师们恨不得上天入地、飞檐走壁。不过在这个AI时代,“拍”电影就容易了许多。我们只需输入一句简单的文本指令,比如镜头左移、镜头拉远、镜头推进等,通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。要想AI生成的视频效果达到惊艳水准,必然离不开精准的文本提示。然而,有时大模型“记性”有限,面对包含各种场景切换、角色互动和复杂动作的文本指令,它就容易丢三落四,不是遗漏细节,就是搞不清逻辑顺序。上新后的通义万相在长文本指令遵循方面就有了较大的进步。

擅长多种艺术风格,适配不同终端设备

新版通义万相还能生成电影质感的视频画面,同时对各类艺术风格也有很好的支持。此外,它还支持不同长宽比,能够更好适配电视、电脑、手机等不同终端设备。

基础模型大幅优化,全方位“变身”

去年9月19日,阿里云在云栖大会上发布了通义万相视频生成大模型,带来了影视级高清视频的生成能力。作为阿里云全自研的视觉生成大模型,它采用了Diffusion+Transformer的架构,支持图像和视频生成类任务,在模型框架、训练数据、标注方式和产品设计上均有诸多创新,提供了业界领先的视觉生成能力。此次升级后的模型中,通义万相团队进一步自研了高效的VAE和DiT架构,针对时空上下文关系的建模进行了增强,显著优化了生成效果。

视频生成的GPT-3时刻还有多久?

自去年2月,OpenAI的Sora问世以来,视频生成模型成为了科技界竞争最为激烈的领域。国内到海外,创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成,AI视频想要做到人们可以接受的程度,难度高了不止一个等级。如果像OpenAI CEO山姆·奥特曼说的那样,Sora代表了视频生成大模型的GPT-1时刻。那么我们在此基础上实现文本指令对AI的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力,再加上快速变换风格场景这样AI独有的功能,或许就可以很快迎来新的“GPT-3时刻”。

传送门:https://tongyi.aliyun.com/

AI推荐神器:

白日梦AI更新,写实风3.0,可以把作品导入剪映草稿!


未来AI工具
推荐最新最前沿最好用的AI工具~写新AixNew
 最新文章