在AI视频生成领域,今年以来多家人工智能公司陆续发布了研发的大模型以及在大模型基础上推出产品,但在精度、遵守指令的能力以及效率等方面仍然还有精进的空间。
基于AI生成内容的强随机性,许多玩家将获得满意结果的过程称之为“抽卡”,而减少用户抽卡的次数则是大模型公司研究的重点方向。
近日,阿里巴巴团队开源了一款AI视频生成框架-Tora,是AI视频内容创作领域的新突破,给提升文生视频的准确度展示了一个新方向。
Tora将轨迹导向的DiT用于视频生成的应用,通过这项技术,Tora能够很好地将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。
在使用Tora时,用户可通过输入描述性的文本并设置生成视频中物体运动轨迹等简单操作共同控制最终视频的效果,从而实现快速制作满意的视频,降低“抽卡”次数。
在原理上,Tora基于OpenSora模型,包含一个轨迹提取器 (TE,Trajectory Extractor)、时空DiT(Spatial-Temporal DiT)和一个运动引导融合器 (MGF,Motion-guidance Fuser) 。TE使用3D视频压缩网络将任意轨迹编码为分层时空运动patch,MGF将运动patch集成到DiT块中,以生成遵循轨迹的一致视频。
Tora框架支持生成最长可达204帧、720P分辨率的视频,这一特性赋予用户在视频时长、宽高比及分辨率上的高度灵活性,也确保视频内容的精细控制与高质量输出。
两个人在晴朗的天空下沿着高速公路平稳地骑车
通过大量实验验证,Tora在FVD、CLIPSIM和TrajError等多个标准评测指标上表现出色,其在视频生成质量和运动控制方面性能卓越。
目前,Tora主页主要提供视频效果演示,用户可通过访问相关链接来了解和体验Tora的功能,但直接的下载或试用入口此次并未公布。
基于优秀的呈现效果,Tora的应用前景十分广阔,未来可能会在广告、电影、教育等多个领域发挥重要作用。
今年以来,AI视频生成获得了突破性进展。此前的视频生成技术受限于传统U-Net去噪模型,大多只能生成16帧长度、固定低分辨率的视频,不仅难以应对长距离轨迹,在不规则轨迹以及偏移过大时,还会出现运动模糊、外观失真和不自然的运动如漂移闪现等现象。
而Diffusion扩散模型就能够很好地解决这些问题,采用Diffusion Transformer(DiT)架构的模型诸如sora显示,其不仅能制作10到60秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。
随着国内外AI机构对文生视频、图生视频等多方面的开拓以及新模型的涌入,相信下半年这些领域还有更多的惊喜等待着我们。