RTX 4090可运行,已完全开源,史上最快视频生成模型问世!

科技   2024-11-27 13:00   广东  

来源:机器之心

押注开源人工智能视频的初创公司 Lightricks,有了重大动作。

该公司推出了最快的视频生成模型 LTX-Video,它是首个可以实时生成高质量视频的 DiT 视频生成模型


在一块 Nvidia H100 上,LTX-Video 只需要 4 秒就能生成 5 秒时长的 24FPS 视频,分辨率 768x512,可以说视频生成速度比视频观看速度还要快。同时 LTX-Video 完全开源,包括代码库和模型权重。

LTX-Video共同作者和负责人。

「有史以来最快的文生视频模型诞生了。」


首先来看几个视频生成官方 Demo。




目前,用户可以在 GitHub Hugging Face 上体验预览版 LTX Video。完整版发布之后将免费供个人和商业使用,并即将集成到 LTX Studio 中。


项目地址:https://github.com/Lightricks/LTX-Video

我们尝试生成了两个视频,比如「a dog chasing a boy who is skateboarding」。


再比如「a girl with an umbrella standing on a bridge, and a handsome man walking towards her」。


试用地址:https://huggingface.co/spaces/akhaliq/anychat

接着来了解一下 LTX-Video 的细节。

LTX Video 是一个文本到视频和图像到视频模型,能够以惊人的速度和精度实时创建动态视频。该模型可以在 RTX 4090 等消费级 GPU 上本地运行,无需专用设备即可以低成本地生成高质量视频。

另外,LTX Video 基于开发人员的反馈和真实世界用例构建,可以提供自然逼真的结果。该模型做了高级定制化设计,可以流畅地集成各种外部工具,从而轻松地增强工作流。

在生成过程中,LTX Video 最大程度减少了闪烁和伪影,创建出具有出色细节和清晰度的高保真视频。每一帧都在精心制作下呈现清晰锐利、栩栩如生,符合用户的视觉效果。

最后,LTX Video 实现了无缝的跨帧一致性,从角色到环境,可以保持连贯的视觉效果,将每个细节整合在一起。

未来,LTX-Video 还会有技术报告放出。

推荐阅读




欢迎大家加入DLer-计算机视觉技术交流群!


大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。


进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

👆 长按识别,邀请您进群!


深度学习技术前沿
本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章,致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。
 最新文章