Vidu 是由生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性的视频大模型。该模型基于原创的U-ViT架构,融合了Diffusion与Transformer技术,能够一键生成长达16秒、分辨率高达1080P的高清视频。
Vidu在技术上采用了创新性的U-ViT架构,这是全球首个将Diffusion和Transformer技术结合在一起的架构,具有良好的工程化能力和可扩展性。这种架构使得Vidu不仅能够在视频生成过程中保持高一致性和高动态性,还能模拟真实物理世界并具备丰富的想象力。
Vidu在多镜头语言处理、时间和空间一致性以及遵循物理规律等方面表现出色,几乎与OpenAI的Sora模型齐平甚至超越。这些特点使得Vidu在国内外引起了广泛关注,并被视为中国在AI视频技术领域自主创新的重要成果。
Vidu的发布标志着中国在视频生成技术方面迈出了重要一步,其性能直接对标国际领先水平,并有望推动AIGC应用开发与实践。