随着深度学习技术的不断进步,视频生成模型已经成为AI领域中的研究热点。腾讯的 Hunyuan-Video 是一款支持中文输入的通用视频生成模型,它采用先进的技术架构和大规模数据训练,旨在为多种应用场景提供高质量的视频生成服务。该模型的开源,无疑为全球开发者提供了更广阔的创新空间。Hunyuan-Video 的目标不仅仅是提升视频生成的质量,还在于通过开源推动社区在多模态生成、视觉语言模型等方面的深入探索。正如其团队所言,“缩小闭源和开源视频基础模型之间的差距,以加速社区的探索。”Hunyuan-Video 的成功离不开其背后精细的数据处理和独特的模型架构设计。其模型训练过程可分为几个关键步骤,确保了视频生成的高质量和高效率。数据预处理与过滤:为了保证训练数据的质量,Hunyuan-Video 在数据预处理阶段采取了一系列严格的标准。通过精心设计的五个数据集训练阶段,从最初的低分辨率视频逐步训练到高分辨率视频,采用先进的数据过滤方法,包括场景切割、图像质量提升、去重、去除水印等技术。层次化数据过滤:模型训练过程中,腾讯团队采用了多层次的图像和视频数据过滤策略,从原始数据中提取出更具美学、技术质量的视频剪辑。通过对视频的美学质量和动态变化的严格评估,进一步确保了训练数据的多样性和质量。高质量结构化字幕:除了传统的视频处理方式,Hunyuan-Video 引入了结构化字幕技术。通过内部视觉语言模型(VLM),将视频字幕转化为多维度的JSON格式,精确描述视频的内容、风格、镜头类型和光照等信息,大大提高了模型对中文输入提示的理解能力和生成准确性。
Hunyuan-Video 模型采用了 3D变分自编码器(3D-VAE) 和 Transformer 架构,整合了视觉和文本信息的生成能力,确保视频生成过程中的精细控制与高效性。3D变分自编码器(3D-VAE):Hunyuan-Video 采用了 3D-VAE(变分自编码器)来处理视频和图像数据。通过该方法,视频中的每一帧图像都能够被压缩到一个潜在空间,使得模型在生成视频时具备更高的效率和准确性。Transformer架构:模型的核心设计基于统一的全注意力机制,通过Transformer架构在视觉和语言信息之间进行高效的交互。Transformer模型的引入,不仅让视频生成具备了跨模态能力,还大大简化了训练过程,提升了模型的可扩展性。阶段性训练:在训练过程中,Hunyuan-Video 采用了阶段性学习策略,从低分辨率、短时间的视频逐步训练到高分辨率、长时间的视频。此外,模型还通过创新的平铺策略,解决了内存不足的问题,使得在单个GPU上也能高效地生成长时长、高分辨率的视频。为了客观评估 HunyuanVideo 的性能,腾讯团队将其与 Runway Gen-3、Luma 1.6 以及三个中文社区表现最好的视频生成模型 进行了对比。评估结果显示,HunyuanVideo 在文本对齐、运动质量和视觉质量等关键指标上均表现优异,尤其在 运动质量方面,HunyuanVideo 甚至超越了一些闭源模型,充分展现了其强大的视频生成能力。评估过程中,使用了 1533 个文本提示,并由 60 位专业评估人员 进行评估。- 文本对齐(Text Alignment):HunyuanVideo 在文本对齐方面的表现接近于基准模型 CNTopA,分别为 61.8% 和 62.6%,稍微逊色于 CNTopA,但仍高于其他模型,如 GEN-3 alpha 和 Luma1.6。这意味着 HunyuanVideo 能较好地理解并呈现文本提示中的信息。
- 运动质量(Motion Quality):这是 HunyuanVideo 的强项,获得了 66.5% 的得分,明显高于其他所有模型,尤其是在动态效果的流畅性和自然感上表现出色。相比之下,Luma1.6 和 CNTopC 的运动质量则较弱,分别仅为 44.2% 和 47.2%。
- 视觉质量(Visual Quality):在视觉质量方面,HunyuanVideo 以 95.7% 的得分领先,接近顶尖水平。与其他模型相比,CNTopB 以 97.7% 的视觉质量略微领先,但 HunyuanVideo 在运动质量的突出表现使其在整体评比中位居第一。
- 综合评分(Overall Ranking):HunyuanVideo 在综合评分方面表现最佳,获得了 41.3% 的总评分,领先于所有其他模型。尽管 CNTopA 和 CNTopB 在单一方面如文本对齐和视觉质量上有所优势,但 HunyuanVideo 的整体表现,使其成为所有评测中排名最高的模型。
OpenCSG社区:https://opencsg.com/models/tencent/HunyuanVideo
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。