智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。
与此同时,腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前,该模型已在APP与Web端发布,其标准模式下的视频生成大约需要120秒完成。
腾讯对HunYuan-Video模型进行了四项技术升级,涵盖了数据处理系统、文本编码、算力优化等多个方面,提升了视频生成的质量与可控性。此外,腾讯还通过微调、应用拓展及开源等措施进一步强化了模型的实际应用能力。
1、四项关键技术升级
首先,模型采用了一个超大规模的数据处理系统,能够混合处理图像与视频数据。该系统包括文字检测、转景检测、美学打分、动作检测、准确度检测等多个维度的功能,进一步提升视频画质。
其次,模型引入了多模态大语言模型(Decoder-only MLLM)作为文本编码器,提升了复杂文本的理解能力,同时支持多语言理解。这一升级使得文本与图像之间的对齐性得到了加强,能够根据用户提供的提示词精确生成符合要求的视频内容。
另外,模型架构使用了130亿参数的全注意力机制(DIT)和双模态ScalingLaw,能够在视频生成中有效利用算力和数据资源,增强时空建模能力,并优化视频生成过程中的动态表现。此架构支持原生转场,可实现了多个镜头间的自然切换,并保持主体一致性。
最后,HunYuan-Video采用了自研的3D VAE架构,以提升图像和视频重建的能力,特别在小人脸和大幅运动场景下表现更加流畅。
2、六大微调领域强化定向能力
在预训练之后,腾讯混元大模型目前正在进行微调(SFT)工作,进一步增强其视频生成的定向能力。HunYuan-Video在六个关键方面进行了专项微调,包括画质优化、高动态效果、艺术镜头、手写文本、转场效果以及连续动作的生成,其中一些调整仍在进行中。
3、Recaption模型与两种生成模式
此外,HunYuan-Video还推出了Recaption模型,提供了两种生成模式:常规模式和导演模式。
常规模式侧重于简化用户输入的文本,强化自我修正功能,适合专业用户进行精细操作;而导演模式则侧重于提升画面质感,强化镜头运用、光影设计和构图美学等方面的描述,适合非专业用户使用。
4、性能评估与同行对比
在特定场景类别中,混元表现尤为突出,特别是在处理人文场景、人工场所以及多主体组合场景时,其生成效果优于其他模型。在物品和动物/微生物类目中,混元也具有一定的优势,而在虚拟场景和自然场景的生成效果相对较弱。
从维度来看,混元运动质量的合格率排名第一,文本与视频的对齐合格率位居第二。但从数据中可以看出,行业里的这些模型总体成功率都仍然较低,视频生成的内容仍存在一定的优化空间。
5、视频配音、配乐与数字人技术
除了基础的视频生成能力外,腾讯还拓展了HunYuan-Video的应用功能,推出了视频配音与配乐功能,能够为生成的视频提供音效与背景音乐,进一步提升视频的完整性和表现。
此外,腾讯还推出了驱动2D照片数字人的技术,支持通过语音、姿态和表情等多种驱动方式控制照片数字人的动态表现,增强了生成内容的自然度、一致性和可控性。
6、开源发布与生态支持
目前,腾讯宣布开源该视频生成大模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。
腾讯混元视频生成开源项目相关链接如下:
官网:
https://aivideo.hunyuan.tencent.com
代码:
https://github.com/Tencent/HunyuanVideo
模型:
https://huggingface.co/tencent/HunyuanVideo
技术报告:
https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf
提高视频分辨率和生成速度
视频生成的一个核心挑战是在快速变化的场景中维持图像的连贯性和一致性。虽然图像生成技术已经取得了显著的进步,但将其扩展至动态视频生成仍面临许多技术障碍。未来,图像与视频生成可能会趋向一体化发展,但这需要在多个技术领域取得突破。
随着腾讯混元大模型视频生成能力的发布,AI视频生成领域的竞争格局进一步加剧。除了腾讯,国外AI视频生成平台如Runway、Luma、Pika,以及国内的快手可灵、字节即梦、智谱清影等也在争夺市场份额,形成了多方竞争的态势。
开源已成为腾讯混元大模型的一个战略选择。从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。
GenAICon 2024上海站预告