开源EMO再升级!复旦|百度|南大推出Hallo2:可以生成4K,一小时的音频驱动的视频。

文摘   2024-12-05 00:00   江苏  

在之前的文章中已经和大家介绍过复旦大学开源的Hallo项目,感兴趣的小伙伴可以点击以下链接阅读~

复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

复旦开源版本EMO:真实人物效果

复旦开源版本EMO:运动控制效果

今天给大家介绍Hallo的升级版本Hallo2,该方法处理单个参考图像以及持续几分钟的音频输入。此外,可以以不同的间隔引入可选的文本提示,以调节和细化肖像的表情。最终输出的是高分辨率 4K 视频,该视频与音频同步,并受可选表情提示的影响,确保整个视频的连续性。

相关链接

论文地址:http://arxiv.org/abs/2410.07718v1

项目主页:https://fudan-generative-vision.github.io/hallo2

代码地址:https://github.com/fudan-generative-vision/hallo2

试用地址:https://huggingface.co/fudan-generative-ai/hallo2

论文阅读

Hallo2:长时间、高分辨率音频驱动的肖像图像动画

介绍

基于潜在扩散的肖像图像动画生成模型(例如 Hallo)的最新进展在短时视频合成方面取得了令人印象深刻的成果。在本文中,我们介绍了 Hallo 的更新,引入了多项设计增强功能来扩展其功能。首先,我们扩展该方法来制作长时间视频。为了解决外观漂移和时间伪影等重大挑战,我们研究了条件运动帧的图像空间内的增强策略。具体来说,我们引入了一种用高斯噪声增强的补丁下降技术,以增强长时间内的视觉一致性和时间连贯性。其次,我们实现了4K分辨率的人像视频生成。为了实现这一目标,我们实现了潜在代码的矢量量化,并应用时间对齐技术来保持时间维度上的一致性。通过集成高质量解码器,我们实现了4K分辨率的视觉合成。第三,我们将肖像表达的可调整语义文本标签作为条件输入。这超越了传统的音频提示,提高了可控性并增加了生成内容的多样性。据我们所知,本文提出的 Hallo2 是第一个实现 4K 分辨率并生成长达一小时、音频驱动的人像图像动画并配有文本提示的方法。我们进行了广泛的实验,以在公开数据集(包括 HDTF、CelebV 和我们引入的“Wild”数据集)上评估我们的方法。实验结果表明,我们的方法在长时间肖像视频动画中实现了最先进的性能,成功生成了 4K 分辨率的丰富且可控的内容,持续时间长达数十分钟。

方法

Hallo2的方法主要围绕三个核心技术展开。首先,为了解决生成长时间视频时的外观一致性问题,研究者们采用了补丁丢弃数据增强技术。这一技术通过随机丢弃条件帧中的部分图像补丁,确保模型主要依赖于参考图像的外观特征,同时保留运动信息。这种方法有效防止了前一帧对后续帧外观的污染。其次,为了实现4K视频生成,研究者们扩展了向量量化生成对抗网络(VQGAN),并在代码序列预测中引入了时间对齐机制,确保生成视频的平滑过渡和高分辨率细节。最后,研究者们通过在音频信号的基础上引入可调节的文本提示,增强了对肖像表情和运动的控制能力,使得生成的动画更加生动和富有表现力。


感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章