百度联合多所高校发布Hallo2,可实现长时间高分辨率音频驱动肖像动画

科技   2024-10-21 23:35   广东  
近日,复旦大学、百度公司及南京大学的研究人员联合发布了一项名为“Hallo2”的研究成果。
该成果为音频驱动的肖像动画技术带来了显著的进步,特别是在长时间视频合成与高分辨率图像处理方面。
基于先前版本的技术积累,“Hallo2”在长时间视频合成上实现了突破。
研究团队通过在条件运动帧的图像空间中进行增强策略的研究,解决了诸如外观漂移和时间伪影等问题。
特别是引入了带有高斯噪声的补丁丢弃(patch-drop)技术,这项技术增强了长时间视频中的视觉一致性与时间连贯性。
此外,“Hallo2”还实现了4K分辨率的肖像视频生成。
为了达到这一目标,研究人员采用了潜在代码的向量量化以及时间对齐技术,以确保在时间维度上的连贯性。
结合高质量解码器,“Hallo2”成功实现了4K分辨率的视觉合成。
值得关注的是,“Hallo2”引入了可调整的语义文本标签作为肖像表情的条件输入。
这不仅超越了传统的音频线索,提高了可控性,还增加了生成内容的多样性。
据研究者介绍,这是首个能够实现4K分辨率并生成长达一小时音频驱动肖像动画的技术,并且支持文本提示增强。
研究团队进行了广泛的实验评估,包括使用HDTF、CelebV以及新引入的“Wild”数据集等公开可用的数据集。
实验结果显示,“Hallo2”的方法在长时间肖像视频动画领域达到了顶尖水平,能够成功生成丰富且可控的4K分辨率内容,持续时间可达数十分钟。
这项研究展示了生成模型在肖像动画方面的最新进展,尤其是在解决长时间视频合成中的挑战性问题上取得了实质性突破。
它不仅推动了该领域的技术进步,也为未来的研究提供了新的方向与可能性。
直达链接:https://github.com/fudan-generative-vision/hallo2
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】

晓得智能
每日聚焦最新AI,让每个人都能享受到AI带来的乐趣!
 最新文章