之前的文章中已经给大家介绍过许多关于音频驱动的肖像图像生成动画方法,感兴趣的小伙伴可以点击下面链接阅读~
复旦开源Hallo:只需输入一段音频和一张照片就可以让人物说话。
开源EMO再升级!复旦|百度|南大推出Hallo2:可以生成4K,一小时的音频驱动的视频。
继阿里EMO后,腾讯也提出了AniPortrait:用于生成由音频和参考肖像图像驱动的高质量动画
阿里最新EMO:只需要提供一张照片和一段音频,即可生成会说话唱歌的AI视频
告别大头娃娃,东京大学开源数字人TANGO:能根据目标语音音频生成同步全身手势的视频。
LetsTalk是一种基于扩散的转换器,用于音频驱动的肖像图像动画。给定单个参考图像和音频,LetsTalks 可以生成与输入音频一致的逼真的视频。LetsTalk 可以为输入音频驱动一致且合理的嘴部运动。与目前主流的基于扩散的方法(如 Hallo 和 AniPortrait)相比,LetsTalk 在实现最佳质量的同时还具有很高的推理效率。此外,基础版本LetsTalk-B仅使用少 8 倍的参数就实现了与 Hallo 相似的性能。
相关链接
论文:http://arxiv.org/abs/2411.16748v1 代码:https://github.com/zhang-haojie/letstalk 主页:https://zhang-haojie.github.io/project-pages/letstalk.html
论文阅读
摘要
使用音频的肖像图像动画发展迅速,使得创建越来越逼真和富有表现力的动画面部成为可能。这种多模态引导的视频生成任务的挑战在于融合各种模态,同时确保时间和肖像的一致性。
为了应对这些挑战,论文提出了用于说话视频合成方法LetsTalk,这是一种扩散变换器,它结合了模块化的时间和空间注意机制来合并多模态并增强时空一致性。为了处理多模态条件,论文首先总结了三种融合方案,从浅融合到深度融合紧凑性,并彻底探索它们的影响和适用性。然后,根据图像、音频和视频生成的模态差异提出合适的解决方案。
对于肖像,利用深度融合方案(Symbiotic Fusion)来确保肖像的一致性。 对于音频,论文实现了浅融合方案(Direct Fusion)来实现音频动画对齐,同时保持多样性。
实验表明,该方法可以生成时间连贯、逼真的视频,并且具有增强的多样性和生动性。
方法
方法概述(a)和设计的 Transformer 块的说明(b)。 为了更好地说明,在(b)中省略了时间步编码器和 Layer Norm。LetsTalk 集成了配备时间和空间注意模块的 Transformer 块,旨在捕捉帧内空间细节并建立跨时间步骤的时间对应关系。获得肖像和音频嵌入后,使用 Symbiotic Fusion 融合肖像嵌入,使用 Direct Fusion 融合音频嵌入。值得注意的是,论文沿帧轴重复肖像嵌入,使其具有与噪声嵌入相同的形状。
三种多模态融合方案的说明,提出的 Transformer 主干由左侧的块组成。
直接融合。将条件直接输入到每个块的交叉注意模块中; 孪生融合。维护类似的 Transformer 并将条件输入其中,提取相应的特征来指导主干中的特征; 共生融合。在开始时将模态与输入连接起来,然后将其输入到主干中,通过固有的自注意机制实现融合。
结果
在HDTF数据集上与其他前沿方法的定性比较。论文的方法实现了更好的音频动画对齐(例如嘴唇运动),并产生了富有表现力的结果。
与CelebV-HQ数据集上现有的肖像图像动画方法进行定性比较。论文的方法实现了更好的肖像一致性。
结论
LetsTalk是一种新颖的多模态引导扩散变换器,可使用音频输入实现卓越的音频驱动肖像动画效果。LetsTalk将模块化时空注意机制引入到变换器主干中,以增强时间一致性。论文中总结了三种处理多模态的融合方案,并深入分析了它们的影响。然后分别采用输入参考肖像和音频的最佳融合方案。大量实验证明了 LetsTalk 在实现最先进的肖像动画效果方面的有效性,并在性能和有效载荷之间取得了良好的平衡。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~