我是@扣子Bolt,关注【AI工具|科研学术 | 博士生活 | 网络创业|自我提升】,利用AI工具提升科研效率和自我成长,这是我在公众号发布的第【98】篇原创内容。
几十秒视频加上口播音频就能生成这种带肢体动作的数字人,这都已经不能用以假乱真来形容了。和传统这些只有唇形同步的模型相比,它最大的特点是高匹配度的肢体动作生成,这效果分分钟把Heygen比下去。关键它还是开源免费,有高频做口播视频的朋友建议一定要试试。
TANGO 是一种用于生成协同语音与身体动作视频的高保真框架。它以单人演讲参考视频和目标语音音频为输入,生成同步身体动作的视频。TANGO 基于手势视频重演(Gesture Video Reenactment, GVR)技术,通过将视频帧表示为节点、有效转换表示为边的有向图结构,实现视频片段的分割与检索。
针对传统 GVR 的两个关键问题——音频与动作的错位以及生成帧的视觉伪影,TANGO 提出了以下改进:
1.跨模态对齐改进:引入基于潜在特征距离的动作检索方法,以提高语音音频与身体动作的对齐效果。为此,设计了一个分层联合嵌入空间(AuMoCLIP),以更好地建模语音与动作间的关系。
2.高质量转换帧生成:开发了一种基于扩散模型的生成方法——外观一致插值(ACInterp)。该模型以 AnimateAnyone 为基础,通过参考运动模块与单应性背景流,确保生成视频与参考视频在外观上的一致性。
通过整合上述创新到基于图的检索框架中,TANGO 能够生成真实感强、动作与音频高度同步的视频,性能显著优于现有生成与检索方法。
https://github.com/CyberAgentAILab/TANGO
https://huggingface.co/spaces/H-Liu1997/TANGO
●这款AI能让物理图动起来:Augmented Physics
●中科院研究所开源学术写作神器:binary-husky GPT Academic
●一键生成专业图表,秒变麦肯锡风,让PPT档次瞬间提升10倍!
●Google NotebookLM带来的启发:实现AI生成中文播客
欢迎关注我的视频号