几秒生成带肢体动作的数字人：TANGO

文摘 2024-11-19 10:10 泰国

我是@扣子Bolt，关注【AI工具｜科研学术 | 博士生活 | 网络创业｜自我提升】，利用AI工具提升科研效率和自我成长，这是我在公众号发布的第【98】篇原创内容。

几十秒视频加上口播音频就能生成这种带肢体动作的数字人，这都已经不能用以假乱真来形容了。和传统这些只有唇形同步的模型相比，它最大的特点是高匹配度的肢体动作生成，这效果分分钟把Heygen比下去。关键它还是开源免费，有高频做口播视频的朋友建议一定要试试。

TANGO 是一种用于生成协同语音与身体动作视频的高保真框架。它以单人演讲参考视频和目标语音音频为输入，生成同步身体动作的视频。TANGO 基于手势视频重演（Gesture Video Reenactment, GVR）技术，通过将视频帧表示为节点、有效转换表示为边的有向图结构，实现视频片段的分割与检索。

针对传统 GVR 的两个关键问题——音频与动作的错位以及生成帧的视觉伪影，TANGO 提出了以下改进：

1.跨模态对齐改进：引入基于潜在特征距离的动作检索方法，以提高语音音频与身体动作的对齐效果。为此，设计了一个分层联合嵌入空间（AuMoCLIP），以更好地建模语音与动作间的关系。

2.高质量转换帧生成：开发了一种基于扩散模型的生成方法——外观一致插值（ACInterp）。该模型以 AnimateAnyone 为基础，通过参考运动模块与单应性背景流，确保生成视频与参考视频在外观上的一致性。

通过整合上述创新到基于图的检索框架中，TANGO 能够生成真实感强、动作与音频高度同步的视频，性能显著优于现有生成与检索方法。

https://github.com/CyberAgentAILab/TANGO
https://huggingface.co/spaces/H-Liu1997/TANGO

●让数学公式变成动画视频：manim

●AI太多不知道用什么AI工具？这款AI帮你找AI

●文献阅读下载管理神器：Zotero

●用于科研学术的复杂公式识别工具：SimpleTex

●麻省理工给孩子们学习AI的网站：免费！支持中英切换

●这款AI能让物理图动起来：Augmented Physics

●上千款GPTs就在GPTs Hunter

●AI革命来袭：30秒速成网站，小白也能变站长！

●中科院研究所开源学术写作神器：binary-husky GPT Academic

●一键生成专业图表，秒变麦肯锡风，让PPT档次瞬间提升10倍！

●CoI-Agent：科研人的选题神器，一键生成创新点子

●Google NotebookLM带来的启发：实现AI生成中文播客

●科研人必须知道的 100 个AI工具

●原来向佐写论文也会愁眉苦脸

●调查 OTA 员工对 ChatGPT 的双刃剑认知：组织支持的调节作用

●人工智能多模态教学资源的生成与评价：AIGC在国际中文教育的应用

欢迎关注我的视频号

三连一下，不失联！

扣子Bolt

高校教师/在读博士/AI顾问。关注AIGC，学术科研，博士生活；分享AI赋能和论文带读，打破AI信息差。视频号：扣子Bolt

最新文章

来自德国的ChatGPT用户的特征：对Web跟踪数据的数字鸿沟的影响

ChatGPT的不平衡使用加剧了工人之间原有的不平等

医护人员对人工智能的采纳和满意度：矛盾紧张和矛盾心态的反直觉作用

人工智能素养较低预示着对人工智能的接受度更高

回顾2024，展望2025。

大学生可持续创业意向：创业恐惧的协同调节与人工智能在教学中的应用

人工智能和员工成果：调查工作不安全感和技术压力在酒店业中的作用

帮助还是在取代？揭示人工智能意识对员工反生产行为的影响

人工智能的倡导者与审慎批评者：AI态度、兴趣、使用与素养如何塑造大学生的AI自我效能感

从伦理视角看人工智能的道德焦虑、道德风险和道德意识是否会影响大学生对生成式人工智能产品的使用？

通过AI能力框架梳理人工智能在人力资源管理领域的价值

客户对人工智能服务机器人的接受程度：信任和文化的影响

虚拟代理和心流体验：对人工智能驱动的聊天机器人的实证检验

通过虚构写作工作坊探索高等教育中人工智能（AI）在员工中的感知

智能技术、人工智能、机器人和算法（STARA）意识对主动客户服务绩效是否有双刃剑影响？工作投入和员工韧性的影响

自我效能与技术依赖的悖论：揭示生成式人工智能对大学生任务完成的影响

顾客兼容性与使用意向之间的差距：主观规范对聊天机器人驱动的酒店APP的调节作用

ChatGPT、人工智能生成内容和工程管理

投诉处理中的聊天机器人：幽默的调节作用

ChatGPT是否能够执行扎根理论来进行风险分析？一项实证研究

微信公众号也被AI赋能了...

大学生可持续创业意向：创业恐惧与AI在教学中应用的调节作用

生成式人工智能使用如何以及何时影响员工增量和激进创造力：来自中国的实证研究

绝了!原来提升科研效率就差这些AI神器！

人工智能意识和变革导向的领导力对员工与人工智能协作的交互影响：接近动机和回避动机的作用

酒店员工人工智能意识的双刃剑效应

如何用AI辅助你制作/优化简历

使用生成式人工智能对员工创造力评价的影响

了解类人社交机器人的拟人化特征对用户满意度的影响：基于刺激-有机体-反应理论

AI赋能K-12课堂，你的教学小助手来了！

谁读文献还没用上这个专注buff？仿生阅读了解一下！

强迫性 ChatGPT 使用、焦虑、倦怠和睡眠障碍：基于刺激-有机体-反应视角的串行中介模型

论文标题难起？用这个神器，一秒让审稿人心动！

学术论文写作的挑战与变革:借助 ChatGPT 直接生成一篇学位论文的实验

别错过！中文大语言模型的终极资源库来了！

ChatGPT 论文写作提示词（100种！）

将 Markdown文本转换为美观的图片海报：Markdown-to-Image

美国和中国对使用人工智能机器人的态度差异

复现论文难？试试这个神器，让你轻松获取代码和资源！

你的信息过滤大师：首席情报官（Wiseflow）

震撼！斯坦福AI课程免费开放，提升孩子未来核心竞争力必修课！

任意下载全世界主流网站的视频：cobalt

对高等教育评估中 GenAI 政策的批判性回顾：呼吁重新考虑学生作业的“原创性”

几秒生成带肢体动作的数字人：TANGO

GPT和数字创业意图的影响

足不出户就可以让名胜古迹尽收眼底

人工智能如何影响教学:从作业设计、个性化学习到创新评价

让数学公式变成动画视频：manim

AI太多不知道用什么AI工具？这款AI帮你找AI

人工智能生成内容（AIGC）信息回避影响机制研究：AI身份威胁的调节作用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉