商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

文摘 2024-09-17 00:00 江苏

商汤研究院最新发布了一个先进的3D面部动画系统UniTalker，可以从不同的音频领域生成逼真的面部动作，包括各种语言的清晰和嘈杂的声音、文本到语音生成的音频，甚至伴有背景音乐的嘈杂歌曲。

UniTalker 可以输出多个注释。对于具有新注释的数据集，可以简单地将新的头插入 UniTalker 并使用现有数据集或仅使用新数据集进行训练，从而避免重新拓扑。

效果如下：

论文阅读

UniTalker：通过统一模型扩展音频驱动的 3D 面部动画

摘要

音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展，但由于 3D 注释不一致而产生了限制，将以前的模型限制在特定注释上进行训练，从而限制了训练规模。

在这项工作中，我们提出了 UniTalker，这是一个统一的模型，具有多头架构，旨在有效利用具有不同注释的数据集。为了增强训练稳定性并确保多头输出之间的一致性，我们采用了三种训练策略，即 PCA、模型预热和枢轴身份嵌入。为了扩大训练规模和多样性，我们组装了 A2F-Bench，包括五个公开可用的数据集和三个新整理的数据集。这些数据集包含广泛的音频领域，涵盖多语言语音和歌曲，从而将训练数据从常用的数据集（通常不到 1 小时）扩展到 18.5 小时。使用单个经过训练的 UniTalker 模型，我们实现了唇顶点误差的大幅降低，BIWI 数据集降低了 9.2%，Vocaset 降低了 13.7%。

此外，经过预训练的 UniTalker 有望成为音频驱动面部动画任务的基础模型。在可见数据集上对经过预训练的 UniTalker 进行微调可进一步提高每个数据集上的性能，A2F-Bench 上的平均误差减少了 6.3%。此外，在仅使用一半数据的未见数据集上对 UniTalker 进行微调，其性能超越了之前在完整数据集上训练的最先进的模型。

方法

左图：UniTalker 旨在以统一的方式从不同的数据集中学习。它以多语言、多种声音类型的音频作为输入，并同时输出各种 3D 面部注释约定。

右图：在每个数据集上对 UniTalker 进行微调，始终显示比在数据集上训练模型更低的唇顶点误差 (LVE)，导致平均 LVE 下降 6.3%。

UniTalker 架构

架构比较。（a）Vanilla 多头音频到人脸模型。

（b）UniTalker 采用 PCA 来平衡数据集中的注释维度，使用解码器预热来稳定训练，并开发枢轴身份嵌入以减轻数据集偏差。

（c）UniTalker-[D0-D7] 解码器的放大视图。UniTalker-[D0-D7] 有 6 个解码器头。

实验

BIWI-Test-A 和 VOCA-Test 的定量结果。最佳值以粗体显示。

(a) 每个训练集内的面部运动标准偏差。D1（Vocaset）的上部面部几乎没有运动变化，接近静态。

(b) 相邻帧运动变化的时间统计（平均值和标准偏差）以及序列内每帧预测到 GT 欧几里得距离的平均值。

结论

我们提出了 UniTalker，它有效地利用了具有不一致注释格式的现有数据集。模型精度受益于 A2F-Bench 的规模和多样性的增加。实验表明，预训练的 UniTalker 有潜力作为更多音频到人脸任务的基础模型，尤其是在数据稀缺的情况下。

局限性和未来工作。UniTalker 在大多数数据集上比相应的单个模型显示出更好的精度。然而，要在每个数据集上实现一致的改进需要针对数据集进行微调。增强模型容量以缓解不同数据集之间的性能权衡的潜力仍然是一个悬而未决的问题。同时，预训练的 UniTalker 有望成为音频驱动面部动画任务的基础模型。尽管如此，UniTalker 使用的数据规模（即 18.53 小时）仍然比用于训练音频编码器的数据规模（即 56k 小时）小得多。探索利用数据质量欠佳的大规模数据集（如 BEAT 和 Talkshow）代表着一个有前途的未来方向。将 UniTalker 应用于 2D 面部动画以增强大头部姿势下的一致性也是一项值得追求的追求。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487871&idx=2&sn=335a1f7b2fdc30cc2e48f30074f4db89

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

相关链接

论文阅读

摘要

方法

UniTalker 架构

实验

结论