太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

2024-07-08 00:05   北京  

点击下方卡片,关注「魔方AI空间」公众号

简 介

LivePortrait 是一个用于生成逼真肖像动画的框架,只需一张静态肖像图像就能生成动态视频。

  • 它能够从单一图像生成生动的动画视频,并能精确控制眼睛和嘴唇的动作,确保动画的自然流畅。
  • 还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。
  • 弃用扩散方法,而是探索和扩展基于隐式关键点框架的潜力,有效地平衡了计算效率和可控性。

项目主页:https://liveportrait.github.io/

图 1:肖像动画结果。给定静态肖像图像作为输入,可以将其生动地动画化,确保无缝拼接并提供对眼睛和嘴唇运动的精确控制

方法概述

第一阶段流程:基础模型训练。外观和运动提取器 𝐹 和 𝑀 、变形模块 𝑊 和解码器 𝐺 都经过优化。在此阶段,模型从头开始训练。

第一阶段
  • 隐式关键点方法:使用隐式关键点作为中间的运动表示,这些关键点能够有效地捕捉并表示面部的主要运动特征,平衡了生成质量和计算效率。
  • 混合图像和视频训练策略:结合高质量的静态肖像图像和动态视频进行训练,增强模型的泛化能力,使其能够处理各种风格的肖像。
  • 升级的网络结构:采用先进的网络架构,包括ConvNeXt-V2-Tiny作为主干网络和SPADE解码器,提升生成质量和计算效率。
  • 标志导向的隐式关键点优化:引入2D标志(如眼睛和嘴唇的关键点)作为指导,优化隐式关键点的学习过程,增强对细微面部表情的控制能力。

第二阶段流程:拼接和重定向模块训练。在第一阶段训练基本模型后,我们冻结外观和运动提取器、变形模块和解码器。第二阶段仅优化拼接模块和重定向模块。

第二阶段
  • 缝合和重定向模块:提出缝合模块和两个重定向模块(眼睛和嘴唇重定向)增强动画的细节控制,使生成的动画更加自然流畅。
  • 高效的生成速度:优化计算过程,使得生成速度大幅提升,能够在高性能GPU上实现实时动画生成

实际效果

  • 在生成的动画中,面部表情和头部运动自然逼真,与实际人物动作高度相似。
  • 眼睛和嘴唇的细节控制方面,LivePortrait表现出色,能够精确控制眼睛的注视方向和嘴唇的开合动作。
  • 对比实验显示,动画质量优于现有的非扩散模型和扩散模型方法。
  • 在RTX 4090 GPU上,生成速度达到了每帧12.8毫秒,显著高于现有的扩散模型方法。
  • 通过优化网络架构和使用高效的隐式关键点方法,LivePortrait在保证生成质量的同时,大幅降低了计算开销。

典型案例

跨越各种风格(写实、油画、雕塑、3D渲染)和不同尺寸

  • 单图像动画: 将单一静态人物照片转变为视频,其中人物可以微笑、眨眼或转头。
  • 家庭肖像动画: 动画处理包含多个家庭成员的肖像,每个成员的面部表情和动作均被无缝动画化,确保整体动画的自然流畅。

带拼接的肖像视频编辑

所有源视频均由 Kling 从单个图像生成

  • 多段视频合成:从多个短视频片段中提取素材,合成一个连贯的长视频,其中包含自然的面部表情和动作过渡。
  • 表情调整:在现有视频中调整人物的面部表情,如将一个严肃的表情改为微笑,或者调整说话时的嘴唇同步。

眼睛和嘴唇重新定位

🐱🐶 对动物的控制生成 🐼🐱

通过对动物数据进行微调,这些可爱的猫、狗和熊猫可以由人类精确驱使

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

往期文章

AIGCmagic社区共建邀请函!

商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音

变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!

UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员

MOFA-Video:图像到视频的可控生成框架,可本地一键部署

AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践

「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)

AIGC |「视频生成」系列之Vidu:国内首个可媲美Sora的视频生成模型

AIGC |「视频生成」系列之ID-Animator:可保持角色一致生成视频动画


魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章