点击下方卡片,关注「魔方AI空间」公众号
简 介
LivePortrait 是一个用于生成逼真肖像动画的框架,只需一张静态肖像图像就能生成动态视频。
它能够从单一图像生成生动的动画视频,并能精确控制眼睛和嘴唇的动作,确保动画的自然流畅。 还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。 弃用扩散方法,而是探索和扩展基于隐式关键点框架的潜力,有效地平衡了计算效率和可控性。
项目主页:https://liveportrait.github.io/
方法概述
第一阶段流程:基础模型训练。外观和运动提取器 𝐹 和 𝑀 、变形模块 𝑊 和解码器 𝐺 都经过优化。在此阶段,模型从头开始训练。
隐式关键点方法:使用隐式关键点作为中间的运动表示,这些关键点能够有效地捕捉并表示面部的主要运动特征,平衡了生成质量和计算效率。 混合图像和视频训练策略:结合高质量的静态肖像图像和动态视频进行训练,增强模型的泛化能力,使其能够处理各种风格的肖像。 升级的网络结构:采用先进的网络架构,包括ConvNeXt-V2-Tiny作为主干网络和SPADE解码器,提升生成质量和计算效率。 标志导向的隐式关键点优化:引入2D标志(如眼睛和嘴唇的关键点)作为指导,优化隐式关键点的学习过程,增强对细微面部表情的控制能力。
第二阶段流程:拼接和重定向模块训练。在第一阶段训练基本模型后,我们冻结外观和运动提取器、变形模块和解码器。第二阶段仅优化拼接模块和重定向模块。
缝合和重定向模块:提出缝合模块和两个重定向模块(眼睛和嘴唇重定向)增强动画的细节控制,使生成的动画更加自然流畅。 高效的生成速度:优化计算过程,使得生成速度大幅提升,能够在高性能GPU上实现实时动画生成
实际效果
在生成的动画中,面部表情和头部运动自然逼真,与实际人物动作高度相似。 在眼睛和嘴唇的细节控制方面,LivePortrait表现出色,能够精确控制眼睛的注视方向和嘴唇的开合动作。 对比实验显示,动画质量优于现有的非扩散模型和扩散模型方法。 在RTX 4090 GPU上,生成速度达到了每帧12.8毫秒,显著高于现有的扩散模型方法。 通过优化网络架构和使用高效的隐式关键点方法,LivePortrait在保证生成质量的同时,大幅降低了计算开销。
典型案例
跨越各种风格(写实、油画、雕塑、3D渲染)和不同尺寸
单图像动画: 将单一静态人物照片转变为视频,其中人物可以微笑、眨眼或转头。
家庭肖像动画: 动画处理包含多个家庭成员的肖像,每个成员的面部表情和动作均被无缝动画化,确保整体动画的自然流畅。
带拼接的肖像视频编辑
所有源视频均由 Kling 从单个图像生成
多段视频合成:从多个短视频片段中提取素材,合成一个连贯的长视频,其中包含自然的面部表情和动作过渡。
表情调整:在现有视频中调整人物的面部表情,如将一个严肃的表情改为微笑,或者调整说话时的嘴唇同步。
眼睛和嘴唇重新定位
🐱🐶 对动物的控制生成 🐼🐱
通过对动物数据进行微调,这些可爱的猫、狗和熊猫可以由人类精确驱使
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
往期文章
• 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
• FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
• AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音
• 变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!
• UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员
• MOFA-Video:图像到视频的可控生成框架,可本地一键部署
• AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践
• 「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)