太有意思了 | PhysGen:引入「物理知识」的视频生成模型

2024-10-19 23:05   北京  

点击下方卡片,关注「魔方AI空间」公众号

简介

PhysGen,一种新颖的图像到视频生成方法,它可以转换单个图像和输入条件(例如,施加到图像中的对象的力和扭矩)以生成逼真的、物理上合理的且时间上一致的视频。

本文主要思想是将基于模型的物理模拟与数据驱动的视频生成过程相集成,从而实现合理的图像空间动态。

三个核心组件:

  • 图像理解模块,可以有效捕获图像的几何形状、材料和物理参数;
  • 图像空间动力学模拟模型,利用刚体物理和推断参数来模拟现实行为;
  • 基于图像的渲染和细化模块,利用生成视频扩散来生成具有模拟运动的逼真视频片段。

PhysGen 生成的视频在物理和外观上都很真实,甚至可以精确控制,通过定量比较和全面的用户研究,展示了优于现有数据驱动的图像到视频生成工作的卓越结果。PhysGen生成的视频可用于各种下游应用,例如将图像转换为逼真的动画或允许用户与图像交互并创建各种动态。

图1:给定一张单张图像,无训练的PhysGen能够生成由物理和初始状态控制的未来帧。在生成过程中会推理语义、几何和动力学,并且结果视频既基于物理又具有照片现实感。

引言

观察图1中的图像,我们可以轻松预测或可视化应用于汽车、卷曲石和多米诺骨牌堆的各种物理效应的潜在结果。对物理的理解赋予了我们对反事实的想象力:我们可以在不经历它们的情况下,从图像中想象出行动的各种后果。

本工作的目标是向计算机提供类似的能力——理解和模拟单个图像中的物理,并创建逼真的动画。我们期望由此产生的视频能够产生具有物理上合理动态和相互作用的现实动画。

本文要解决的问题是如何从单张图像和输入条件(例如,施加在图像中物体的力和力矩)生成一个真实的、物理上合理的、时间上一致的视频。

现有的数据驱动图像到视频生成方法缺乏物理原理的融入,导致生成的视频在时间一致性和真实感方面表现不佳;此外,这些方法还缺乏细粒度的可控性,无法模拟不同力和力矩对物体的影响。

传统的图形学方法利用基于模型的动态模拟和渲染器来生成逼真的运动,但这些方法的物理和光照物理是预定义的。数据驱动的方法则通过在互联网规模的数据上训练扩散模型来学习从单张图像生成真实视频,但未能将现实世界的物理原理融入生成过程。

方法概述

PhysGen,一种新颖的图像到视频生成方法,用于解决从单张图像生成物理上合理且时间上一致的视频的问题。

图2:方法概述。该框架由三个交织的组件组成:感知模块、动力学模拟模块和渲染模块。感知模块解释给定图像中的语义、几何和物理参数。动力学模拟模块模拟场景中每个实例的刚体运动和相互作用,受牛顿定律和物理约束的支配。渲染模块渲染最终结果,利用现成的重新点燃模型和基于扩散模型的视频先验。

图像理解模块:首先,该模块通过大型视觉基础模型推理来推断图像中的物体组成和物理参数。使用GPT-4V识别所有图像类别,并将结果发送到Grounded-SAM进行实例分割和物体分类。

图像空间动力学模拟模块:其次,该模块利用输入的力和力矩以及推断的形状和几何信息来模拟物体的刚体运动、物体间的相互作用(如摩擦和碰撞)。刚体运动的动力学由以下公式描述:

其中,F 是力,τ 是力矩,M 是物体的质量,I(t) 是世界坐标系下的转动惯量矩阵。

生成视频渲染模块:最后,该模块利用基于生成视频扩散的渲染器输出最终的真实视频。通过仿射变换将前景场景与静态修复的背景合成初始视频,并使用重光照模型和扩散模型生成的视频先验进行渲染。

实验细节

数据收集:为了展示方法的可泛化性和鲁棒性,使用了来自互联网和自捕获的室内图像数据。数据集包括不同光照、物体数量、几何形状、物理属性和环境边界的变化。

实验设置:在每个实验中,运行120次模拟步骤,并均匀采样16帧以形成视频。生成分辨率为512x512,以便帧可以轻松适应扩散模型。使用SEINE作为视频扩散先验模型,推理时使用DDIM采样,噪声强度设置为0.5,去噪执行25/50步,潜在融合在时间戳5停止。

对比方法:与SEINE、I2VGen-XL和DynaCrafter等最先进的图像到视频模型进行对比,这些方法同时接受图像和文本提示进行生成。此外,还与基于图像的操作方法Motion Guidance进行对比,该方法使用图像和光流作为输入来预测未来运动并生成相应的图像。

实验结果分析

视觉比较:与其他图像到视频生成方法相比,PhysGen能够模拟涉及物体间相互作用和物体与场景相互作用的复杂物理过程。生成的视频在物理合理性和照片真实性方面表现出色。

图3:渲染视频比较。展示一个玩具版的储蓄罐。左图显示输入帧,其余3个是未来帧的生成。组合后的储蓄罐没有意识到光的变化。重新合成的输出在下方没有阴影。来自扩散模型的渲染输出最接近真实。

人类评估:通过人类评估,PhysGen在物理真实性和照片真实性方面均排名第一。平均得分分别为物理真实性4.14和照片真实性3.86,均落在同一水平。

图5:人类评估得分分布。得分的分布显示本文方法在物理现实感和照片现实感方面都大大优于其他I2V**生成模型**。平均率接近于两个声明的一致性。

定量评估:使用Fréchet Inception Distance (FID) 和 Motion-FID 对生成的视频进行评估。PhysGen在两项指标上均表现出色,FID为105.70,Motion-FID为30.20。

感知评估:在10张复杂开放世界图像上进行感知评估,精度为0.93,召回率为0.82,IoU为0.5。

图7:开放世界可移动物体分割的精确度-召回率曲线。本文提出的流程在0.5 IoU下实现了0.93的精确度和0.82的召回率。

提炼关键问题

问题1:PhysGen的图像理解模块是如何利用大型视觉基础模型来推断图像中的物体组成和物理参数的?

PhysGen的图像理解模块通过以下步骤利用大型视觉基础模型来推断图像中的物体组成和物理参数:

  1. 物体识别和分割:使用GPT-4V识别图像中的所有物体类别,并将其发送到Grounded-SAM进行实例分割。Grounded-SAM能够检测和分割每个实例级物体,并将前景物体发送到物理模拟模块。
  2. 物理属性推理:通过GPT-4V直接推理物体的物理属性,如质量、弹性和摩擦系数。具体方法是向GPT-4V提供一个包含物体掩码的输入图像,GPT-4V返回每个查询属性的定量度量。
  3. 几何原始形体的拟合将每个物体的分割掩码转换为向量化的形状原始形体,选择最适合其分割的原始形体类型(圆形或一般多边形),并进行相应的拟合。
  4. 图像分解:使用内在分解模型推断每个物体的反照率、法向量和背景场景光照,以补偿物体运动引起的阴影变化。

问题2:PhysGen的图像空间动力学模拟模块如何处理物体间的相互作用和碰撞?

刚体运动动力学:每个物体的状态由其2D姿态和质心处的速度表示,位置包括平移和旋转,速度包括线速度和角速度。刚体运动的动力学由以下公式描述:

其中,F 是力,τ 是力矩,M 是物体的质量,I(t) 是世界坐标系下的旋转惯量矩阵。外部力和力矩:考虑初始的外部力和力矩(如重力、摩擦和弹性),以及物体表面与环境之间的相互作用。碰撞检测:在每个时间步长进行碰撞检测,碰撞会导致从质心施加的偏移力,产生力矩并使物体旋转。碰撞反应中,能量和动量的变化最小化,以遵循牛顿守恒定律。

问题3:PhysGen的生成视频渲染模块如何确保生成的视频在时间和视觉上的一致性?

图像变换和合成:给定物体的状态,通过仿射变换将前景场景与静态修复的背景场景合成初始视频。前景场景通过从输入图像到未来帧的前向变形进行渲染。

重光照:重光照模块模拟物体运动引起的阴影变化,确保光照物理的合理性。具体方法是使用Lambertian着色模型对前景物体进行重新着色。

生成视频编辑:结合运动引导和输入图像,提出了一种新颖的基于生成视频扩散的渲染器,输出最终的真实视频。在去噪过程中,确保前景物体与引导视频尽可能一致,同时在背景中合成新内容(如阴影)。

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

AIGCmagic社区共建邀请函!

开源实操 | DiffIR2VR-Zero:模糊视频8K高清修复技术

太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音

变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!

UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员

MOFA-Video:图像到视频的可控生成框架,可本地一键部署

AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践

「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)

AIGC |「视频生成」系列之Vidu:国内首个可媲美Sora的视频生成模型

AIGC |「视频生成」系列之ID-Animator:可保持角色一致生成视频动画


魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章