NeurIPS 2024|观物取象,穷理尽性:从视觉观测中推理物理运动规律

科技   2024-11-07 22:01   广东  
↑ 点击蓝字 关注极市平台
作者丨52CV
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

本文提出了一种神经材质适配器(Neural Material Adaptor, NeuMA),旨在从视觉观测中推理物体材质对应的运动规律,即物体的内在动力学表示。NeuMA结合了数据驱动的校正和广泛接受的物理定律,以提高物理仿真的准确性和通用性,增强人工智能理解和预测动态场景的能力。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本文分享 NeurIPS 2024 论文NeuMA: Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics ,观物取象,穷理尽性:从视觉观测中推理物理运动规律。

  • 作者单位:上海交通大学,vivo
  • 论文链接:https://arxiv.org/pdf/2410.08257
  • 项目主页:https://xjay18.github.io/projects/neuma.html

物有千种,材质不一而致动态过程各异。我们提出了一种神经材质适配器(Neural Material Adaptor, NeuMA),以从视觉观测中推理得到物体材质对应的运动规律(即物体的内在动力学表示)。通过这种方式得到的动力学表示具有良好的泛化性,可以直接应用于具有不同几何形状的物体,在不同初始条件下生成物理逼真的4D内容。

NeuMA生成物理真实的动态可视化展示

1 研究背景

1.1 视觉动力学推断

《易经·说卦》有言:“穷理尽性,以至于命”。穷究世间万物蕴含的根本原理,进而把握事物禀赋的全部德性,是古今学者修养追求的目标。在人工智能快速发展的今天,如何赋予机器像人类一样“观察、理解和推理”物理世界的能力,成为了机器学习和认知科学领域的研究重点。

试想当我们看到一个物体从高处下坠,落地后弹起的场景时,我们能很容易地定性描述这一物体的基本动力学属性,比如初速度、材质构成等;并联想到具有相同材质、不同几何形状的物体下落后的动态。

这一认知能力通常被称为视觉动力学推断。为使人工智能系统也拥有这一能力,现有方法[1-2]采用的一般范式为:将可微物理仿真器与可微渲染器结合,利用视觉观测的像素监督信号梯度更新物理参数,以推断得到物体的基本动力学属性。

1.2 物理仿真器

根据物理仿真器的实现方式,相关工作可以大致分为黑盒方法[2-3]与白盒方法[1,4]。黑盒方法使用神经网络来实现物理仿真器,并通过数据驱动的方式更新神经网络参数以对动态转换进行建模。

白盒方法则使用传统的数值仿真方法(如物质点法MPM、有限元法FEM等)通过偏微分方程来建模物体的动态转换过程。这类方法通过反向传播像素误差到物体的物理参数(例如杨氏模量、泊松比)来推理物体的动力学属性。

两类方法各有千秋。得益于隐式表征,黑盒方法能更灵活地逼近不同视觉动态,其推理速度相较于数值仿真器也有明显优势

然而由于缺少显式的物理约束,黑盒方法容易违背公认的物理规律,泛化能力不足。

另一方面,白盒方法使用数值仿真器,利用偏微分方程作为动态转移约束,因此无需采集大量数据以建模动态转移过程,天然具有良好的泛化能力。然而,白盒方法所依赖的偏微分方程大多是由专家通过数值分析拟合出来的,可能与现实场景中物体的实际动态不完全一致

如何从视觉观测中准确地推断出物体的基本动力学属性,便是本研究的核心问题。

1.3 材质模型

材质模型(也称作本构模型)是连续介质力学中的一个基本概念。它描述了材质的力学特性,即应变与应力之间的关系。在动力学系统中,材质模型通过定义物体响应外力作用的方式,刻画了物体的内在运动规律

例如,为人熟知的胡克定律(F=ks)描述了弹性形变与弹性力之间的关系。在弹性动力学系统下,需要定义两种类型的材质模型,分别为弹性材质模型塑性材质模型

前者描述了应力与弹性形变梯度的关系,后者则定义了一个返回映射,将弹性形变梯度投影到塑性屈服约束上,以建模塑性形变。通过选择合适的材质模型,我们可以准确模拟物体在外力作用下的运动和形变,从而预测系统的动力学行为。

2 研究方案

为了解答本研究的核心问题, 我们提出了一种神经材质适配器(NeuMA)。如前所述, 物体的内在运动规律可以由材质模型来刻画。因此, 我们将视觉动力学推断具象为从视觉观测中推断物体的材质模型 , 并设计了一种残差适配范式: 。其中, 为专家设计的物理模型(例如Neo-hookean弹性模型、von Mises塑性模型等), 表示基于视觉观测优化的校正项。

这一范式具有两大优点。

1. 准确与灵活: 与白盒方法完全依赖于专家定义的物理模型( 不同, NeuMA能通过优化 来更好地推断物体的内在动力学,以与视觉观察结果保持一致;2. 泛化与可解释: 与黑盒方法完全忽略物理先验不同,NeuMA根据普遍接受的物理模型( )来拟合实际动力学,以确保物理约束得到遵守。

具体实现: 我们借鉴了可微物理仿真的最新进展,使用神经本构模型(Neural Constitutive Laws, NCLaw) [5]作为物理先验(即 )。为了保证对校正项 的修改不会破坏原有的物理先验,我们使用低秩适配(Low-rank adaptation, LoRA)技术建模

我们将神经材质适配器嵌入MPM中作为可微物理仿真器,并基于三维高斯泼溅(3DGS)提出以粒子空间位置为条件的Particle-GS作为可微渲染器。

Particle-GS根据仿真粒子的空间位置等物理状态同步驱动高斯核,以渲染得到物理真实的图像序列。Particle-GS作为仿真与渲染之间的桥梁,使得像素误差可以反向传播至材质模型,以更新校正项

如上图所示,本研究进行视觉动力学推断的过程主要分为三个阶段:初始状态获取,物理仿真,动态场景渲染。

在第一阶段,我们利用3DGS重建得到表示物体外观的高斯核,并使用多视角几何重建得到表面网格。我们在表面网格内部均匀采样仿真粒子以满足连续介质假设,保证物理仿真的真实性。此后,粒子高斯泼溅技术将根据粒子与高斯核间的Mahalanobis距离计算绑定关系。

在第二阶段,我们使用MPM进行物理仿真,通过辛欧拉(Symplectic Euler)法进行时间积分以更新仿真粒子的物理状态。

在第三阶段,我们根据更新后的粒子属性与第一阶段计算的粒子-高斯核绑定关系更新高斯核,并利用高斯泼溅渲染二维图像。具体细节请参考论文第三章节的内容。

3 实验结果

我们从视觉动力学推断、动态视频渲染、动力学泛化等方面入手,在合成数据以及真实数据上进行了大量的实验以验证NeuMA的性能。

3.1 动力学推断

从上图中可以看出,对于不同材质,NeuMA均能够根据视觉观测纠正专家模型(即先验)的偏差,以推理得到符合实际的物体动态。

进一步地,我们还探究了两个相关问题。

  1. 仅依赖视觉观测来进行动力学推断是否可靠?
  2. 所提出的Particle-GS是否有效地将仿真与渲染联系起来,以使视觉监督可以用来优化物理材质属性?

对比上表中NeuMA与NeuMA w/ P.S.(即使用实际粒子的位置信息作为监督而舍弃可微渲染器的变体)的结果,可以发现使用视觉监督在一些实验中能取得比使用3D粒子监督更好的效果。这是一个非常关键的结果,说明了NeuMA的推理能力可以与人类纯粹从视觉观测来估计物体动态的常识相匹配

我们认为取得这一结果有两方面的原因。(1)得益于本研究设计的残差适配范式,NeuMA在推理物理规律的过程中既保留了专家模型的物理先验,同时能通过微调校正项来匹配实际的物体动态;(2)不同于现有研究[6,7]简单地采用一一映射来建模粒子与高斯核的关系,本研究所设计的Particle-GS考虑了粒子的空间位置信息,通过将多个邻近粒子绑定在一个高斯核上,NeuMA保证了在像素误差反传时,绑定在一个高斯核上的若干粒子获得相似的梯度,亦即享有相似的物理状态。这大大减小了训练阶段的自由度,有助于神经材质适配器的优化。

上表中NeuMA w/o Bind(即对粒子-高斯核绑定的消融实验)的结果也从数值实验上验证了本研究所设计的绑定方式的优越性。

我们也在Spring-Gaus[8]收集的真实数据上进行了实验,实验表明NeuMA可以处理真实场景下的动力学推断。

3.2 动力学插值

由于NeuMA使用LoRA技术来实现材质适配器,因此我们可以灵活地调整LoRA的权重,以得到在物理先验()与视觉观测所表达的动力学间光滑插值的结果。

3.3 动力学泛化

NeuMA能为两种物体应用不同的材质适配器以进行多物体交互的物理仿真。

此外,我们还分析了NeuMA应对质量分布不均物体、给定错误物理先验时动力学推断的能力。由于篇幅限制,更多实验结果与分析请参考论文第四章节与附录C的内容。

4 总结与展望

我们提出了神经材质适配器 (NeuMA),一种从视觉数据推断物体基本动力学属性的新框架。通过将数据驱动的校正与广泛接受的物理定律相结合,NeuMA 将白盒模型的可解释性与黑盒模型的适应性相结合。

在动力学推断、动态渲染及其泛化性的大量实验证明,NeuMA 提高了物理仿真的准确性和通用性,以及人工智能理解和预测动态场景的能力。

展望未来,我们希望NeuMA能作为一项先驱工作帮助研究人员从视觉数据中发现新的材质定律,并通过融合多个材质适配器创造新的材质定律,为AI for design、AI for physics的发展贡献力量。

参考文献

[1] PAC-NeRF: Physics augmented continuum neural radiance fields for geometry-agnostic system identification. ICLR, 2022.
[2] 3D-IntPhys: Towards more generalized 3D-grounded visual intuitive physics under challenging scenes. NeurIPS, 2023.
[3] NeuroFluid: Fluid dynamics grounding with particle-driven neural radiance fields. ICML, 2022.
[4] gradSim: Differentiable simulation for system identification and visuomotor control. ICLR, 2021.
[5] Learning neural constitutive laws from motion observations for generalizable PDE dynamics. ICML, 2023.
[6] PhysGaussian: Physics-integrated 3D gaussians for generative dynamics. CVPR, 2024.
[7] PhysDreamer: Physics-based interaction with 3D objects via video generation. ECCV, 2024.
[8] Reconstruction and simulation of elastic objects with spring-mass 3D Gaussians. ECCV, 2024.


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
 最新文章