MLPHand可以将计算复杂度降低90%,同时实现与现有最先进基线相当的重建精度
(映维网Nweon 2024年12月27日)多视图手网格重建是虚拟现实和增强现实应用中的一个关键任务,但同时是一个艰巨的挑战。尽管现有的多视图手部重建方法取得了显著的准确性,但它们通常会伴随着大量的计算负担,阻碍了实时推断。
针对这个问题,中国科学院,南方科技大学,穆罕默德·本·扎耶德人工智能大学,中国人民大学,以及马里兰大学团队提出了一种用于实时多视图单手重建的新方法MLPHand。
MLP Hand由两个主要模块组成:
基于MLP的轻量级Skeleton2Mesh模型,它可以有效地从手部骨骼中恢复手部网格
多视图几何特征融合预测模块,它可以利用多视图的详细几何信息增强Skeleton2Mesh模型。
实验表明,MLPHand可以将计算复杂度降低90%,同时实现与现有最先进基线相当的重建精度。
手部网格重建在虚拟现实和增强现实领域中占有重要地位。它是一个基础组件,不仅可以增强游戏体验沉浸感,而且可以支撑众多应用程序。
给定捕获的信号(例如图像/视频/点云)作为输入,先进的手部重建方法通常采用深度学习模型来同时预测手的形状和姿势。最终的目标是恢复一个详细的手网格。基于这一目标,单视图手部重建方法近年来取得了显著进展。但由于深度模糊和自遮挡,从单个图像中恢复三维结构是一个不适定问题。
为了克服相关限制,使用多视图图像重建对象已经成为一种备受关注的方法,而且这种策略已证明可在人体姿势和形状估计任务中提高准确性。不过,相关研究主要集中在全身姿势和形状重建,忽视了单手重建的具体挑战。
为了解决这一差距,业界提出了用于多视图单手重建的POEM,并取得了令人印象深刻的精度。然而,其复杂的交叉特征交互带来了巨大的计算需求,从而限制了其推理速度。
快速的推理时间在手部重建任务中至关重要,在评估重建方法的有效性时,效率和准确性同样重要。所以,一个关键的问题出现了:我们能否在不牺牲精度的情况下开发一种实时手部重建方法?
针对这个问题,中国科学院,南方科技大学,穆罕默德·本·扎耶德人工智能大学,中国人民大学,以及马里兰大学团队提出了MLPHand。
研究人员表示,这是第一个实时多视图手部重建方法。它包含实现实时推理的两个关键创新。首先,受MLP几何建模的进展的启发,他们提出了一个轻量级的Skeleton2Mesh模型。模型采用纯MLP架构并选择定制的三轴模型Per-Bone重建方案,所以网络非常简单,支持实时前向传播进行手部网格恢复。
然后,团队提出了另一种基于MLP的多视图几何特征融合预测模块,以提高Skeleton2Mesh模型的性能。模块将多视图手部相关的视觉特征注入到Skeleton2Mesh模型中,从而在不影响推理速度的情况下提高手部细节的预测。
通过这两个关键设计,MLPHand可以从多视图图像中准确地重建人手,同时保持实时性能,显示了其作为一种实用、高效的多视图手部重建解决方案的潜力。
为了证实MLPHand的有效性和效率,研究人员在三个广泛采用的数据集进行了大量的实验。
结果表明,MLPHand不仅实现了实时性能,在3090 GPU以71 FPS的速度运行,而且与最先进的方法相比,参数大小(75%)和计算成本(90%)都显著降低。同时,MLPHand保持与现有基线相当的性能精度水平。
相关论文:MLPHand: Real Time Multi-View 3D Hand Mesh Reconstruction via MLP Modeling
https://paper.nweon.com/16127
总的来说,团队介绍了一种实时多视图手部网格重建的新方法MLPHand。所述解决方案的主要目标是在不影响重构精度的前提下提高网络的推理速度。为了实现这一目标,他们精心设计了MLPHand中的两个关键组件:Skeleton2Mesh模型和多视图几何特征融合预测模块。
研究人员在三个广泛认可的多视图手部重建数据集进行了大量的实验来验证所提出的方法,而结果强调了MLPHand的有效性和效率,肯定了它作为实时多视图手部重建任务的实际解决方案的潜力。
---
原文链接:https://news.nweon.com/126715