ACM MM 2024 | 基于二维先验学习的三维人-物交互重建

创业 2024-09-20 08:22 北京

本文介绍我们组近期发表在ACM MM 2024的关于三维人-物交互重建的工作《Monocular Human-Object Reconstruction in the Wild》。本工作旨在从大规模的二维图片中学习三维环境中人和物体交互先验。本工作由汪婧雅教授指导完成。

论文题目：
Monocular Human-Object Reconstruction in the Wild
论文地址：
https://huochf.github.io/WildHOI/
代码链接：
https://github.com/huochf/WildH

一、摘要

人体与物体之间的交互以及理解人类如何在三维空间中与物体交互是计算机视觉中的一个重要课题。之前的研究从实验室环境中收集的数据集中学习这种先验知识，但由于领域的多样性，这些方法在实际场景中普遍存在泛化困难。

为克服这一限制，我们提出了一种二维监督方法，从野外的二维图像中学习三维人体-物体空间关系的先验知识。我们的方法利用基于归一化流模型的神经网络学习数据集中每张图像的人体-物体关键点布局和摄像机视角的先验分布。通过在后优化阶段应用该先验来微调人体和物体之间的相对姿态，我们在人体-物体重建任务上说明了从二维图像中学习到的先验的有效性。

为了在自然场景下的图片中验证我们的方法，我们从YouTube网站收集了WildHOI数据集，该数据集包含在现实场景中与8种物体的各种交互。我们在室内BEHAVE数据集和室外WildHOI数据集上进行了实验。结果表明，尽管我们只利用了二维布局信息，但我们的方法在BEHAVE数据集上几乎能与完全的三维监督方法相媲美，并且在自然场景图像的泛化性和交互多样性方面超越了之前的方法。

二、问题定义

单目人-物联合重建的目的在于从输入图片中恢复出人体和物体的三维信息，考虑到单目重建赛道中人和物体相互遮挡而引发的不确定性和歧义性，将这个问题建模为概率密度预测而不是单峰估计更为合适，因此该问题目标在于给出概率密度分布，为了从数据集中学习该分布，基于学习的方法需要每一幅图片中的三维标注，然而，由于获取三维标注的成本非常昂贵，难以大规模收集三维人-物交互数据集，尤其是在自然场景中。因此先前基于学习的方法受到训练数据集分布的限制，难以推广到多样性较高的自然场景中。

自然场景中人体-物体交互信息大多以2D图片或者视频的形式呈现，这些信息更容易从互联网获取。基于这一观察，我们提出了一种从大规模二维图片中学习三维人-物空间关系先验知识的方法。定义图片中的评分函数为

式中，是摄像机位姿，是在相机姿态下的透视投影函数，为相机姿态的分布。在上述定义中，三维信息被投射到不同的图像平面上，得到。的得分是通过综合不同视角下的二维信息分布得到的，它被视为原始概率密度分布的近似值。

该定义背后的动机在于，人与物体之间合理的 3D 空间排列从任何角度观察时都必须看起来相容，反之，人与物体之间 2D 投影布局的相容性意味着相应 3D 空间排列的合理性。在这样的定义下，目标变成学习的分布以近似原始概率密度。

三、基于归一化流的先验学习算法

使用归一化流模型来对建模，归一化流模型由归一化层（actnorm layer）、可逆线性层（invertible 1x1 convolution layer）和解耦层（affine coupling layer）堆叠形成，其训练的目标函数为最小化对应的负对数似然。

如下图所示，本文所提出的方法利用归一化流模型从大量自然场景图片中学习每个图像平面中人体和物体的二维学习的分布，该归一化流模型将来自高斯分布的样本转换成一种介于三维和二维的中间表示的概率密度分布，该中间表示结合了相机姿态和二维人体和物体在图片中的二维排布信息。为了训练该归一化流模型，收集大量来自互联网的图片，并根据每个视角下人和物体的二维排布信息来对这些图片聚类，使用聚类的结果最优化最大似然来训练该归一化模型。

四、基于二维先验的重建算法

考虑在给定物体形状模板的前提下，从单视角图片中重建人体和物体的任务，在该任务中，人体由SMPL模型中的形状参数和姿态参数表示，物体由形状模板的旋转矩阵、平移向量和尺度标量表示。和大多数方法类似，本文的重建方法采用了预测-优化两阶段的算法框架来从给定的图片中重构出参数。在第一阶段中使用预训练好的模型来预测并初始化人体和物体的位姿，之后使用迭代式的优化算法来微调人体和物体的位姿，优化的总目标损失函数为

上式中是SMPL的重投影损失，是物体的重投影损失，是人体和物体的正则损失，为人体和物体之间的接触面损失，为本文引入的二维先验损失其具体定义为

五、自然场景人-物交互数据集

为了能够在自然场景中验证本章所提出的算法，本文构建了WildHOI数据集。该数据集包含从YouTube网站上收集的包含各种自然场景中人-物交互的视频数据，该数据集的标注流程如下图所示。

WildHOI数据集包含了在现实世界场景中与8个物体类别的多种交互，每张图片都标注有边界框、蒙版、SMPL参数和人-物关键点。数据集按照4:1的比例划分成训练集和测试集，每个物体类别的训练集中大约包含30k-100k帧，数据集的具体统计数据见下表。

六、实验结果及分析

在室内BEHAVE数据集和三维监督的方法相比，如下表所示，即使在没有直接访问三维标注的前提下，本文所提出的方法达到了和三维监督的方法近乎相同的重建精度，这说明本文所提出的算法是一种有效的更加监督轻量化的算法。

在自然场景WildHOI数据集中，和无需三维标注的基于优化的算法PHOSA相对比，结果如下所示，本文所提出的方法在各项指标均由于PHOSA，特别是在物体的偏移误差上明显由于PHOSA，由于实验中，PHOSA和本文所提出算法均使用了相同的人体初始化和物体重投影损失，所以在SMPL的重建误差和物体的旋转误差上仅有轻微差异。本文所提出的方法的性能提升在于二维先验损失的引入，通过从大量二维图片中学习强先验知识，在物体的偏移误差上比PHOSA有着更好的表现。

定性分析

在下图中，将本文所提出的方法和PHOSA进行了定性对比。从定性结果可以看出，本文所提出的方法能够精确重建出人体和物体之间的空间关系，在不同场景中，尽管PHOSA的重建结果能够和图片很好的对齐，但是从侧面观察时，重建结果并不正确。而且我们的方法可以处理非接触交互类型，相反,依赖于接触面来约束人体和物体的相对位姿的PHOSA在非接触式交互的情况表现不佳。

但本文所提出的方法在一些例子表现不好，在下图中，展示了本文方法的一些失败样例。

七、总结

在本文中，探讨了如何从自然场景的二维图像中学习人和物体之间的空间关系的强先验。通过大量实验，展示了即使在不使用任何三维标注或者人体和物体之间三维空间关系的常识的前提下，本文所提出的方法可以在室内实验室场景下构建BEHAVE数据集和室外场景的WildHOI数据集上取得很好的结果。

然而，本文所提出的工作仍然存在一些局限性。首先，该方法假设物体的形状是已知的，只聚焦于学习人体和物体的三维空间关系先验。这在物体形状变化很大的真实场景中并不太实用。此外，该方法严重依赖于大量的二维标注数据，而大规模的二维图片数据集并不是容易获得或者这种监督方式并不适用于所有任务。最后，该方法学习的是实例级别的先验而不是类别级先验，这可能对影响到对未见或稀有物体的泛化能力。

来源：【知乎】https://zhuanlan.zhihu.com/p/718197160

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514011&idx=2&sn=737e8cf83a9eee861ce824a27de8556c

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

ACM MM 2024 | 基于二维先验学习的三维人-物交互重建

Talk预告｜南京理工大学陈翔：面向雨天场景的视觉重建算法与基准探索

ECCV 2024 | 具有语义的三维房屋线框生成

ICML 2024 | 直面CLIP内在缺陷，Meta提出全新latent对比预训练框架Llip

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉