ECCV 2024 | 基于马氏距离多视角最优传输的多视角人群定位

文摘科技 2024-09-12 20:00 广东

‍导读

本文是VCC张锴熠同学对论文 Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization 的解读，该工作来自深圳大学可视计算研究中心、香港城市大学以及光明实验室联合研究课题组，已被计算机视觉顶级会议ECCV 2024收录，并已申请发明专利。

项目主页：

https://vcc.tech/research/2024/MVOT

该工作提出了一种基于多视角最优传输的多视角人群定位方法，借助马氏距离充分建模了相机视角图像向地平面投影造成的畸变的几何特征。该方法可在后续诸如人群追踪，自动驾驶等应用中发挥更大作用。

引言

多视角人群定位[1，2]被提出用于预测人们在现场地面上的位置，可用于人群分析、自动驾驶、公共交通管理等应用。其通过特征提取和每个相机的投影来融合多相机信息，投影后摄像机视图变成一个公共地平面，然后进行多视图融合和解码。目前的方法主要依赖于固定大小的高斯核密度图作为监督训练多视角人群定位模型。然而，这些方法在人群拥挤地区存在局限性，因为高斯模糊核会导致密度峰值不够明确，从而限制定位性能。在单视角人群定位任务中，为了缓解高斯密度图监督带来的问题，有研究者提出了基于最优传输(OT)的点监督方法[3]，与使用高斯密度图训练的方法相比，该方法在定位性能上取得了显著的进步。OT损失函数直接使用点注释作为监督，生成更紧凑的密度图。然而，点监督的多视角人群定位方法尚未被探索。

本次导读论文探索了用点监督进行多视角人群定位的方法，提出了一种新的基于马氏距离的多视角最优传输(M-MVOT)损失。在M-MVOT损失中，传输代价是用马氏距离来定义的，该距离根据真实人群坐标点与相机之间的射线方向以及到相机的距离来调整代价矩阵。具体来说，马氏距离定义了真实人群标注点的代价函数的椭圆等高线，其中椭圆的长轴和短轴由相机的射线方向和轴线引导范围由点到相机的距离引导。多视图人群定位框架的投影步骤会在地平面上产生沿射线方向的特征条纹伪影，从而对目标造成畸变。因此我们通过马氏距离在沿射线方向以及远离相机区域给予更大惩罚，从而抵消这种畸变。同时，该文还提出了一种距离选择策略来实现多视角代价矩阵的融合，即对于每一个真实坐标点只选取最近的相机对应的代价矩阵参与计算。该策略有效降低了计算成本，有利于网络的训练直至收敛。

技术贡献

本工作主要贡献如下：

首次将最优传输点监督方法应用于多视角人群定位；
提出了一个新的针对于多视角人群定位的最优传输损失函数M-MVOT；
实验表明所提出的M-MVOT损失函数在现有数据集上取得了最好的定位效果。

III

方法介绍

在本节中，首先回顾基于欧氏距离的(E-OT)的单幅图像人群定位的最优传输损失。然后推导出马氏距离最优传输损失，其中代价矩阵可以由每个真实人群坐标位置射线方向(MV-OT)或每个位置到相机的距离(ED-OT)引导，或者两者兼有(M-OT)。最后，通过计算每个预测点在最近的相机视角下的最优传输成本，将所提出的M-OT损失由单视角推广到多视角，记为M-MVOT。

欧氏距离最优传输

欧式距离最优传输定义为：

\mathcal{L}_{C}^{\tau} = \min_{\mathbf{P} \in \mathbb{R}_{+}^{n \times m}} \langle \mathbf{C}, \mathbf{P} \rangle - \epsilon \sum_{ij} P_{ij} \log P_{ij} + \tau \| \mathbf{P} \mathbf{1}_{m} - \mathbf{a} \|_{2}^{2} + \tau \| \mathbf{P}^{T} \mathbf{1}_{n} - \mathbf{b} \|_{1}

其中C为传输代价矩阵，P为传输计划矩阵，a为预测的占据概率图，b真实值。公式的第一项描述了从预测值的概率分布传输到真实值的概率分布所需要的总的花费，第二项为熵正则项，第三项和第四项分别用于保证每一个预测值都有对应的真实值以及每一个真实值都有对应的预测值。C的具体表达式为指数化欧氏距离：

$C_{ij} = c(\mathbf{x}_i, \mathbf{y}_j) = \exp(\|\mathbf{x}_i - \mathbf{y}_j\|)$

射线方向引导的马氏距离最优传输 (MV-OT)

使用马氏距离使得在其定义的椭圆等高线中，其中某些方向将比其他方向产生更大的成本。这里希望设置椭圆形状来抵消投影步骤引入的误差和条纹伪影。具体来说，沿着相机的射线方向为短轴，垂直于射线方向为长轴。这样可以给予沿着射线方向的预测错误更大的惩罚。具体来说，首先计算每个真实坐标点的协方差矩阵:

$\ S = R\sum R^{-1},\quad\sum=\begin{bmatrix}\sigma_{1}^{2}&0\\0&\sigma_{2}^{2}\end{bmatrix},\quad R=\begin{bmatrix}\cos\beta&-\sin\beta\\\sin\beta&\cos\beta\end{bmatrix} \$

其中R是旋转矩阵，Σ是方差矩阵，其对角元素σ1和σ2分别对应沿着射线方向的标准差和垂直于射线方向的标准差。设置σ1<σ2, 于是沿着射线方向的预测错误会有更大的惩罚。最终代价矩阵C写成如下形式：

\ C_{ij}=c(x_i,y_j)=\exp\left(\sqrt{(x_i - y_j)^{T}S^{-1}(x_i - y_j)}\right) \

距离引导的马氏距离最优传输 (ED-OT)

距离也会影响定位精度。通常离摄像机较远的点会有更大的预测错误，所以应该给予离摄像机较远的点的预测错误更大的惩罚。重写σ1和σ2如下：

\sigma_{1}^{2}=\sigma_{2}^{2}=\frac{1}{\exp(\alpha\cdot\mathrm{MinMaxNorm}(d_{cam}))}

d_{cam}

为人群坐标点到相机的距离, 根据最大最小值归一化将其归一化到0，1之间，α为调节因子。当

d_{cam}

增大，σ1和σ2减小，产生更大的惩罚。

射线方向和距离引导的马氏距离最优传输 (M-OT)

同时考虑射线方向和到相机距离的影响，重写σ1和σ2如下式所示：当dcam增大，σ2增大，σ2与σ1的比值增大。即对于远离相机的坐标点，在其沿射线方向上的错误惩罚越多：

\sigma_{1}^{2}=1,\quad\sigma_{2}^{2}=\exp(\alpha\cdot\mathrm{MinMaxNorm}(d_{cam}))

图1 单相机地平面最优传输示意图

马氏距离的多视角最优传输 (M-MVOT)

上面讨论了单视图的马氏距离最优传输(M-OT)。通过基于距离的选择策略，结合提出的马氏距离最优传输，进一步引入马氏距离多视角最优传输(M-MVOT)。其中，一个点的传输代价是使用最近相机的M-OT计算的，定义如下：

$\ C_{ij}=\sum_{k = 1}^{K}\mathbb{1}(d_{cam}^{k})\exp\left(\sqrt{(x_{i}-y_{j})^{T}S_{k}^{-1}(x_{i}-y_{j})}\right) \$

其中：

\mathbb{1}(d_{cam}^{k})=\begin{cases}1, & d_{cam}^{k}=\min_{p\in\{1,\cdots,K\}}d_{cam}^{p}\\0, & \text{otherwise}.\end{cases}

为指示函数用于选取最近的相机。根据这一策略，可以将E-OT、MV-OT、ED-OT和M-OT扩展到多视角，分别表示为E-MVOT、MV-MVOT、ED-MVOT和M-MVOT。

图2 多相机地平面最优传输示意图

整体多视角人群定位架构图

首先将多视角图像送入一个共享权重的特征提取器，然后将各个视角的特征投影到地平面上进行特征融合后送入地平面解码器，输入人群的占据概率图。使用所提出的M-MVOT训练整个神经网络。

图3 网络框架示意图

部分结果展示

定性分析

在CVCS[4], MultiviewX[2]和Wildtrack[6]三个数据集上的可视化结果，所提出的M-MVOT/E-MVOT在人群拥挤区域取得了比其他方法更好的定位效果，有效减少了投影造成的伪影。

图4 不同方法结果对比图

MV-MVOT, ED-MVOT, M-MVOT在MultiviewX上的可视化结果对比，可以看到M-MVOT预测出了最准确的人群位置，证明了所提的方法的优势。

图5 不同变种MVOT对比图

定量分析

表1和表2分别展示了所提出的M-MVOT/E-MVOT在CVCS, MultiviewX以及Wildtrack这三个数据集上的定量结果（后两者数据规模较小）。可以看到M-MVOT在CVCS和MultiviewX上取得了最好的结果；在Wildtrack上取得了第二名，第一名是3DROM, 这可能是因为3DROM是一种数据增强方法，可以缓解模型在较小数据集上的过拟合问题

。

表1 CVCS数据集结果

表2 MultiviewX与Wildtrack数据集结果

表3给出了不同变种MVOT在CVCS数据集上的消融实验结果，可以看到M-MVOT,相比于E-MVOT, MV-MVOT, ED-MVOT取得了最好的结果。

表3 不同变种MVOT消融实验结果

总结与展望

本文针对多视角人群，提出了一种新的基于马氏距离的多视角最优传输损失函数(M-MVOT)。

这是第一个基于点监督的多视角人群定位方法。从点监督训练损失函数方面推进了多视角人群定位任务的研究。所提出的损失函数将相机射线方向和人群到相机的距离建模成马氏距离代价矩阵，以减轻投影过程中产生的畸变，然后通过选取最近的摄像机下的代价矩阵实现多视角代价矩阵融合。实验验证了所提出的M-MVOT相比于其他方法具有出色的多视角人群定位性能。

思考与讨论

Q: 点监督类方法对投影误差非常敏感，是否影响性能？

A: 会的，点监督方法确实对误差非常敏感，相比于MSE损失这是点监督的劣势。但是当人群密度特别高的时候，由于MSE存在峰值不明确的问题，点监督类方法依然会远远领先于MSE损失。

Q: 该方法是否可以应用于人群追踪？

A: 是可以的，只需要添加帧与帧之间的人群匹配模块。由于其在定位任务上性能出色，所以预期其在追踪上也会有很好的性能。

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 如何缓解点监督类方法对投影误差的敏感性？

-- End --

导读 | 张锴熠

审核 | 张琦

编辑 | 申金

参考文献

[1] Yunzhong Hou, Liang Zheng. Multiview detection with shadow transformer (and viewcoherent data augmentation). ACM International Conference on Multimedia (MM). 1673–1682, 2021.

[2] Yunzhong Hou, Liang Zheng, Stephen Gould. Multiview detection with feature perspective transformation. European Conference on Computer Vision (ECCV). 1–18, 2020.

[3] Zhiheng Ma, Xing Wei, Xiaopeng Hong, Hui Lin, Yunfeng Qiu, Yihong Gong. Learning to count via unbalanced optimal transport. AAAI Conference on Artificial Intelligence (AAAI). 2319–2327, 2021.

[4] Zhang Qi, Lin Wei, Antoni B.Chan. Cross-view cross-scene multi-view crowd counting. Conference on Computer Vision and Pattern Recognition (CVPR). 557–567, 2021.

[5] Tatjana Chavdarova, Pierre Baque, Stephane Bouquet, Andrii Maksai, Cijo Jose, Timur Bagautdinov, Louis Lettry, Pascal Fua, Luc Van Gool, and Francois Fleuret. Wildtrack: A multi-camera HD dataset for dense unscripted pedestrian detection. Conference on Computer Vision and Pattern Recognition (CVPR). 5030–5039, 2018.

深圳大学可视计算研究中心

Visual Computing Research Center

----------------------------------

https://vcc.tech

中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础，致力促进多个学科的深入交叉与集成创新，重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫

转载及合作：szuvcc@gmail.com

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2NDI1OA==&mid=2247517218&idx=1&sn=bb11caa52b055ef8006ae70cba73a126

深圳大学可视计算研究中心

深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平，以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础，促进多个学科的深入交叉和集成创新。详见官网: vcc.tech

最新文章

研究方向分享 | 人工智能

论文一起读 | 通过单样本个性化分割一切模型

讲座 | 跨域无人系统协同控制与分布式观测

如何提高科研效率？常用科研工具分享

论文一起读 | CNS-Edit: 通过耦合神经形状优化进行3D形状编辑

Flux | 开源文生图大模型

论文一起读 | Point Transformer V3: 简化设计，实现更快、更强的三维点云处理模型

讲座 | 额外连边对网络化无人系统集群协同性能的调控机理研究

论文一起读 | PDF: 基于概率驱动框架的开放世界三维语义分割

论文一起读 | CWF: 在高质量网格简化中整合弱特征

论文一起读 | BrepGen: 一种具有结构化隐式几何的边界表示生成扩散模型

2024「论文一起读」年度评选

喜报｜VCC三位博士生入选奖励计划

论文一起读 | 面向具身交互的通用3D物体理解

深圳大学计算机与软件学院2025直博生招生细则

ECCV 2024 | 基于卷绕数的多边形网格重建

玉兔东升照人间，嫦娥歌吟入荔园

讲座 | 3D前沿技术

ECCV 2024 | 基于马氏距离多视角最优传输的多视角人群定位

论文一起读 | PaperToPlace: 将指令文档转化为空间化和上下文感知的混合现实体验

讲座 | Multimodal Enhanced 3D Perception and its Applications

2024年度VCC优秀志愿者表彰

讲座 | 情智兼备数字人与机器人关键技术初探

ECCV 2024 | 具有语义的三维房屋线框生成

论文一起读 | 无需特定调优的个性化文本到图像扩散模型动画化

ECAI 2024 | 可适应点云模型: 通过适应二维视觉模型进行三维点云分析

论文一起读 | 基于共享注意力的风格对齐图像生成

可视计算研究中心师生党支部｜EmoSet荣获2024年度CCF优秀图形开源数据集奖

可视计算研究中心师生党支部｜党建引领聚合力科研创新谱新篇

论文一起读 | PartSLIP: 通过预训练的视觉语言模型对三维点云进行小样本部件分割

讲座 | 三维场景的标签高效学习和细粒度感知

SIGGRAPH 2024 | 基于空间和表面对应场的交互迁移方法

讲座 | Dynamics of an SIR Model on Complex Networks

讲座 | 复杂网络的结构识别与优化算法

论文一起读 | 基于接触信息微调的Transformer实现人-物联合重建

SIGGRAPH 2024 | Split-and-Fit: 基于维诺划分的边界表示学习方法

论文一起读 | 三维扩散策略: 基于简单3D表征的广义视觉运动策略学习

可视计算研究中心师生党支部｜党建引领凝思想科研攻关展力量

可视计算研究中心师生党支部｜2024毕业生风采录

论文一起读 | DINOBot：基于视觉基础模型检索和对齐的机器人操控

讲座 | Vehicle Localization by Ground-to-Aerial Image Matching

讲座 | 大语言模型的推理能力探索

论文一起读 | MeshGPT: 基于仅解码器注意力模型的三角网格生成方法

论文一起读 | 用于零次肖像视角生成的可控扩散模型

SIGGRAPH 2024 | LGTM: 局部到全局的文本驱动的人体动作扩散模型

万物向阳，踏实生长 - 暨闫子豪博士后出站答辩

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉