本文是VCC张锴熠同学对论文 Mahalanobis Distance-based Multi-view Optimal Transport for Multi-view Crowd Localization 的解读,该工作来自深圳大学可视计算研究中心、香港城市大学以及光明实验室联合研究课题组,已被计算机视觉顶级会议ECCV 2024收录,并已申请发明专利。
https://vcc.tech/research/2024/MVOT 该工作提出了一种基于多视角最优传输的多视角人群定位方法,借助马氏距离充分建模了相机视角图像向地平面投影造成的畸变的几何特征。 该方法可在后续诸如人群追踪,自动驾驶等应用中发挥更大作用。 多视角人群定位[1,2]被提出用于预测人们在现场地面上的位置,可用于人群分析、自动驾驶、公共交通管理等应用。其通过特征提取和每个相机的投影来融合多相机信息,投影后摄像机视图变成一个公共地平面,然后进行多视图融合和解码。目前的方法主要依赖于固定大小的高斯核密度图作为监督训练多视角人群定位模型。然而,这些方法在人群拥挤地区存在局限性,因为高斯模糊核会导致密度峰值不够明确,从而限制定位性能。在单视角人群定位任务中,为了缓解高斯密度图监督带来的问题,有研究者提出了基于最优传输(OT)的点监督方法[3],与使用高斯密度图训练的方法相比,该方法在定位性能上取得了显著的进步。OT损失函数直接使用点注释作为监督,生成更紧凑的密度图。然而,点监督的多视角人群定位方法尚未被探索。
本次导读论文探索了用点监督进行多视角人群定位的方法,提出了一种新的基于马氏距离的多视角最优传输(M-MVOT)损失。在M-MVOT损失中,传输代价是用马氏距离来定义的,该距离根据真实人群坐标点与相机之间的射线方向以及到相机的距离来调整代价矩阵。具体来说,马氏距离定义了真实人群标注点的代价函数的椭圆等高线,其中椭圆的长轴和短轴由相机的射线方向和轴线引导范围由点到相机的距离引导。多视图人群定位框架的投影步骤会在地平面上产生沿射线方向的特征条纹伪影,从而对目标造成畸变。因此我们通过马氏距离在沿射线方向以及远离相机区域给予更大惩罚,从而抵消这种畸变。同时,该文还提出了一种距离选择策略来实现多视角代价矩阵的融合,即对于每一个真实坐标点只选取最近的相机对应的代价矩阵参与计算。该策略有效降低了计算成本,有利于网络的训练直至收敛。
本工作主要贡献如下:
在本节中,首先回顾基于欧氏距离的(E-OT)的单幅图像人群定位的最优传输损失。然后推导出马氏距离最优传输损失,其中代价矩阵可以由每个真实人群坐标位置射线方向(MV-OT)或每个位置到相机的距离(ED-OT)引导,或者两者兼有(M-OT)。最后,通过计算每个预测点在最近的相机视角下的最优传输成本,将所提出的M-OT损失由单视角推广到多视角,记为M-MVOT。 其中C为传输代价矩阵,P为传输计划矩阵,a为预测的占据概率图,b真实值。公式的第一项描述了从预测值的概率分布传输到真实值的概率分布所需要的总的花费,第二项为熵正则项,第三项和第四项分别用于保证每一个预测值都有对应的真实值以及每一个真实值都有对应的预测值。C的具体表达式为指数化欧氏距离: 使用马氏距离使得在其定义的椭圆等高线中,其中某些方向将比其他方向产生更大的成本。这里希望设置椭圆形状来抵消投影步骤引入的误差和条纹伪影。具体来说,沿着相机的射线方向为短轴,垂直于射线方向为长轴。这样可以给予沿着射线方向的预测错误更大的惩罚。具体来说,首先计算每个真实坐标点的协方差矩阵:
其中R是旋转矩阵,Σ是方差矩阵,其对角元素σ1和σ2分别对应沿着射线方向的标准差和垂直于射线方向的标准差。设置σ1<σ2, 于是沿着射线方向的预测错误会有更大的惩罚。最终代价矩阵C写成如下形式: 距离也会影响定位精度。通常离摄像机较远的点会有更大的预测错误,所以应该给予离摄像机较远的点的预测错误更大的惩罚。重写σ1和σ2如下: 为人群坐标点到相机的距离, 根据最大最小值归一化 将其归一化到0,1之间,α为调节因子。当 增大,σ1和σ2减小,产生更大的惩罚。 射线方向和距离引导的马氏距离最优传输 (M-OT) 同时考虑射线方向和到相机距离的影响,重写σ1和σ2如下式所示:当dcam增大,σ2增大,σ2与σ1的比值增大。即对于远离相机的坐标点,在其沿射线方向上的错误惩罚越多: 上面讨论了单视图的马氏距离最优传输(M-OT)。通过基于距离的选择策略,结合提出的马氏距离最优传输,进一步引入马氏距离多视角最优传输(M-MVOT)。其中,一个点的传输代价是使用最近相机的M-OT计算的, 定义如下:
为指示函数用于选取最近的相机。根据这一策略,可以将E-OT、MV-OT、ED-OT和M-OT扩展到多视角,分别表示为E-MVOT、MV-MVOT、ED-MVOT和M-MVOT。 首先将多视角图像送入一个共享权重的特征提取器,然后将各个视角的特征投影到地平面上进行特征融合后送入地平面解码器,输入人群的占据概率图。使用所提出的M-MVOT训练整个神经网络。
在CVCS[4], MultiviewX[2]和Wildtrack[6]三个数据集上的可视化结果,所提出的M-MVOT/E-MVOT在人群拥挤区域取得了比其他方法更好的定位效果,有效减少了投影造成的伪影。
MV-MVOT, ED-MVOT, M-MVOT在MultiviewX上的可视化结果对比,可以看到M-MVOT预测出了最准确的人群位置,证明了所提的方法的优势。
表1和表2分别展示了所提出的M-MVOT/E-MVOT在CVCS, MultiviewX以及Wildtrack这三个数据集上的定量结果(后两者数据规模较小)。可以看到M-MVOT在CVCS和MultiviewX上取得了最好的结果;在Wildtrack上取得了第二名,第一名是3DROM, 这可能是因为3DROM是一种数据增强方法,可以缓解模型在较小数据集上的过拟合问题
表2 MultiviewX与Wildtrack数据集结果 表3给出了不同变种MVOT在CVCS数据集上的消融实验结果,可以看到M-MVOT,相比于E-MVOT, MV-MVOT, ED-MVOT取得了最好的结果。
本文针对多视角人群,提出了一种新的基于马氏距离的多视角最优传输损失函数(M-MVOT)。 这是第一个基于点监督的多视角人群定位方法。从点监督训练损失函数方面推进了多视角人群定位任务的研究。所提出的损失函数将相机射线方向和人群到相机的距离建模成马氏距离代价矩阵,以减轻投影过程中产生的畸变,然后通过选取最近的摄像机下的代价矩阵实现多视角代价矩阵融合。实验验证了所提出的M-MVOT相比于其他方法具有出色的多视角人群定位性能。 Q: 点监督类方法对投影误差非常敏感,是否影响性能?
A: 会的,点监督方法确实对误差非常敏感,相比于MSE损失这是点监督的劣势。但是当人群密度特别高的时候,由于MSE存在峰值不明确的问题,点监督类方法依然会远远领先于MSE损失。
Q: 该方法是否可以应用于人群追踪?
A: 是可以的,只需要添加帧与帧之间的人群匹配模块。由于其在定位任务上性能出色,所以预期其在追踪上也会有很好的性能。
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 如何缓解点监督类方法对投影误差的敏感性?
-- End --
导 读 | 张锴熠
审 核 | 张琦
编 辑 | 申金
[1] Yunzhong Hou, Liang Zheng. Multiview detection with shadow transformer (and viewcoherent data augmentation). ACM International Conference on Multimedia (MM). 1673–1682, 2021.
[2] Yunzhong Hou, Liang Zheng, Stephen Gould. Multiview detection with feature perspective transformation. European Conference on Computer Vision (ECCV). 1–18, 2020.
[3] Zhiheng Ma, Xing Wei, Xiaopeng Hong, Hui Lin, Yunfeng Qiu, Yihong Gong. Learning to count via unbalanced optimal transport. AAAI Conference on Artificial Intelligence (AAAI). 2319–2327, 2021. [4] Zhang Qi, Lin Wei, Antoni B.Chan. Cross-view cross-scene multi-view crowd counting. Conference on Computer Vision and Pattern Recognition (CVPR). 557–567, 2021. [5] Tatjana Chavdarova, Pierre Baque, Stephane Bouquet, Andrii Maksai, Cijo Jose, Timur Bagautdinov, Louis Lettry, Pascal Fua, Luc Van Gool, and Francois Fleuret. Wildtrack: A multi-camera HD dataset for dense unscripted pedestrian detection. Conference on Computer Vision and Pattern Recognition (CVPR). 5030–5039, 2018.
Visual Computing Research Center ----------------------------------
中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析 等方面的科学研究。