TPAMI 2024 | 什么样的地方会成为异常之地？

科技 2024-11-06 14:01 广东

题目：What Makes Deviant Places?什么样的地方会成为异常之地？Jin-Hwi Park; Young-Jae Park; Ilyung Cheong; Junoh Lee; Young Eun Huh; Hae-Gon Jeon摘要

城市安全对居民生活质量和城市的可持续发展起着至关重要的作用。近年来，研究人员尝试应用机器学习技术来识别特定地点属性在城市安全发展中的作用。然而，现有研究主要依赖于有限的图像（例如，地图图像、单向或四向图像）来描述基于相对较大的地理单元的区域，并过于关注严重犯罪率，这限制了它们对城市安全的预测性能和影响。在这项工作中，我们提出了一种新的方法来预测包括正式异常犯罪（例如，谋杀）和非正式异常行为（例如，夜间喧闹的派对）在内的“异常”。为此，我们首先收集了一个大规模的地理标记数据集，包括七个大都市的事故报告数据，以及从Google Street View获取的事故现场周围的顺序图像。然后，我们设计了一个卷积神经网络，学习异常街道的空间-时间视觉属性。实验结果表明，我们的框架能够可靠地识别不同城市中的真实世界异常。此外，我们还分析了哪些视觉属性对社会科学研究以及神经网络中激活的特征图对于异常识别和严重程度估计很重要。

关键词

大规模地理标记数据集
社会人工智能
异常理论
地点识别

I. 引言

得益于数据驱动技术的强劲潜力，理解视觉属性使我们能够将跨学科视角应用于视觉感知任务。在跨学科研究领域中引起兴趣的一个方面是识别影响城市安全问题的因素。特别是，基于社会学和犯罪学理论，环境因素对犯罪行为有重要影响，描述特定地点属性在衡量城市安全中的作用是可行的[1]、[2]、[3]、[4]、[5]。

城市安全已被操作化为主观安全感感知或作为客观措施，如犯罪率报告。通过询问研究参与者对特定地区的危险性或安全性的判断来测量安全感的主观感知[6]、[7]。一个著名的预测主观安全感感知的模型是“深度学习城市”[1]，这是一个卷积神经网络（CNN），用Place Pulse 2.0数据集的街道图像和在线志愿者评分的成对比较数据来训练，以预测城市的感知安全性。然而，人类对安全的主观感知通常不准确，与实际犯罪率不匹配[8]、[9]。例如，[9]中的工作发现，人们认为有大量教育设施的地区更安全，即使这些地区实际上犯罪率更高。

使用客观安全措施作为预测结果的研究依赖于犯罪的行政记录，如犯罪统计数据。例如，[2]中的工作开发了一个CNN，该CNN使用英国邮政编码的犯罪剥夺指数数据，从街道图像预测每个英国邮政编码的犯罪剥夺。然而，这些人口普查数据中的大多数犯罪数据都是基于相对较大的地理单元，如邮政编码或地区级别，因此很难预测非常精确区域内的安全水平，如街道级别。此外，尽管城市安全不仅与严重犯罪（例如，谋杀）有关，还与简单的异常行为（例如，夜间喧闹的派对）有关，但现有研究主要关注犯罪数据，限制了它们对一般城市安全的影响。此外，它们依赖于地图数据、单向或四向图像，这可能无法充分覆盖每个地点的视觉外观，从而破坏了预测性能的准确性。

为了解决这些限制，我们创建了一个基于“异常”的大规模城市级地理标记图像数据库，这表明违反社会规范的异常事件，无论是正式的还是非正式的。我们的数据集包括七个大都市的客观特定点特定事故报告数据，以及从Google Street View获取的相应地点的顺序图像。这些顺序图像覆盖了整个街道，不仅限于个别视点，如图1所示。因为我们的数据集是第一个包含基于点特定事故报告的顺序图像的数据集，所以没有数据集可以直接与我们的比较。为了突出我们数据集的新颖性，我们在表I中比较了其属性与其他相关数据集，并在图2(a)中说明了事故报告的分布。

有了我们的数据集，我们设计了一个CNN框架，称为DevianceNet。DevianceNet能够从顺序图像中识别潜在的异常地点及其危险性。由于现有的视频理解模型，使用顺序图像不适合处理从Google Street View获得的图像帧之间的显著间隔，我们使用兴趣点匹配来找到可靠的对应关系[11]。此外，由于并非所有犯罪都同等严重，许多工作[12]、[13]、[14]、[15]对犯罪类型的严重性施加了不同的权重。受统计理论[16]的启发，我们提出了一种严重性感知损失，用于异常预测。使用DevianceNet和严重性感知损失，我们为各种地点获得了最先进的结果。特别是，我们的网络在韩国和美国七个不同的城市中始终表现出有希望的性能。此外，我们研究了仅在一个城市（首尔）训练的DevianceNet是否可以转移到其他城市，这表明与异常措施相关的视觉属性在城市之间的共享程度。此外，我们预测一个地方可能发生的不同类型的异常行为及其频率作为多标签分类问题。消融研究表明，这些技术贡献每个都导致了异常预测的可观改进。最后，我们进行了各种分析，以了解影响异常发生的视觉属性的作用。

这项研究是[17]的扩展版本，广泛研究了基于社会科学文献的视觉属性和所提出的损失函数对异常预测的影响。这项工作还通过利用现代架构和适应方法，就其普遍性和可转移性而言，提出了一个性能更好的模型。最后，我们构建了一个多标签数据集，以实现多标签异常分类，解决单个地点内各种异常类型的问题。

II. 相关工作

A. 街道环境元素与异常

异常理论[18]、[19]、[20]、[21]表明，街道环境在异常发生中起着至关重要的作用。例如，根据破碎的窗户理论[7]，街道环境的无序，如空置建筑、破碎的窗户和废弃的车辆，会促进进一步的暴力行为。因此，研究人员试图识别影响暴力行为的街道环境元素，以将它们用于城市设计和管理中，以防止异常行为（例如，通过环境设计预防犯罪（CPTED）研究[22]）。这些街道元素可以分为三个层次：街道网络、街道活动和街道设施[23]。

研究街道网络的研究表明，道路类型、长度（例如，主要动脉宽度30-45米或收集器街道宽度12-15米）和排列与住宅财产犯罪有关，如入室盗窃[19]、[24]、[25]。具体来说，[25]中的工作发现，通过道路的住宅入室盗窃率高于死胡同和封闭道路。关于街道活动的研究提出，街道界面的可见性以及行人和车辆在空间中的移动影响异常行为。他们发现人行道质量[26]、人行道上的障碍物[27]和人行道与道路比例[28]影响街道的感知安全性和步行能力。Ewing和Handy[29]使用天空视野比例来测量街道的步行能力，发现可步行的环境和适当的街道照明减少了异常的几率[28]、[30]、[31]。最后，关于街道沿线设施的研究[32]、[33]指出，日常商店、酒类商店和酒店与更多的异常行为（例如，更高的抢劫率）有关，而拥有高等教育机构的地区导致较少的异常行为。

这些发现已经证明了建筑、植被和车辆以及上述天空、道路和人行道在防止异常行为中的重要性。各种特征的建筑，如楼层数、外观和沿街建筑密度，与异常密切相关，因为它们不仅决定了街道活动，还决定了沿街设施[34]、[35]、[36]、[37]。例如，[35]发现建筑年龄与入室盗窃率之间存在正相关。大量文献表明，沿街的植被与较低的异常行为率显著相关，包括安全感知以及攻击、抢劫、入室盗窃、枪击犯罪，甚至在公共场合的骚扰或威胁[28]、[37]、[38]、[39]。与车辆有关的情况已被广泛研究作为异常目标，如机动车盗窃[40]、[41]、[42]或车祸[43]，而交通流量大或公交车站多的地区也自然创造了充满行人的街道[19]、[36]，影响异常行为。基于以往的发现，在本研究中，我们识别了预测异常行为的视觉街道元素。

关于测量街道环境元素的数据，以前的研究主要使用轴向或段图来检查街道网络，而单向或四向街道图像或观察性现场研究用于街道活动和街道设施。然而，地图数据是有限的，因为它无法捕捉到街道特定的属性，如建筑的外观和街道上的树木数量。观察性现场研究通常范围有限，涉及主观性[44]、[45]、[46]。街道图像在客观检测街道元素方面具有优势，但以前的研究主要依赖于单向或四向图像，这可能无法充分覆盖每个地点的视觉外观，因此无法取得良好的预测结果。在这项工作中，我们利用顺序图像提供来自不同视点的信息，覆盖整个街道，这增强了街道元素的检测。因此，我们可以在街道级别上获得独特的结果，而不是像图2(b)所示的区域级别。

B. 社会科学的计算机视觉

计算机视觉领域的许多研究使用社会学知识来预测特定地点的属性。Ordonez和Berg[45]提出了一个SVM分类器和一个线性回归模型，用单张图像预测人类感知。该模型在Place Pulse1.0数据集[10]上训练，该数据集包括街道级别的图像和相应的人类感知数据，如感知安全性。Naik等人[47]提出了StreetScore，一种支持向量回归，使用Place Pulse 1.0数据集的输入图像来计算感知安全性。Dubey等人[1]引入了Place Pulse 2.0数据集，该数据集包含来自56个城市的图像，这些图像被注释为六个类别（即，安全、生动、美丽、富裕、无聊和沮丧）。有了这个数据集，他们提出了一个CNN架构，使用排名损失来估计六个感知属性。Khosla等人[44]通过搜索使用四方向图像作为输入的场所来推断环境属性。Andersson等人[5]提出了一个四方向Siamese CNN，用于根据WikiCrime[48]的犯罪事件记录从四方向图像中分类给定位置是否危险。在[2]中，提出了一个序数分类模型（SEHNet），用于从街道视图图像中测量社会、环境和健康不平等。Fu等人[3]提出了一种基于CNN的偏好学习方法，用于从街道视图图像中推断犯罪排名。Najjar等人[4]引入了一个分类模型，使用卫星图像进行三元犯罪等级分类。Maharana等人[49]也利用卫星图像从实际犯罪、社会经济和人口数据中回归犯罪率。

C. 顺序图像的场景理解

如第II-B节所述，现有工作[1]、[2]、[5]受限于使用静态图像作为输入，导致对地点属性的表示不足。为了解决这个问题，我们使用顺序图像作为输入。众所周知，顺序图像提供了来自不同视点的更多信息，从而可以改善识别、分类和定位等视觉感知任务。[50]提出了一个深度视频分类，它结合了空间和时间识别流。每个空间和时间流使用单独的静态帧和堆叠的光流帧来编码视觉外观和运动信息。在结合了编码顺序信息的空间-时间模块[50]之后，提出了3D CNN，如C3D[51]、P3D[52]和I3D[53]。具有空间-时间3D卷积核的CNN通过在网络的所有层中传播视频的时间信息来充分利用视频组件。进一步，Tran等人[54]引入了一个（2+1）D卷积块，通过将每个3D卷积块分解为两个单独的连续操作：2D空间卷积和1D时间卷积。分解增加了网络中的非线性，因为它在2D和1D卷积块之间加倍了ReLU的数量。然而，上述方法主要关注动作识别，忽略了视频的全部内容。为了解决这个问题，Diba等人[55]提出了一个整体外观和时间网络（HATNet），通过融合2D和3D卷积块。融合可以利用3D和2D卷积块为静态线索以及对象、场景、属性和动作制作丰富的表示。

III. 提出的方法

在这项工作中，我们的目标是开发一个CNN，从街道的视觉属性中预测异常类别。为此，我们需要克服三个主要挑战：（1）实际犯罪发生与感知安全之间的巨大差距；（2）地点特定属性的表示；以及（3）考虑犯罪严重程度和全面信息，例如多标签和频率变化。

为了应对这些挑战，我们首先构建了一个大规模数据集，包括与实际犯罪报告相对应的顺序图像，使我们能够探索上下文级别的客观性和个体级别的特定表示。然后，我们构建了一个CNN模型，从顺序输入图像中预测异常类别。其次，我们提出了一个新颖的损失函数，以应对异常类别之间严重程度的差异，因为在现实世界中，暴力犯罪（如谋杀案）比民事投诉要严重得多。此外，为了进行细粒度的异常类别分类，我们构建了多标签异常类别信息，并标记了事件频率（即，低、中和高）。

通过我们的数据集和DevianceNet，我们专注于两个主要任务：异常识别和严重程度估计。识别任务的目标是检测序列图像中是否出现异常事件。该任务是二元分类，如RSS-CNN[1]。我们还执行5类分类任务，估计异常的严重程度。

A. 数据集构建

我们构建了一个新的大规模数据集，包括与实际犯罪报告相对应的顺序图像，以充分代表异常地点的视觉属性。异常数据集基于2018年韩国和美国官方事故报告数据。韩国的报告数据由国家警察厅提供，美国数据从芝加哥和纽约市的官方开放数据门户收集（NYC）。报告涵盖了包括暴力犯罪和民事投诉在内的许多不同类型的事件。基于这些报告，我们的数据集收集了来自韩国5个主要城市（首尔、釜山、仁川、大邱和大田）和美国2个主要城市（芝加哥和纽约市）的数据，按照以下步骤进行：

我们首先根据每个城市的事故报告的事故分类标准（例如，刑事分类代码和犯罪等级）将事故类型归类为四个类别。此外，我们增加了一个非异常类别，包括没有发生异常的地方。
然后我们为每个类别筛选出异常地点，这些地点在GPS级别频繁发生异常。为了避免模糊不清和类别不平衡，我们排除了少于五次出现的地点。为了进一步解释，我们报告了首尔的异常地点百分比，其中95%的地方少于五次出现。
根据选定的异常地点，我们获取每个异常地点周围的Google Street View图像。至少选择10个在50米半径内的GPS坐标来考虑整个邻里环境。覆盖范围的标准是，我们采用标准的城市环境和规划中的位置特定属性[56]、[57]。从选定的GPS坐标中，我们为每个GPS位置收集12个方向的图像。结果，每个异常地点至少有120张图像。我们将每个异常地点收集的图像按相同方向剪辑成片段。每个片段至少有10张，最多有16张顺序图像。

我们总共提取了2,250个异常地点，包括760,952张图像。训练和测试集的顺序图像片段数量分别为46,630和10,275。我们注意到测试集是训练集中未见过的地方。训练和测试数据通过异常地点的单位进行分离，具体细节在表III中报告。对于每个异常类别，选择了相同数量的异常地点，并且没有任何异常地点重叠。为了确保在识别任务中数据是平衡的，我们为每个异常类别随机选择了相同数量的异常地点和非异常地点的片段。此外，我们的数据集包括多个标签，以表示异常类别的频率。我们的数据集中的示例图像显示在图3中。

B. 框架架构

我们训练了一个空间-时间网络来学习从输入顺序图像中进行异常判断，这是一个扩展的犯罪概念，我们引入了一个线性组合的识别和严重程度估计损失，基于社会学[16]、[58]。

与异常概念和我们的数据集相伴随，我们设计了一个CNN，从顺序街道级别图像中推断不同类型的异常（图4）。虽然现有的工作主要处理暴力犯罪，只关注街道的一小部分，如涂鸦和破碎的窗户，但整体周围环境需要被考虑，以找到影响个体异常的视觉属性。因此，应该学习输入顺序图像的整体表示，以进行异常表示。

已经有几项关于视频理解的工作，主要关注场景中发生许多变化的小部分。相比之下，我们选择了整体外观和时间网络（HATNet）[55]作为我们架构的基线。HATNet通过在中间阶段合并2D和3D卷积块的输出来学习整体表示。2D卷积块捕获单个帧的静态线索，3D卷积块提取帧之间的相对时间信息。通过融合这些块的特征图，HATNet学习了空间-时间表示。然而，3D卷积块需要许多可学习参数，这导致了不稳定的训练和过拟合问题。为了解决这个问题，我们将每个3D卷积块分解为2D和1D卷积块[54]。尽管参数数量相同，但它在每个块的2D和1D卷积之间加倍了非线性激活的数量。这导致了可以单独表示的更复杂的数据结构，并使优化变得可行。

由于Google Street View的特性，我们的数据集在帧之间具有大的视点间隔，与常规视频相比。我们通过采用兴趣点匹配网络[59]来克服这个限制。我们从最近的工作[60]中借鉴了这个想法，该工作针对连续帧之间的场景一致性进行了处理，以进行视觉定位。特别是，兴趣点匹配网络为选定的点生成描述符和分数，然后与ResNet50的图像特征图进行连接。有了匹配的特征和描述符，DevianceNet使我们能够捕获具有大间隔的图像序列的时间连贯性。

C. 严重性感知损失与Heinrich权重

暴力犯罪和民事投诉在严重程度上有所不同；因此，考虑每个异常类别的严重性是必要的。我们设计了一个有效的损失函数，以增强从DevianceNet学习到的特征的区分能力。

所提出的损失函数是严重程度估计损失和识别损失的线性组合：

其中是一个比例因子，用于适当平衡异常严重程度估计的期望值和识别误差。在这项工作中，我们使用二元交叉熵作为识别损失，以确定场景中是否发生了异常。

严重程度估计损失被计算为反映异常类别之间的不同严重程度。我们定义相对偶然的异常类别，这些类别的事件较少严重，作为先前类别。例如，在类别2的情况下，先前类别表示比目标类别更不严重的类别（即，类别3、4和5）。为了将异常的严重程度纳入我们的损失函数，我们修改了交叉熵损失如下：

其中和分别是真实标签和预测。此外，和分别是最接近目标类别的先前类别的指示器和预测。是一个正则化项，它是先前类别的对数概率之和，带有一组标量值。也是一个平衡项，介于交叉熵和之间。

我们使用Heinrich定律[16]中的权重值。根据定律，对于每个造成重大伤害的事故，有29个造成轻微伤害的事故，以及300个未造成伤害的事故。该定律也适用于分析人为灾害，包括犯罪[58]。基于统计背景，我们设置了权重值（），（）和（），因为我们的数据集被分类为四个类别，不包括非异常类别。基于Heinrich定律的正则化项对不相关的类别施加了惩罚。

IV. 实验和结果

DevianceNet从四个不同的角度进行评估。首先，我们通过与最新的方法进行比较，并展示其普遍性，来证明DevianceNet的有效性。其次，我们通过在只有一个城市（首尔）的数据上训练并在其他城市进行验证，来展示其可转移性。最后，我们进行了额外的多标签异常分类和相应的类别频率估计实验。

我们遵循RSS-CNN[1]和SEHNet[2]的评估方式。我们使用视觉感知的定量措施：异常严重程度估计精度（SEA）、异常识别精度（DIA）和平均绝对误差（MAE）。SEA是正确预测异常类别的百分比。DIA表示给定图像是否被正确确定为异常地点的百分比。最后，MAE是异常类别之间的误差范围。我们计算GT和预测在严重程度分类方面的类别索引差异。例如，如果模型推断异常类别4，而其GT异常类别为1，则MAE为3。

我们还使用与现有模型不同的评估指标进行了额外实验，包括精确度、召回率和F1分数（F-measure）。对于多标签严重程度估计，使用了标准和广泛认可的多标签分类评估指标，对于3种方式（即高、中、低）的频率分类，使用了准确性。

A. 实施细节

我们使用公开可用的PyTorch框架训练我们的模型100 K次迭代，批量大小为32，ADAM优化器学习率为0.0001（β1 = 0.9，β2 = 0.999），使用两块NVIDIA RTX 3090，24 GB内存，大约需要8小时。一个顺序图像的推理时间大约为0.1秒。

我们使用了预训练的兴趣点匹配[11]权重，其点数和检测阈值分别为256和0.0005。2D和（2+1）D卷积块都使用ResNet 18层作为主干。

所有实验都使用16帧的图像序列进行。为了处理Google Street View图像的光学畸变，我们在训练和测试阶段将原始图像的中心部分裁剪为480×640，并将其下采样为224×224。我们设置了我们严重性感知损失中的λ1和λ2分别为0.5和0.15。此外，我们根据Heinrich定律的权重值设置了损失中的hi。

B. 与最新方法的比较

我们将DevianceNet与最新的方法进行比较，包括位置特定属性预测方法[1]、[2]，它们使用先进的主干（ResNet18和ResNet50）。与DevianceNet类似，它们的目标是从图像中表示地点的属性。RSS-CNN[1]和SEHNet[2]分别使用单个图像和每个地点的4个方向图像作为输入。此外，由于我们的数据集包含顺序图像，我们还将其与最新的视频理解模型进行比较，如RGB-I3D[53]、C3D[51]、ResNet3D[61]、多视图识别模型（即，LSTM、均值和连接）[62]、(2+1)D[54]和HATNet[55]。此外，我们将基于变换器的架构应用于视频处理到我们的DevianceNet中。我们在这里将我们DevianceNet的CNN部分替换为ViViT[63]和TimeSFormer[64]，它们专注于处理时空数据的自注意力机制。在这个实验中，我们除了基于变换器的方法外，其他方法都是从零开始训练的。我们注意到，由于我们数据集的固有特性，从零开始训练的基于变换器的架构的性能意外地低于CNN。对于基于变换器的架构，我们使用Kinetics-400预训练模型来减轻这个问题。结果在表V中报告。

我们的DevianceNet在所有措施上都提供了最佳性能。有趣的是，与位置特定属性的方法相比，视频理解方法的性能略有提高。然而，DevianceNet与视频理解方法之间存在巨大差距，即使对于顺序图像之间的大间隔进行了兴趣点匹配。DevianceNet从整个图像序列中提取的整体表示使其能够准确地分类和检测异常地点。基于变换器的方法由于其增强的能力，在捕获时空数据中的长期依赖性和复杂交互方面表现出色。

我们还比较了严重性感知损失与交叉熵损失。表V显示，严重性感知损失通常优于DevianceNet中的交叉熵损失。正则化项H强制最小化MAE，因为对相邻类别的预测被考虑在内。

C. 可转移性

遵循[2]，我们评估了仅在一个城市（韩国首尔）的数据上训练的DevianceNet对其他城市片段的预测能力。我们还在每个城市的小数据集上对预训练权重进行微调（5%、10%、30%和所有训练数据）。如图5所示，当每个城市的5%数据用于微调时，性能提升趋于平稳。我们注意到，对韩国城市的预测结果比美国城市更好，因为每个国家共享相似的视觉属性，这些属性影响基于视觉感知的异常预测。通过这次评估，可以明显看出，街道图像可以作为数据贫乏地区的低成本监控工具。

此外，我们在Place Pulse 2.0数据集上进行了实验。我们通过基于它们的地理标记数据将单个图像增强为顺序帧来修改数据集。然后我们将主观感知的安全性归类为5个异常类别。注意，我们在这个实验中将分类的感知安全性视为GT。结果在图6中报告。

最后，为了验证DevianceNet对发展中国家和最不发达国家的普遍性，这些国家不提供公开的事件记录数据，我们对三个不同大陆的九个城市的实际事件进行了异常严重程度估计。尽管根据城市的不同，视觉特征的多样性，DevianceNet在这些地区准确地预测了异常。此外，我们应用了测试时间适应（TTA）方法，已知其在处理有限数据集时的有效性。我们在这里采用TENT[65]，这是代表性的TTA之一，以增强模型的普遍性。得益于TENT，我们的网络在未见场景中做出了更准确的预测。

D. 多标签和频率

一个地点可以识别出多个异常类别是可能的。如表IV所示，我们的数据集中的许多地方显示出多于一种异常类别。因此，我们额外进行了多标签异常类别分类，并预测每个异常类别的发生频率。

为此，我们将数据集重新组织为多标签数据集，以便一个地方可以有多个异常类别。异常类别5，不包括任何异常行为，被排除在数据集之外。因此，对四个异常类别进行了多标签异常严重程度估计。相应地，我们将DevianceNet的最后一层全连接层修改为有4个输出单元。

我们还预测了每个异常类别的发生频率。由于暴力犯罪（如谋杀）与轻罪（如盗窃）相比相对罕见，因此应该对每个异常类别进行不同的处理。为此，我们进行了另一项实验，对每个异常类别的发生频率进行3种方式的分类，将每个异常类别的发生频率排名为高、中和低。我们根据报告的数量将数据集等分为基于发生频率的程度。频率预测也是在基于发生频率重新组织数据集后进行的。在这里，我们在DevianceNet的末尾添加了一个有3个节点的全连接层，用于频率分类。

结果在表VII中报告。有趣的是，结果显示了不同城市之间的预测性能略有不同。原因可能是由于历史背景或城市规划模式因城市而异，这可能影响街道视觉外观与异常之间的关系[66]、[67]、[68]。尽管如此，我们的模型能够进行多标签异常地点分类，表明某些视觉特征同时影响不同类型异常的发生（例如，建筑规模同时影响抢劫和攻击）[34]、[38]。在异常频率预测方面，社会科学[69]、[70]以前的研究基于带有异常频率信息的时间序列数据。得益于我们一年内收集的大规模数据集，我们的DevianceNet工作得很好。

E. 消融研究

我们进行了广泛的消融研究，以检查不同组件对DevianceNet性能的影响。结果总结在表V中。

兴趣点匹配：我们比较了使用和不使用SuperPoint[59]作为兴趣点匹配的DevianceNet。兴趣点匹配网络提取图像特征，并在顺序图像的兴趣点之间执行最近邻匹配。如表V所示，兴趣点匹配比通常用于视频理解任务的堆叠输入图像实现了性能提升。

为了更好地理解其有效性，我们可视化了两种变体（带和不带兴趣点匹配）的注意力图。如图8所示，带有兴趣点匹配的DevianceNet即使在Google Street View图像的视点变化显著时，也能始终关注到有区分性的部分，如建筑和摩天大楼。

(2+1)D卷积：在表V中，我们比较了在DevianceNet中使用(2+1)D卷积[54]与3D卷积。将3D卷积层分解为2D空间卷积和1D时间卷积，可以在与3D卷积相同数量的参数下，使网络能够表示更复杂的函数。结果证实了(2+1)D块对于从我们的顺序图像中学习空间-时间表示是更好的。

输入帧数：最后，我们找到了进行异常识别和严重程度估计所需的最佳帧数。由于连续两帧通常覆盖约6米，我们测试了输入顺序图像由4帧（25米）到24帧（150米）的DevianceNet。如表VI所示，使用16帧（100米）的DevianceNet比在更短和更长的帧上训练的模型实现了更优越的性能。

存在识别性能和计算复杂性之间的权衡，如[54]所述。尽管更多的帧提供了更多识别异常地点的信息，但随着复杂性的增加，学习区域的上下文信息变得困难，导致性能下降。

严重性感知损失权重：整个网络的损失函数是五个损失函数的加权和。我们分离了这些参数，因为一次性找到五个用户定义参数的最优集合几乎是不可能的。首先，我们通过参数扫描确定了λ1和λ2的最优值。我们将λ1的范围设置为[0.1, 1.5]，λ2的范围设置为[0.1, 0.2]。如表VIII所示，当λ1 = 0.5和λ2 = 0.15时，报告了最佳性能。此外，基于Heinrich定律，我们验证了一组权重hi的有效性。表IX显示了权重值变化对性能的影响。值得注意的是，使用Heinrich定律提高了异常识别和严重程度估计的性能。Heinrich定律中的权重值确实是关键因素，解释了异常类别之间的关系，从而实现了严重性感知损失。

V. 分析

作为许多社会学研究所讨论的[8]、[9]，由于感知安全与实际犯罪发生之间没有关系，人类很难识别哪些视觉属性导致异常。在本节中，我们检查了具有高注意力分数的对象的统计分布，以了解DevianceNet学会了什么。我们确定了对异常有贡献的视觉对象，这些对象在场景中频繁出现并且具有高注意力值。为此，我们执行了语义分割[71]以隐式表示视觉对象，并计算注意力以产生突出显示重要区域的定位图，使用Grad-CAM[72]。

A. 基于社会科学的有效对象分析

我们发现，在所有城市的关联分析和细粒度分析中，天空是预测异常区域的重要视觉属性之一。这很令人惊讶，因为计算机视觉研究对天空的关注太少，但它可能影响街道界面的可见性[29]。特别是，当天空被考虑时，它只被用作其他异常预测因子的代理，例如植被密度[74]和步行能力[29]。我们的发现为通过揭示天空的重要性来推进对异常理论的理解提供了重要机会。

道路和人行道在异常预测中也起着重要作用。一个有趣的发现是，道路比人行道有更高的注意力值。道路特别与图9中的类别1相关，并且是预测美国和韩国两地正式和非正式异常低频率位置的更好预测因子。我们还观察到建筑、植被和车辆是预测异常案例的基本视觉因素。也许反映了文献显示街道沿线的植被与有害犯罪（如攻击、抢劫和入室盗窃）显著相关的[28]、[37]、[38]、[39]，植被主要预测图9中的类别4和5的区域。

有趣的是，我们发现建筑和车辆在韩国比在美国更重要。另一方面，天空和植被在美国更为关键，特别是在图11中。主导对象略有不同，这可能是由于东西方城市之间的文化差异，以及不同的安全、基础设施和城市规划[66]、[75]。

B. 视觉对象的定性分析

我们提供了对象和异常的额外视觉分析。在图12(a)和(b)中，我们可以看到与类别3的地方相比，类别1的地点有非法道路标记和裂缝。这与Kruger及其同事的先前发现一致，他们证明了道路标志和损坏的道路与犯罪有关[76]。建筑是另一个有趣的元素，已知其与犯罪发生有关[77]。如图12(c)和(d)所示，根据建筑风格，异常类别有所不同。特别是，[78]中的工作表明，建筑设计影响犯罪预防。我们观察到，大多数类别4地点的建筑外观也是由玻璃块制成的。在图12(e)和(f)中，我们可以看到不同异常类别的树木大小和丰富程度不同。类别1的树木往往相对较矮，枝条细小，而类别3的树木往往更大，叶子丰富。

在图13(a)中，两幅图像都有道路和建筑，预测釜山的同一类别1的异常，但在高异常频率的地方，建筑的影响巨大，而在低异常频率的地方，道路的影响更为突出。图13(b)中的图像显示了首尔和芝加哥类别4异常的低频率地区。然而，车辆在首尔受到的关注度最高，而植被在芝加哥受到的关注度最高，表明不同文化中影响视觉属性的差异。

这些结果表明视觉属性与特定异常之间存在有意义的关系，如第V-A节所述，并由基于环境的各种异常理论描述[23]、[28]、[29]、[35]、[37]。此外，这种定性分析表明，所提出的分析方法可以作为解释和解释诱发异常行为的视觉特征的有价值工具。

C. 异常的视觉开放性分析

视觉对象的另一个重要作用是决定对视图的可见性——对行人水平可感知的可见空间量[79]。在本节中，我们调查了视觉开放性是否与异常行为有关系，如先前研究[28]、[30]、[31]、[80]、[81]所讨论的。例如，街道中的视觉开放性高可以遏制犯罪[80]，而隐蔽路径更易发生抢劫[81]。

为了量化视觉开放性，我们使用场景深度估计模型Depthformer[82]来获得与周围对象的相对距离。这在KITTI驾驶数据集[83]上以监督方式训练，涵盖了户外驾驶环境。有了DepthFormer的输出深度图，我们计算了每个城市的平均相对距离，如Fig. 14所示。

有趣的是，视觉开放性与异常类型之间的关系在韩国和美国城市之间有所不同。在韩国，视觉开放性受限的区域，如偏僻的小巷，表现出更高频率的正式异常（类别1和2）。相比之下，视野开阔的地区，如开放道路，有更多非正式异常（类别3和4），通常更安全（类别5）。另一方面，在美国，视觉开放性与异常类型之间的联系不那么明显，通常更安全（类别5）的区域视觉开放性更高。这些结果表明，视觉开放性对异常行为的影响可能因不同文化的城市结构而异。

D. 模型推理的Heinrich权重分析

根据(3)中描述的Heinrich权重，基于它们的统计背景，对无关类别（即，先前类别）施加了惩罚。为了验证Heinrich权重的有效性并支持其集成到我们的损失项中，我们使用(6)进行了分析，该分析量化了预测特定异常类别时与目标类别相关的注意力值。与计算单个对象的注意力分数不同，我们专注于评估目标类别与先前类别之间的“注意力相似性”。通过使用表示目标类别的注意力区域的掩码矩阵，我们能够获得给定类别的注意力相似性：

其中定义为：

根据表X，使用Heinrich权重训练的严重性感知损失产生了与目标类别更相似的注意力模式，而不是从交叉熵获得的模式。由于梯度更新了与目标类别和无关类别相关的模型参数，因此将Heinrich权重纳入我们的模型结果在更低的MAE中，从而增强了我们DevianceNet中的严重性感知。

VI. 讨论

在现实世界场景中的应用：我们的工作对政策制定者设计和规划城市以及公民访问不熟悉的地区具有重要意义。我们的发现表明，可以通过简单的街道视图图像而不是特定的GPS级别的犯罪记录来建立影响异常的因素的城市安全计划。我们的研究对于预测和预防发展中国家的异常行为特别有用，那里的人们依赖于通常基于较大地理单元提供的社会人口信息。我们的模型可以作为CPTED的有用工具，提供易于使用犯罪预测工具。

此外，公民在访问不熟悉的地方时可以使用DevianceNet识别潜在的风险。如图15所示，当访问者从起点前往目的地时，典型的路径查找应用程序（如Google Maps）会指引他们走最短的路径。然而，建议的路线可能因为高级别的异常预测而危险。在这种情况下，我们的DevianceNet可以作为替代路径查找器，引导安全的旅行路线。

异常理论与DevianceNet之间的关系：异常，包括暴力犯罪和违反社会规范的行为，是我们日常生活中的重要问题，因为它可能严重威胁城市安全。基于异常理论[18]、[19]、[20]、[21]，我们设计了DevianceNet，它从顺序图像及其相应的事件报告中学习街道环境的整体表示。根据现有研究表明，个体的异常行为与周围环境有关，我们发现街道环境的元素对于预测不同异常案例的区域是有用的。然而，我们的模型没有考虑异常理论中的所有因素，如行人运动或特定一天的时间[9]、[19]。我们期望将各种因素纳入CNN框架的设计中，以提高模型的性能。

伦理问题：我们的研究提出了一个用于社会公益的人工智能模型，增强了城市安全和公民生活质量。然而，可能存在一些潜在的伦理问题。首先，算法决策可能复制和放大偏见或刻板印象。最近的研究[84]、[85]、[86]表明，机器学习模型可能引入不希望的社会偏见（例如，性别偏见），这些偏见反映在数据集中。我们尝试通过使用客观的警察事件报告数据而不是人类主观判断的感知安全度量来最小化这个问题。

其次，由于我们的模型预测异常地点，它可能诱发偏见（例如，歧视），将某些地区与异常联系起来。例如，根据预测结果，人们可能会认为某些地区是危险的，避免访问并形成负面看法，而不管实际的异常发生。这被认为是大多数社会和计算机科学文献在预测地方异常时遇到的挑战。因此，需要对我们的模型进行更谨慎的监管和应用，以防止这种无意的歧视。

局限性：我们的模型对Google Street View图像中不常见的视觉外观（如黄昏、隧道和沿海道路）很敏感，如图16所示。预计在DevianceNet中有效整合领域适应[87]、[88]将最小化视觉外观的差异。此外，我们的数据集中的一个异常类别（例如，类别1）至少包括11种不同的事件类型（例如，谋杀、性侵犯），这使得很难根据具体类型解释预测的类别结果。然而，与大多数现有研究不同，这些研究主要关注暴力犯罪，我们的模型更全面地推断城市安全，如扰乱行为，我们期望我们的模型能够对更多具体的异常类型进行分类。

VII. 结论

在这项工作中，我们提出了一个新颖的框架来预测异常。我们收集了一个大规模的地理标记数据集，包括街道的顺序图像和相应的事件报告，并开发了一个CNN框架，DevianceNet，它识别和预测涉及正式异常犯罪和非正式异常行为的异常事件区域。此外，我们提出了基于Heinrich定律的严重性感知损失，与传统的交叉熵损失相比，在异常识别和严重程度估计方面表现更好。DevianceNet能够识别具有多个异常类别及其频率的地方。我们希望我们的模型能作为一个有效的工具，提高公民生活质量和城市可持续发展。

未来的工作，我们的目标是提高我们的DevianceNet的能力，通过纳入一系列额外的城市环境因素，如建筑规模、树木覆盖密度和道路宽度等度量因素——所有这些都与社会科学研究相关。我们相信，包括这些因素可以导致更复杂的模型。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

What Makes Deviant Places?

什么样的地方会成为异常之地？

Jin-Hwi Park; Young-Jae Park; Ilyung Cheong; Junoh Lee; Young Eun Huh; Hae-Gon Jeon

摘要

关键词

大规模地理标记数据集
社会人工智能
异常理论
地点识别