用移动电话数据分析盗窃犯罪
摘要:
作者简介:
Li He, 西安交通大学人文社会科学学院
Antonio Páez, 麦克马斯特大学地理与地球科学学院
Jianmin Jiao, 西安交通大学人文社会科学学院
Ping An, 西安交通大学管理学院
Chuntian Lu, 西安交通大学人文社会科学学院Wen Mao, 西安交通大学人文社会科学学院
Dongping Long, 广州大学地理科学学院公共安全地理信息中心
文献来源:
He, L., Páez, A., Jiao, J., An, P., Lu, C., Mao, W., & Long, D. (2020). Ambient population and larceny-theft: A spatial analysis using mobile phone data. ISPRS International Journal of Geo-Information, 9(6), 342.
译者:
林泽正
本文第一作者:贺力
犯罪的空间分析中,居住在某地的人口通常被用来衡量面临风险的人口,这主要是因为数据的可得性。然而,越来越多的研究指出,居住人口无法准确捕捉到非居住人口及白天的人口模式。众所周知,不同类型的犯罪在很大程度上与不同的人口类型相关,许多财产犯罪对非居住人口等人口类型较为敏感。特别是盗窃犯罪,这类财产犯罪本质上是非居住性犯罪。为了更好地理解此类犯罪的空间变异,有必要根据人口的社会信息和日常活动特点精确量化风险人口。而风险不仅仅指面临受害风险的人群,还包括可能对他人带来风险的人群(即犯罪风险的人群),后者通常更难量化。在犯罪分析中未能识别这些人口可能导致误导和偏见的结果。
作为统计人口的替代方法,近期研究建议使用环境人口来量化风险人口。已经使用多种数据集来测量环境人口,包括橡树岭国家实验室的LandScan全球人口数据库、社交媒体数据和空间定位的移动电话数据。这些数据集在量化风险人口的规模、密度、分布和流动性方面表现出了实用性。人口的分布、行动和社交活动是城市结构的一部分。因此,城市布局与内嵌人类活动之间的互动提供了静态和动态的风险和机会。
从静态角度来看,建成环境和土地使用特征的分布反映了人们利用城市空间的方式。因此,各种城市结构的城市格局可以塑造人们的日常活动模式,并通过犯罪吸引源、产生源及抑制源形成不均衡的犯罪机会及受害风险。已知具有不同人口特征的人在日常惯例及社会活动上存在差异,进而在城市空间中形成不同的犯罪机会及受害风险的时空交集。匿名手机用户的详细人口统计和社会数据能更准确地测量风险人口。
鉴于此,本研究旨在探讨环境人口与盗窃犯罪之间的联系。本研究目标是识别影响区域级别盗窃犯罪的环境人口的人口和社会活动因素。我们也考虑了通过犯罪吸引源、产生源及抑制源测量的犯罪机会。此案研究的对象是中国陕西省西安市的盗窃犯罪。采用的方法如下:首先,检验犯罪的整体空间自相关性。其次,收集具有匿名用户信息的空间参照移动电话数据,这使得我们能够提取更准确的人口和社会活动指标来测量区域级别的犯罪风险。第三,收集兴趣点(POI)数据并将其分类为多种类型以量化犯罪吸引源、产生源及抑制源。第四,收集珞珈1号夜间光数据(Nighttime Light,下简作“夜光”)并开发指标来量化地区的社会经济地位。第五,我们将设计一个负二项回归模型来研究盗窃犯罪事件数量与手机用户的若干社会经济变量和犯罪机会变量之间的关系。本研究的结果有助于(1) 从环境人口和城市结构中识别静态和动态的盗窃犯罪相关性,并(2) 提供洞见,以指导犯罪减少倡议和犯罪预防资源的分配。
研究背景
犯罪分析中的环境人口
环境人口代表了城市人口的日间动态流动,被认为是理解城市犯罪更好的指标。环境人口需要涵盖昼夜人口,因为人们的日间活动很少局限于其居住地附近。环境人口面临的挑战在于,人口普查数据无法捕捉高时间分辨率的活动模式。旅行和活动调查更为合适,但其覆盖范围有限,且在许多地区并不存在。迄今为止,已经测试了几种数据集来生成环境人口,包括移动电话数据、公交和地铁智能卡数据、LandScan全球人口数据库、社交媒体位置数据和人流量数据。尽管这些数据提供了丰富的可能性来生成环境人口,但也存在局限性。例如,社交媒体数据可能包含较大的遗漏或错误。大部分智能卡数据只记录用户的上车地点和时间,缺乏下车信息,可能导致人口估算的偏差。
不同数据来源中,LandScan全球人口数据库数据被广泛使用。该数据集提供了对24小时平均环境人口的估算,空间分辨率大约为1公里×1公里。尽管数据是开放的并具有全球覆盖,研究表明,尽管使用了各种复杂的加权或缩放方法来提高精度,但数据在很大程度上仍受限于来自人口普查的人口计数数据。这可能使得全球人口估算因人口普查数据中的局限性而产生偏差,如欠发达地区估计的不可靠性,模糊的空间分辨率,甚至是资源贫乏地区缺乏当代数据。此外,犯罪热点研究一致表明,犯罪倾向于集中在微观地点。因此,1公里×1公里的空间分辨率可能会忽略细尺度的空间异质性。更重要的是,在城市尺度的犯罪分析中,这种空间分辨率不如移动电话数据精确。
移动电话数据在犯罪分析中的应用
理解城市人口的动态分布和移动可帮助改进对城市犯罪结构的理解,并制定犯罪预防计划。由于缺乏在合适的时间和空间尺度上系统收集稳定数据的方法,盗窃与环境人口之间的关系仍然模糊。通信工具,如移动电话,生成的数据为探索人类流动和社会行为的空间模式提供了宝贵机会。移动电话数据具有很高的普及率、广泛的空间覆盖和时间连续性。研究始终显示了其在高时空分辨率下量化环境人口的效用。例如,使用空间参照的移动电话数据的实证研究发现,城市空间中的人类流动展现出时空规律性。这样的规律性似乎也适用于罪犯。
鉴于此,文献表明移动电话数据可以更准确地描绘城市的时空维度,更适合犯罪分析。从移动电话数据生成的环境人口被称为“移动普查”数据,在可获得时,可以替代传统的居住人口普查数据用于犯罪分析。然而,大多数移动电话数据的一个限制是富有人口统计和社会特征的信息被移除以确保隐私。由于难以获得移动电话用户的属性数据,目前的研究主要集中在量化环境人口的规模、密度和空间移动等方面。极少有研究检验环境人口的多维人口统计和社会特征对犯罪的影响。这是现存研究的空白,因为即便是简单的环境人口测量,如人口计数,也难以获得,更遑论其他富有的信息如人口统计和社会活动特征。
日常活动理论(Routine Activity Theory)
我们的研究基于环境犯罪学的两个在多种情况下相互支持的支柱理论:日常活动理论和犯罪模式理论,需要结合使用以理解许多环境下的犯罪事件。日常活动理论认为,犯罪发生于动机强的犯罪者、合适的目标和保护能力缺失的环境相交汇处。它着重于“地点”在犯罪遏制或推动中的作用。一项研究表明了日常活动理论最重要的贡献,即犯罪活动不仅受到犯罪者和目标数量以及警卫力量缺失的影响,最重要的是受影响它们在时空上交汇的“因素”的影响。因此工作、学校、娱乐区或购物区有可能成为高犯罪地点。基于这一论点,大量研究探讨了犯罪机会与城市设计、城市建筑的特定特征和物理环境的微观特征之间的关系。
近期研究指出,日常活动理论的元素也可以通过区域级别变量来测量,如邻里和街区群体变量。例如,研究使用人口普查分区级别的变量来衡量动机强的犯罪者、合适的目标和守护者缺失的平均水平。他们发现这些变量可以显著捕捉犯罪的空间变异。研究还指出,邻里级别人口日常活动的时空特征可以影响犯罪者的空间决策。
犯罪模式理论(Crime Pattern Theory)
犯罪模式理论通过结合日常活动理论和合理选择理论解释了犯罪事件的空间模式。具体来说,它认为特定功能的特定地点存在犯罪机会。为衡量这些地方的机会,研究建议使用犯罪吸引源、生成源和抑制源。犯罪活动受犯罪吸引源和生成源的驱动,但被抑制源抑制。生成源是对公众高度开放的地点,因此可能集中进行非犯罪活动的人群,而这种集中有可能将人们转变为犯罪受害者。因此,生成源对犯罪活动有间接影响。这些地方包括商业建筑、空置建筑、体育设施、公共交通节点以及骑车停车租赁设施。另一方面,犯罪吸引源直接提供偏行为和犯罪的某些机会。这些地方可能不吸引大量人群,但可能是动机强的犯罪者在没有足够保护下轻松寻找目标的合适地点。这些地方包括酒吧、娱乐区、卖淫区、毒品市场、安全措施差的大型购物中心和不安全的停车场。犯罪抑制源是可以阻止潜在犯罪者并抑制犯罪行为的地方。通常由有保安或者警卫的建筑提供保护,并对公众开放较少,如礼拜场所、墓地、警察局、工业工厂、绿地和大学。
大量研究已开始实证检验犯罪模式理论。例如,一项研究发现酒吧的存在与暴力犯罪的水平之间存在正相关关系。另外的研究发现商业活动和高密度住宅用地的密集分布与更高的犯罪有关,而墓地和工业用地的犯罪率较低。研究还表明,酒吧、酒店、餐饮服务和公园的规模与犯罪水平呈正相关。关于某些土地使用类型对犯罪的影响仍然存在争议。例如,虽然有研究将学校认定为犯罪生成源,但其他研究发现由于受到安保人员的监控保护,学校建筑可以抑制犯罪。这些问题需要在不同的城市环境中进一步研究。
正如犯罪模式理论的研究者所指出的,犯罪生成源、吸引源和抑制源可以在各种尺度上测量,比如地点、区域、社区,甚至是区级。类似于使用区域变量的日常活动元素,近期实证研究建议使用区域级别指数来量化邻里吸引源、生成源和抑制源。许多数据集已被用于捕捉这些因素,其中大多数是土地使用数据。最近,来自开源地图和其他数据提供商的兴趣点(POI)数据被广泛用作土地使用数据的代理。其快速的更新速率和详细的空间与属性信息使其在环境犯罪学文献中成为受欢迎的替代选择。
研究区域、数据与方法
本研究区域为中国陕西省西安市。2018年,西安是陕西省最大的城市和省会,同时也是中国13个新兴大城市之一。该市地跨东经107°39’至109°49’和北纬33°39’至34°45’,总面积10752平方公里,其中建成区700平方公里。西安市直接管辖11个区和两个县。2019年,西安的GDP为9321.2亿元人民币(约合1344.7亿美元),位居中国前20大城市之列,年增长率为10%。
犯罪数据
本次分析使用的数据为西安市在2018年11月1日至2019年11月1日期间的盗窃数据。这些数据来自西安市公安局,以预处理的数据形式提供,因缺乏点位犯罪数据,采用区域级别犯罪统计。该数据集共包含52,874条记录,字段包括犯罪类型、发生日期和执法机构等。
分析中所用的区域单位为派出所辖区(简称PCS),类似于警区。西安市共有187个PCS,平均面积为54.34平方公里。根据FBI的定义,盗窃是指在未使用武力或欺诈的情况下,非法占有、运走他人财产。我们的数据主要包括扒窃和抢包(78.23%)、电动自行车盗窃(13.88%)、商店行窃(4.82%)、自行车盗窃(1.12%)、摩托车盗窃(0.59%)、货物盗窃(0.20%)和家畜盗窃(0.09%)。在盗窃逮捕中,47.29%涉及低价值犯罪(1000-3000人民币);25.22%为5000到10000人民币的数额。研究显示,在该研究区域内,94%的盗窃嫌疑人为男性。一些女性在被捕时怀孕并被多次控告。他们利用刑事诉讼法,即怀孕女性可以申请保释等待审判,避免监禁。36.7%的嫌犯居住地为西安市本地,25.1%来自陕西省其他城市,21.1%来自新疆,剩余18.1%来自中国其他省份。嫌犯有明显的年龄特征:60%在36至69岁之间,25.2%在26至35岁之间,16.7%在18至25岁之间。值得注意的是,90.4%的罪犯有前科,63.4%为流动人口,89.4%失业,77.4%仅有初中及小学教育。而在受害者中,61.2%为女性,32.7%为老人,6.1%为年轻和中年男性。
尽管犯罪数据的可获得性决定了我们的分析区域单位,但考虑区域单位效应(Zone MAUP)仍很重要,因为不同的空间安排可能产生不同的结果。一个备选的空间单位是街道办事处辖区,但街道办事处主要负责社区服务及经济发展。派出所相对而言是中国警察组织的基本单位,全权负责当地犯罪控制和公共安全。因此,在不同派出所之间,犯罪预防策略和警力资源均不同,致使犯罪水平和特点表现出更显著的差异。正如Cabrera-Barona等人所指出的,为解决区域效应问题,空间单位应能够在单元内部最大化同质性及在单元间最大化异质性。因此,PCS是中国城市背景下空间犯罪分析中最常用的地理单位之一。
图1 西安市盗窃犯罪分布图
空间定位移动电话大数据
为了测量环境人口,我们使用来自中国邮电部下属研究机构的空间定位移动电话数据及匿名用户的人口统计和社会活动数据。这些数据覆盖中国三大国有电信运营商,因此完整覆盖了研究区域内的移动电话用户。数据集显示,西安市日均监测到的移动电话数据记录数至少为69亿条;每个移动电话用户平均每天有350条位置记录。
匿名化和聚合的移动电话用户信息和活动包括用户的历史位置、位置的时间戳、籍贯、性别、出生日期及通话记录。数据集能够生成环境人口变量,如特定区域的人口规模、本地及异地人口规模(即非西安市人口)、特定PCS区域的社会规律性(SR)及人口籍贯多样性指数(DINP)。社会规律性(SR)指在电话和短信方面表现出规律性社会活动的电话用户数量。通过计算每部手机每天打出和接收电话的次数(CT)及联系的人数(CU)、接收和发送短信的次数(ST)及联系的人数(SU)来识别异常用户。将异常用户的数量从该区域内所有手机用户总数中减去,以获得SR值。较低的SR值表示该区域内表现出不规则社会行为的人口规模较大,可能导致偏离行为的增加。
鉴于处理海量数据的计算成本,本文采用2019年1月、4月、7月和10月四个月的数据进行分析。数据集中显示每306m×306m网格的每日移动电话活动的每小时计数。四个月的平均值用于代表一年期的平均环境人口,随后在PCS级别进行聚合。这个过程帮助移动电话数据和犯罪数据之间保持时序的一致性,并考虑城市人口可能的季节性变化。
兴趣点(POI)数据
兴趣点(POI)数据提供了关于城市空间的附加信息。POI包括关于当地设施的信息,如POI名称或描述、经纬度、地址和城市。重要的是,从建筑环境的角度来看,POI数据描述了犯罪的不平等机会及情境性质。
基于前述理论视角,我们从高德地图(AutoNavi Holdings Ltd.)收集了2019年各种类型的POI。按照之前的研究,计算犯罪机会变量,包括网吧、台球室、公交站、地铁站、酒吧、棋牌室、浴池、KTV、便利店、超市、商场、餐馆以及工业厂房和公共安全机构如派出所、检察院和法院等。所有变量均在PCS级别进行聚合,用于空间分析。我们假设所选POI描绘的城市布局表征了犯罪机会的时空变异性,这进一步影响潜在犯罪者对犯罪地点的选择决策及潜在目标被害风险。
珞珈1号夜光影像
夜光由气象卫星记录生成,越来越多地用在社会经济活动检验中。如对GDP、人口规模及城市土地使用等领域的估测上。如最近一项研究展示了夜光在量化“城市边缘区域”中的效度,城市边缘区域显著影响犯罪的空间模式。在我们的研究中,夜光是对区域社会经济状况的反应。PCS区域夜光的较高平均值指示较大的人口规模和较多的经济活动。我们从高分辨率地球观测系统湖北数据与应用网络收集了研究区域的夜光影像。影像日期为2019年3月3日。
珞珈1号的原始绝对辐亮度是浮点数据。为便于存储,对其进行放大、拉伸,并存储为INT32格式。标准影像需要进行辐射校准,以便图像数字编号(DN)值转换为辐亮度值,从而分析光亮度和差异。
探索性空间数据分析与负二项回归模型
本研究使用了探索性空间数据分析(ESDA),使用全球Moran's I检验在PCS级别上犯罪数据的空间自相关性。社会科学变量因地理组织方式通常呈现空间上正向自相关性,因而在本研究中首先需要探查变量之间的空间自相关存在性。Moran's I是由Moran引入的最受欢迎的空间自相关度量。作为因变量,盗窃的计数是非负的、正偏和方差大于均值。为测量可能的过度离散,采用负二项回归模型。回归分析所用的相关变量均基于日常活动理论和犯罪模式理论选择。
研究讨论和结论
主要发现
通过新数据源,我们引入了以社会活动规律性(SR)来量化环境人口的新方法。因为人们的移动社交活动(如电话和短信)与他们在物理空间中的日常活动密切相关。研究显示,在一个PCS区域中,较低的SR值意味着更多表现出不规律社会活动的人口,可能导致更高的受害风险或偏离行为。社交规律性与外来人口的比例呈负相关(-0.406),表明外来人口较多的社区通常有更多可能犯罪的个体。
其他关键发现
本分析的其他关键发现如下。与以往研究一致,所有显著的犯罪吸引因素、生成因素和抑制因素变量均符合预期标志。第一,娱乐场所增加了地区犯罪机会,这与先前研究一致。网吧和台球室被视为犯罪吸引者,因为其潜在吸引的闲散人员。在中国,这些地方常是几个犯罪行为的温床,如扒窃、帮派犯罪、攻击及毒品犯罪。一方面,被这些地方吸引的人可能患有网络成瘾等问题。另一方面,在此类场所的重大经济成本往往推动人们通过非法手段追求快速经济收益。对于富有犯罪吸引因素和生成器的区域,优化土地使用和改良建筑环境以吸引更多人的关注并减少犯罪机会至关重要。更多的混合用途可吸引更多人流,促进非正式社会控制。大量文献表明混合商业和住宅土地使用地区的犯罪水平较低。在这一过程中,需考虑环境人口的特征,据分析发现,混合土地使用的犯罪减少效果通常依赖于社会人口特征。
第二,公交车站和地铁站的存在导致偷窃概率增加这一事实,确认了交通节点的犯罪生成效应。根据日常活动理论,大量手机、包和私人财物的偷窃发生在交通站,因为它们能够吸引大量缺乏犯罪预防意识的人群。犯罪分子偏好在靠近交通节点的社区进行盗窃,显然是因为这种社区能够通过公共交通轻松进出。交通节点对盗窃的吸引效应可达200米。
第三,犯罪抑制因素的负标志验证了工业厂房和公共安全机构对犯罪的抑制作用。这些地点由安保人员或闭路电视监控,通常不对公众开放。有保安或者警卫的建筑对犯罪的影响溢出效应约为50米。实证研究表明,增加有保安或者警卫的建筑可以在发展中社区中帮助减少高达7%的犯罪。
我们的结果证实了移动电话大数据在提供多个重要环境人口衡量的可靠估算方面的有效性,如外来人口和人口的社会规律性。由于缺乏高精度的手机用户属性信息和移动社交活动数据,以往研究主要关注环境人口的规模、密度和空间移动的测量。我们的研究揭示了环境人口的社会特征维度,丰富了对聚合社会行为与盗窃水平之间联系的理解。其次,我们的研究从犯罪模式理论的角度揭示了犯罪机会与盗窃之间的联系。
编译|林泽正
审核|康正炎
终审|王友
©Sociology理论志
点点“在看”给我一朵小黄花