论文推介 | 社会科学比较研究的新资源:东亚的历史人口户籍面板大数据

学术   2024-10-05 20:00   湖北  

社会科学比较研究的新资源:东亚的历史人口户籍面板大数据

推介人:刘睿杰(北京大学光华管理学院社会研究中心博士研究生)

原文出处:Dong, H., Campbell, C., Kurosu, S., Yang, W., & Lee, J. Z. (2015). New sources for comparative social science: Historical population panel data from East Asia. Demography, 52(3), 1061-1088.

一、引言

比较研究是社会科学议题的核心之一,但通常对数据的可比性和方法的精确度要求严苛。本文基于比较社会科学的视角,系统梳理了近年来历史人口数据比较的发展过程,以及这些数据对发展社会科学比较研究尤其是比较家庭研究的重要贡献。在此基础上,本文着重介绍了五个东亚历史人口微观大数据库,包括中国多世代人口数据库-辽宁,1749-1909(CMGPD-LN);中国多世代人口数据库-双城,1866-1913(CMGPD-SC);日本人別改帳人口登记数据库-下守屋及仁井田,1716-1870(NAC-SN);韩国多世代人口数据库-丹城,1678-1888(KMGPD-TS);以及殖民时期台湾户籍登记数据库,1906-1945(CTHRD)。文章总结了这些微观数据库的人口特征和户籍登记制度的历史背景,介绍了基于家户亲属关系构建面板数据的技术过程,并深入探讨这些数据库在进行比较社会科学研究中的可靠性与应用潜力。该文章所介绍的东亚历史人口微观数据包含61万人口的近370万条记录,以其全面的人口事件、亲缘关系、以及社会经济信息,极大丰富我们对东亚地区历史上社会结构和人口行为的认识,为进行比较社会科学研究、探索社会科学领域的深度与广度提供了宝贵的资源和独特的视角。

二、数据比较与历史数据的发展

20世纪中期以来,社会科学领域的大规模跨国比较研究随着越来越详细和系统化的数据库一同逐渐兴起。1990年代Integrated Public Use Micro Series(IPUMS)[ 世界目前最大的、公开使用的普查微观个案样本数据库,其数据来自美国微观数据样本与国际普查数据。]和其他以西方社会背景与人口信息为基础的微观数据库的公开,以及高级统计方法的成熟,使得历史人口学作为比较社会科学中的独特分支受到学界关注。比较数据的发展与进步对学术界的贡献体现为引用文献数量的迅速增加。图1展示自20世纪中叶以来Google Scholar可搜索到的学术发表中提及这些历史人口数据库或项目的数量增长趋势。其中the Human Relations Area Files[ 第一个全球比较性项目,从1949年开始将关于人类行为、文化、社会等材料收集起来,供学术界使用,并于1994年提供在线版本。]和the Princeton European Fertility Project[ 最早的量化历史人口比较项目之一,从20世纪60年代开始收集整合社会和人口指数组成的中观层面信息。]在首次发布的60年与40年后,每五年仍有1000与100次引用;IPUMS存在了二十年左右,并仅包含美国历史与当代的普查数据,目前每五年引用次数将近2000次;与本文介绍的东亚数据最相关的是,用于描述家庭和个体的历史纵向微观数据也在较短时间内收获了每五年700次的新增引用。

图 1 在Google Scholar上涉及大型比较社会科学数据库的引用量

The Eurasian Project in Population and Family History (EAP Ⅰ)是使用家户层面微观数据进行比较历史人口学研究的代表项目,旨在通过家庭登记册中的微观面板数据探讨东西方的差异与融合。该项目试图通过对比欧洲与东亚地区的人口行为特征,从比较的视角对历史社会学既有理论提出挑战,但本文作者认为,该项目在进行东西方对比时存在局限性,尤其是EAP Ⅰ并未对东亚社会内部人口行为的相似与差异性进行具体探讨,对东亚社会内部理解的程度不足以支撑跨文化的比较研究。

因此,本文将介绍一个基于东亚地区历史人口户籍登记的新的国际比较研究合作项目“East Asian Project in Population and Family History (EAP Ⅱ)”,包括5个来自东亚不同地区的数据库。

三、东亚历史人口微观数据库介绍

1、概述

EAP Ⅱ项目包括中国多世代人口数据库-辽宁,1749-1909(CMGPD-LN);中国多世代人口数据库-双城,1866-1913(CMGPD-SC);日本人別改帳人口登记数据库-下守屋及仁井田,1716-1870(NAC-SN);韩国多世代人口数据库-丹城,1678-1888(KMGPD-TS);以及殖民时期台湾户籍登记数据库,1906-1945(CTHRD)。五个数据库分别来自东亚的五个不同地区,如图2所示。EAP Ⅱ 数据库提供了关于人口行为与家庭社会经济特征的详细信息,表1总结了每个数据库包含的要素。EAP Ⅱ包含随时间推移对个体重要人口事件如婚姻、生育、移民等信息的追踪性记录,形成了每个个体的生命史,这有助于探究社会的人口行为模式,以及相应的原因和后果。同时,数据库还记录了如职业、亲属关系、财产、居住地等细节信息,其中,CMGPD与KMGPD指明了与科举制度相关的头衔以测量个体教育水平,这使得我们可以构建起个体的动态亲缘网络与社会家庭背景。该五个数据库均已公开或半公开发布,可在公开数据平台上获取或向数据负责团队申请协商获取。

图 2 EAP Ⅱ数据库人口分布地图

表 1 EAPⅡ各数据库可用信息列表

2、户籍登记

EAP Ⅱ 数据库均为行政系统的户籍人口登记册转录。CMGPD-LN和CMGPD-SC分别来自中国辽宁省1749-1909年八旗人口登记,以及黑龙江双城县1866-1913年的八旗人口登记。该登记三年进行一次:(1)按人口的行政归属划分登记册,(2)登记册内部区分村庄、族和户,(3)户内,根据与户主的关系对个人进行排列记录。人们的行政归属相对固定,即使在登记过程中发生迁移,包含相关个体的家庭依然会被并列登记。

KMGPD-TS与NAC-SN分别来自韩国丹城 1678-1888年间编制的三年一次民事户籍登记册和日本东北部两个村庄的人口登记册。两者均仅用于覆盖所有实际居住在该地区的居民,不依据行政归属跟踪离开的人。CTHRD来自日本殖民政府在1906-1945年间编制的台湾户籍登记册,该登记并非定期进行,而是随着重要事件和其他信息变化而不断更新家户页。

3、 数据构建

本文作者及其所属团队多年来长期对上述历史数据库进行构建、更新与深入发掘,非常熟悉数据库的结构与构建过程,并在文章中详细阐述。CMGPD-LN、CMGPD-SC、KMGPD-TS和NAC-SC的原始登记册近似于三年一次或每年一次的人口普查,在固定时间间隔提供人口详细信息的多个快照(snapshot)。为制作可以进行纵向分析的个体生命史,数据库在构建的过程中,需要将登记册提供的不同时间、地点的同一个体信息手动链接起来。

通过链接相邻登记册中同一个人的观察记录,数据被转化为可以追踪个体特征与家庭跨代变化的面板数据库。在CMGPD-LN和CMGPD-SC中,由于家庭及其成员在每个登记册中大致按相同顺序列出,编码人员可以直接在录入数据时将个体链接起来。在KMGPD-TS中,家庭在相邻登记册中排序不同,因此需要额外的分析软件基于姓名、出生年份和其他信息提出候选的链接方法,然后由编码人员进行判断,从而创建最终的相邻链接,最终由软件将所有的观察信息串联形成生命历程。NAC-SN和CTHRD有额外的复杂性,由于篇幅限制此处不做具体说明。

4、描述统计:数据可靠性与局限性

本文作者对数据库的链接成功率、缺失值、结婚率等进行评估,以确定数据库的可靠性并说明数据的部分局限性。图3展示了四个数据库中同一个体的不同年份记录的成功链接的比例,NAC-SC与CMGPD数据库都呈现出平均高于90%的链接成功率。文章作者指出,链接成功率的变化主要是缺失登记册造成的。当一个登记册未能保存,链接就会在现存时间跨度较大的两个登记册之间建立,更易造成首次或最后一次出现在缺失登记册中的个体比例提高,导致无法链接,这也解释了KMGPD-TS较低的链接成功率。不过,文章同时提供了应对链接缺失的办法,即应用离散时间事件史分析方法排除个体在消失前最后一次的观察记录,避免引入偏差。

图 3各数据库中可成功将个人一期记录链接到下一期个人记录(即构建个体面板数据)的比例

在EAP Ⅱ数据库中,成年男性以及婚后女性的记录相对完整,但是在CMGPD-LN、CMGPD-SC和KMGPD-TS中儿童记录基本缺失。图4展示了观察的年龄分布金字塔,可以发现在上述三个数据库中,孩子需要到某个年龄才被记录,因此婴幼儿期早夭的孩子将不会记录在册。CMGPD数据库遗漏女儿,KMGPD-TS则遗漏儿子。该类遗漏使得研究婚姻匹配和女性婚姻时间受到阻碍。相对而言,CTHRD和NAC-SN的年龄别记录完整,人口性别分布更为平衡。

图 4 EAPⅡ五个数据库个体记录的分年龄性别金字塔

图5展示五个数据库中的年龄别死亡率。在进入80岁之前,五个EAPⅡ数据库的年龄别死亡率大体一致,这些来自东亚不同地区、出自不同地方政府户籍记录系统的历史人口数据相互映证,表明各数据的档案记录质量较好,可靠性很高。但本文作者指出,使用这些数据进行死亡相关研究时,需要将分析限制在75岁以下以避免潜在的对于超高龄人群的记录错误。

图 5 EAPⅡ各数据库中下一期分年龄的预测死亡概率

在EAP Ⅱ数据库中婚姻记录的可靠性较高。图6展示了可以成功识别配偶记录的比例,即年龄别已婚比例。本文发现,女性具有普遍婚姻和早婚的特点,到30岁时几乎所有EAPⅡ中的女性都已婚。相对地,男性婚姻并不普遍,除KMGPD-TS外,数据库中的男性在15岁左右开始结婚,到20岁末会有70-80%的人结婚。KMGPD-TS因为含有无配偶信息的nobi(较低的社会等级)成员,已婚比例普遍更低。

图 6 EAPⅡ数据库中分年龄可识别配偶的个体记录比例

四、小结:比较社会科学研究中的历史人口微观数据

本文强调了比较社会科学发展过程中历史人口数据的重要作用,并充分探讨使用相似数据库可进行较为精确具体的跨文化和跨时期比较研究。本文提供了作者团队整合与数字化东亚多地区历史人口数据的过程,详细介绍链接相同个体构建生命史的方法,依据数据中的描述统计信息对数据质量进行考察和确定,给出在分析中应对局限性的方法,同时对东亚人口特征的相似性与差异性进行总结。在介绍五个EAP Ⅱ数据库的基础上,本文的工作展示了不同社会文化背景下分析和比较社会人口动态的新视角。

EAP Ⅱ 数据库的核心贡献在于其对东亚历史人口和家庭的动态微观信息的深入捕捉。与传统的宏观历史数据相比,EAP II数据库提供了更为细致的社会、家庭和人口行为的视角,使研究者能够追踪个体和家庭随时间的变化,深入分析人口动态与社会结构之间的相互作用;与既往以西方人口为主要对象的比较历史人口学数据库相比,EAP Ⅱ聚焦东亚地区的社会文化环境以及人口家庭特征,这为理解东亚内部各地区的人口与社会经济差异提供了重要资料。在此基础上,该数据库的应用范围还可以拓展到健康、经济学、生态学等其他领域。

本文指出,在比较社会科学研究中,基于历史人口数据库的可能性和潜力是巨大的。EAP Ⅱ提供了与西方最完善微观历史数据库相似的信息,并且总体上大致具有相应的人口规模。目前本文已经初步通过该项目对东亚人口死亡与婚姻状况进行了描述,但与其他社会和时期的数据进行比较时,EAP Ⅱ的价值会进一步凸显。借助世界范围内微观层面社会科学数据的发展,这些跨文化地区的比较研究,将引导我们更好地理解社会与人类行为。


轮值主编:董浩(北京大学光华管理学院)

审核:罗艳(华中科技大学社会学院,家庭社会学专业委员会副秘书长)

编辑:廖怡芸(华中科技大学社会学院)

家庭社会学专业委员会公众号

微信号|marriage-family

投稿邮箱|marriage_family@126.com


宋婧 | 第44期轮值主编和推文介绍

佳作译介|“玻璃饭碗”: 韩国公共部门女性的晋升阻碍与工作保障

佳作译介|端起“橡皮饭碗”:中国沿海地区女性从受雇领薪到自雇创业的转变

佳作译介|跨越性别偏见做生意:以香港跨境保险业中的高学历女性为例

佳作译介|“人往低处走”的选择:一项关于中小城镇女性回乡创业的研究

婚姻家庭研究
中国社会学会家庭社会学专业委员会公众号
 最新文章