本文为“量化历史研究”第 841 篇推送
图片来源于网络
在经济史研究中,一手史料常常由于获取成本较高等原因,被二手史料所替代。Wolfgang Keller, Carol H. Shiue和Sen Yan的最新NBER Working Paper提出了一种对中国历史数据进行自然语言处理 (NLP) 的监督机器学习方法。作者团队通过对《清实录》中识别不同形式的社会动乱的应用表明,这种方法可以大大降低使用原始资料的成本,同时不存在人为偏见,具有可重复性和灵活性。与现有的人工编辑数据集进行比较,机器学习方法根据外部证据生成的数据在应用中至少与人工提取的信息一样成功。
自然语言处理:《清实录》
《清实录》包含大量政治、经济、军事和传记信息,是清朝社会动荡最全面的政府文献资料。其中记载了官员们上报的各类社会动乱所发生的时间、地点、负责人及具体经过和性质等。鉴于其庞大的规模,且内容为文本,从中阅读和提取内容需要巨大资源和精力,因此人为研究常常无法覆盖完整时期,或细节深度大打折扣。
图1 《清实录文本样例》
为解决此问题,本文作者采用了基于《清实录经济史资料》对清朝动乱的开创性研究作为训练样本的监督机器学习方法,并采用了几种自然语言处理方法,最终将 GUWEN-BERT 分类器作为识别的主要方法。由于GUWEN-BERT是在大量中文历史文献中预先训练出来的,其性能使其有别于贝叶斯或神经网络等其他更传统的方法,并且使其在对社会动乱的分类分析中,它在样本外分析中的准确率达到了 97% 以上。
清代社会动乱的模式:机器学习的新证据
在通过机器学习获得《清实录》中所记载的清代动乱情况后,作者利用这一数据研究了清代社会动乱的分布情况,并与现有研究相比较。与人为分类相比,机器学习方法增加了根据《清实录》确定的动乱事件的数量,但其年度分布与早期研究的结果大致相符:整个清朝动乱事件数量呈上升趋势(见图2),且19世纪中叶与太平天国起义相关的动乱事件相对较多。从总体频率来看(见图3),大多数动乱事件与民兵活动有关,其次是农民动乱。秘密结社的占比则在20%以下。
图2 清代全国社会动乱时间序列
图3 农民、秘密结社、民兵动乱的相对比例
图4和图5描述了1680-1700年和1840-1860年两个不同时期县级层面的分布情况。对比结果显示,在这二十年间,中国的社会动乱活动在强度和地域范围上都存在显著差异。1680 年至 1700 年最严重的动乱是台湾县的郑克爽动乱(见图4)。1840 年至 1860 年最严重的事件是发生在中国东南部地区的太平天国起义(见图5)。
图4 1680-1700 年动乱的地理分布(地图为示意图)
图5 1840-1860 年动乱的地理分布(地图为示意图)
得到上述结果后,作者对于其方法提供了外部验证。首先,在清朝历史中,当粮价过高和气候条件极端恶劣时,发生社会动荡的可能性会增加。通过相关性检验,作者发现,GUWEN-BERT 确定的社会动乱事件通常与这些触发因素呈正相关。农民动乱和秘密结社与粮价和极端天气都高度相关,而民兵动乱主要与高粮价有关。
作者进一步将其结果与现有研究相比较。图 6 显示,这些研究的衡量标准在规模上有所不同。机器学习方法得到的事件数量通常高于其他来源的记录。所有测量方法都普遍认为,在 19 世纪 50 至60 年代等时代,(太平天国起义等)动乱事件比其他分时期更为常见。另外,本文的测量方法的年际差异高于其他测量方法。
图6 机器学习方法与其他人工分类法的比较
作者还将这些国家动荡指标与之前考虑的粮食价格和天气冲击触发因素联系起来。在机器学习测量方法中,这些诱因对社会动乱的解释是已有研究中的七倍。这表明,基于计算机的清代社会动乱研究方法至少可以达到和现有人类研究方法一样的水平。
作者进一步探索对国家能力有直接威胁的秘密结社类社会动乱。图7 将现有研究与基于 GUWEN-BERT 分类器的 1740 年至 1840 年秘密结社活动进行了比较。GUWEN-BERT识别的秘密结社活动与Hung (2011) 的暴力和反抗国家行为的相关性最高。相比之下,秘密结社类动乱事件与Miller (2013) 的盗匪归类之间几乎不相关。这种差异证明机器学习能够发现特定动乱动机的相关变化。
图7 清中期不同分类法对于各种社会动乱统计的比较
结 论
作者通过使用GUWEN-BERT分类器建立的机器学习方法,增加了从《清实录》中识别清朝社会动乱的数量和范围。这种新的识别结果可以与一些著名事件相吻合,但作者也发现许多社会动乱事件尚未得到研究。人工分类时,较小的动乱事件或偏远地区发生的事件受到的关注较少,而人工智能的产出可能有助于补充基于人类的研究,向我们展示比以前所了解的更加频繁、在某些地区更为普遍的动乱活动。希望在未来的学术工作中,愈发强大的大型语言模型能够帮助我们获得更多对历史事件更加客观的理解。
本文的结果复现代码:
https://github.com/SenYan1999/qingshiluriot-ml/tree/master
文献来源:Keller, W., Shiue, C. H., & Yan, S. (2024). Mining Chinese Historical Sources At Scale: A Machine Learning-Approach to Qing State Capacity (No. w32982). National Bureau of Economic Research.
原文链接:请点击左下方【阅读原文】
“量化历史研究”公众号由陈志武(香港大学郑裕彤基金讲席教授、原耶鲁大学教授)及其团队——林展(中国人民大学)、熊金武(中国政法大学)、何石军(武汉大学)、蒋勤(上海交通大学)、彭雪梅(中山大学)等人负责。向学界和业界朋友,定期推送量化历史研究经典、前沿文献。同时作为“量化历史讲习班”信息交流平台。喜欢我们的朋友请搜寻公众号:QuantitativeHistory,或扫描下面二维码关注。
我们也诚邀八方学人发送电邮建言献策。邮箱: lianghualishi@163.com。
轮值主编:林 展 责任编辑:彭雪梅
点击“阅读原文”查看英文原文