本期推荐一篇最新发表在NBER上的论文《规模化挖掘中国历史资料:一种用于清朝国家能力的机器学习方法》。传统的历史研究往往依赖于人工解析,这种方式不仅费时,而且往往容易带入主观偏见,尤其是在处理体量巨大的原始文献资料时更为困难。而《清实录》作为清朝最重要的官方记录之一,包含了大量关于社会动荡、农民起义、地方暴动等事件的原始数据。该研究旨在探索是否可以借助机器学习,自动化地从《清实录》文本中提取并分类这些动荡事件,以降低历史数据提取的成本,提升研究的准确性和一致性,同时为理解清朝国家能力提供量化依据。
作者主要使用了一种名为GUWEN-BERT的预训练语言模型。首先,研究者从《清实录》中手动标注了近千条与社会动荡相关的事件,包括农民动乱、民兵冲突和秘密社团等不同类型的事件。这些标注数据作为模型的训练集,帮助机器学习系统“学习”这些事件的特征。随后,模型使用GUWEN-BERT这一古汉语预训练语言模型对未标注的文本进行分析,将其自动分类为社会动荡事件或非动荡事件。GUWEN-BERT模型基于一种深度学习的神经网络算法,专门在大规模古文数据上进行了预训练,因此能够较好地理解《清实录》这样的历史文献。为了验证模型的性能,研究者将数据集划分为训练集和测试集,并计算了模型的准确率、精确率等评价指标,结果显示GUWEN-BERT的准确性超过97%。
研究结论表明,机器学习模型不仅可以显著提高《清实录》中动荡事件的识别效率,还能在空间和时间上更为全面地覆盖清朝社会动荡的分布,为以往人工汇编遗漏的较小事件提供了数据支撑。此外,论文通过对气候、粮价等变量的回归分析验证了模型的识别结果,证明粮食价格上涨和极端天气与动荡事件的高发呈现正相关关系。该研究为数字技术在历史学研究中的应用提供了新思路,同时也展示了机器学习在挖掘大规模历史资料方面的巨大潜力,有望推动经济史和社会史研究的创新发展。
唧唧堂学院推荐订阅