NBER:规模化挖掘中国历史资料

学术   2024-11-09 22:55   美国  

本期推荐一篇最新发表在NBER上的论文《规模化挖掘中国历史资料:一种用于清朝国家能力的机器学习方法》。传统的历史研究往往依赖于人工解析,这种方式不仅费时,而且往往容易带入主观偏见,尤其是在处理体量巨大的原始文献资料时更为困难。而《清实录》作为清朝最重要的官方记录之一,包含了大量关于社会动荡、农民起义、地方暴动等事件的原始数据。该研究旨在探索是否可以借助机器学习,自动化地从《清实录》文本中提取并分类这些动荡事件,以降低历史数据提取的成本,提升研究的准确性和一致性,同时为理解清朝国家能力提供量化依据。

作者主要使用了一种名为GUWEN-BERT的预训练语言模型。首先,研究者从《清实录》中手动标注了近千条与社会动荡相关的事件,包括农民动乱、民兵冲突和秘密社团等不同类型的事件。这些标注数据作为模型的训练集,帮助机器学习系统“学习”这些事件的特征。随后,模型使用GUWEN-BERT这一古汉语预训练语言模型对未标注的文本进行分析,将其自动分类为社会动荡事件或非动荡事件。GUWEN-BERT模型基于一种深度学习的神经网络算法,专门在大规模古文数据上进行了预训练,因此能够较好地理解《清实录》这样的历史文献。为了验证模型的性能,研究者将数据集划分为训练集和测试集,并计算了模型的准确率、精确率等评价指标,结果显示GUWEN-BERT的准确性超过97%。

研究结论表明,机器学习模型不仅可以显著提高《清实录》中动荡事件的识别效率,还能在空间和时间上更为全面地覆盖清朝社会动荡的分布,为以往人工汇编遗漏的较小事件提供了数据支撑。此外,论文通过对气候、粮价等变量的回归分析验证了模型的识别结果,证明粮食价格上涨和极端天气与动荡事件的高发呈现正相关关系。该研究为数字技术在历史学研究中的应用提供了新思路,同时也展示了机器学习在挖掘大规模历史资料方面的巨大潜力,有望推动经济史和社会史研究的创新发展。

论文原文:
NBER,September 2024
Mining Chinese Historical Sources At Scale: A Machine Learning-Approach to Qing State Capacity
Wolfgang Keller, Carol H. Shiue & Sen Yan



唧唧堂学院推荐订阅


以下专栏及课程,安卓手机用户可通过下方小程序链接订阅,苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。


论文导读


**经济金融**

经济金融论文导读会员(年度)

2024 经济学顶刊论文导读/数据库

2024 金融学顶刊论文导读/数据库

中国主题经济学论文导读专栏

AER百年最经典论文导读专栏

人工智能主题论文导读专栏


更多经济金融论文导读专栏请访问

唧唧堂学院



数据库


管理学论文理论数据库

管理学论文数据集数据库

管理学论文量表数据库



方法班课程


AMJ(2022)微观研讨班

计量经济学论文研讨班

行为和心理科学顶刊听读研讨班

中介调节顶看方法班-单层(学生)

中介调节顶刊方法班-多层(学生)

经验取样顶刊方法班(学生)


更多方法班直播课程请访问

唧唧堂学院



咨询+开票+团购


唧唧堂
从数据到洞见,全面解读学术研究!
 最新文章