NBER中国故事:利用机器学习大规模挖掘中国历史资料

学术   2024-11-11 12:29   北京  

据NBER官网显示,来自科罗拉多大学的Wolfgang Keller、Carol H. Shiue和Sen Yan,合作撰写论文“Mining Chinese Historical Sources At Scale: A Machine Learning-Approach to Qing State Capacity”,该文尝试利用机器学习大规模挖掘中国历史资料
传统的历史研究往往依赖于人工解析,这种方式不仅费时,而且往往容易带入主观偏见,尤其是在处理体量巨大的原始文献资料时更为困难。而《清实录》作为清朝最重要的官方记录之一,包含了大量关于社会动荡、农民起义、地方暴动等事件的原始数据。该研究旨在探索是否可以借助机器学习,自动化地从《清实录》文本中提取并分类这些动荡事件,以降低历史数据提取的成本,提升研究的准确性和一致性,同时为理解清朝国家能力提供量化依据。



Title: Mining Chinese Historical Sources At Scale: A Machine Learning-Approach to Qing State Capacity

大规模挖掘中国历史资料:机器学习在研究清朝国家能力中的应用



作者简介


Wolfgang Keller

科罗拉多大学

Carol H. Shiue

科罗拉多大学

Sen Yan

    科罗拉多大学




    摘要


    Primary historical sources are often by-passed for secondary sources due to high human costs of accessing and extracting primary information–especially in lower-resource settings. We propose a supervised machine-learning approach to the natural language processing of Chinese historical data. An application to identifying different forms of social unrest in the Veritable Records of the Qing Dynasty shows that approach cuts dramatically down the cost of using primary source data at the same time when it is free from human bias, reproducible, and flexible enough to address particular questions. External evidence on triggers of unrest also suggests that the computer-based approach is no less successful in identifying social unrest than human researchers are.


    原始历史资料常常因为获取和提取一手信息的高人力成本而被次级资料所取代,特别是在资源较少的环境中。本文提出了一种监督式机器学习方法(GUWEN-BERT)来处理中文历史数据的自然语言处理。将这种方法应用于识别《清实录》中不同形式的社会动荡,结果表明,这种方法在大幅降低使用一手资料数据成本的同时,还避免了人为偏见,可复现,并且足够灵活以应对特定问题。外部证据也表明,基于计算机的方法在识别社会动荡方面并不逊色于人类研究者。

    来源:NBER、唧唧堂



    Tips:机器学习在经济金融领域的应用”研讨会即将举办,欢迎对机器学习方法及其应用感兴趣的学者和学生报名!




    为了我们不走散,学说请你加星标



    疯狂暗示↓↓↓↓↓↓↓↓↓↓↓

    学说平台
    “学说”平台(www.51xueshuo.com)是清华大学孵化的专业知识传播平台,平台利用学术大数据和人工智能技术,通过学术直播、音视频分享和个性化推送,推动经济金融领域的学术交流和普惠,促进中国科技创新传播与最佳商业实践分享。
     最新文章