NBER：规模化挖掘中国历史资料

学术 2024-11-09 22:55 美国

本期推荐一篇最新发表在NBER上的论文《规模化挖掘中国历史资料：一种用于清朝国家能力的机器学习方法》。传统的历史研究往往依赖于人工解析，这种方式不仅费时，而且往往容易带入主观偏见，尤其是在处理体量巨大的原始文献资料时更为困难。而《清实录》作为清朝最重要的官方记录之一，包含了大量关于社会动荡、农民起义、地方暴动等事件的原始数据。该研究旨在探索是否可以借助机器学习，自动化地从《清实录》文本中提取并分类这些动荡事件，以降低历史数据提取的成本，提升研究的准确性和一致性，同时为理解清朝国家能力提供量化依据。

作者主要使用了一种名为GUWEN-BERT的预训练语言模型。首先，研究者从《清实录》中手动标注了近千条与社会动荡相关的事件，包括农民动乱、民兵冲突和秘密社团等不同类型的事件。这些标注数据作为模型的训练集，帮助机器学习系统“学习”这些事件的特征。随后，模型使用GUWEN-BERT这一古汉语预训练语言模型对未标注的文本进行分析，将其自动分类为社会动荡事件或非动荡事件。GUWEN-BERT模型基于一种深度学习的神经网络算法，专门在大规模古文数据上进行了预训练，因此能够较好地理解《清实录》这样的历史文献。为了验证模型的性能，研究者将数据集划分为训练集和测试集，并计算了模型的准确率、精确率等评价指标，结果显示GUWEN-BERT的准确性超过97%。

研究结论表明，机器学习模型不仅可以显著提高《清实录》中动荡事件的识别效率，还能在空间和时间上更为全面地覆盖清朝社会动荡的分布，为以往人工汇编遗漏的较小事件提供了数据支撑。此外，论文通过对气候、粮价等变量的回归分析验证了模型的识别结果，证明粮食价格上涨和极端天气与动荡事件的高发呈现正相关关系。该研究为数字技术在历史学研究中的应用提供了新思路，同时也展示了机器学习在挖掘大规模历史资料方面的巨大潜力，有望推动经济史和社会史研究的创新发展。

论文原文:

NBER，September 2024

Mining Chinese Historical Sources At Scale: A Machine Learning-Approach to Qing State Capacity

Wolfgang Keller, Carol H. Shiue & Sen Yan

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读

**经济金融**

更多经济金融论文导读专栏请访问

数据库

方法班课程

更多方法班直播课程请访问

咨询+开票+团购

http://mp.weixin.qq.com/s?__biz=MjM5Mzg0NDkyMA==&mid=2652287034&idx=1&sn=6e752280beda072373b62206a04c8b5b

唧唧堂

从数据到洞见，全面解读学术研究！

最新文章

唧唧堂：SMJ 战略管理杂志2024年10月论文摘要9篇

已收录数据集130个！管理学顶刊论文的数据集都在这个数据库！

SMJ：企业动态应对竞争与制度压力

NBER：规模化挖掘中国历史资料

10月已更315篇！超额更新！2024年经济学顶刊论文导读数据库+专栏

JPE 政治经济学期刊 2024年10月论文摘要8篇

JPSP：人们如何选择伴侣？涵盖43个国家的大型研究

PNAS：美国人对老年人的好感远大于年轻人

JSP 社会心理学杂志 2024年9月论文摘要20篇

JPE：21世纪的金融创新

JPE 政治经济学期刊 2024年9月论文摘要8篇

论文复现！计量经济&机器学习经济金融论文共计90篇

AMJ：克服资源限制以打造生态系统领导力

已收录理论280条，管理学最新顶刊论文的理论都在这个数据库！

ASQ 管理科学季刊 2024年9月论文摘要6篇

JBV 商业创业杂志 2024年9月论文摘要4篇

AER 美国经济评论 2024年10月论文摘要10篇

QJE：要求差距在性别薪酬不平等中的作用

NBER: 激励大学生对教学的兴趣

PNAS：“AI标签”削弱人工智能在情感支持中的实际效果

JPSP：解构性别平等悖论

已更76篇！AI人工智能经管社科论文导读专栏

JPSP 人格与社会心理学 2024年9月论文摘要12篇

JM：虚拟KOL在感官驱动营销中的局限性

10月已更138篇，2024营销学论文导读数据库，特惠订阅！

JM：通过网红营销实现收入增长

JM 营销学杂志 2024年9月论文摘要7篇

EJ：论社会地位对职业分类的重要性

10月已更315篇！超额更新！2024年经济学顶刊论文导读数据库+专栏

EJ：政治语言在经济学中的应用

EJ 经济学杂志 2024年8月论文摘要12篇

JSP：聆听时应该保持沉默吗？

JESP：财务压力对抑制控制和经济决策的影响

JEPG 实验心理学综合 2024年9月论文摘要10篇

已收录数据集85个！预售特惠！管理学顶刊论文的数据集都在这个数据库！

JAP 应用心理学 2024年9月论文摘要5篇

JOB 组织行为期刊2024年9月论文摘要9篇

JF：散户的投资想法值多少?

RFS：数字化与退休缴费行为

JFE 金融学杂志 2024年9月论文摘要10篇

JPSP：工作-家庭经历与人格特质的相互作用

10月已更超300篇！2024年心理学论文导读专栏+数据库，订阅特惠！

DP：对圣诞老人产生怀疑的过程及其后果

DP 发展心理学 2024年9月论文摘要13篇

ISR：数据要素的流通与定价

管理学论文数据集数据库，全新上架，预售特惠！

唧唧堂：Mgmt S 管理科学2024年9月论文摘要36篇

NBER：云计算和人工智能对产业动态与竞争的影响

如何提高命中率：国家社科基金项目申报的策略技巧与要素解析

NBER：研究生毕业率的整体趋势

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉