原文作者
原文发表于Gale Review Blog
Sarah L. Ketchley,Gale数字人文高级专家
在三月的女性历史月,为了纪念不为人所知的女性历史人物,我探讨了我是怎样使用Gale数字学术实验室(Gale Digital Scholar Lab)新升级的、嵌入到分析过程中的功能研究我的文本数据的。
三套全新的Python笔记本(3月28日上线)为研究者提供了一种新方式,使用带注释的代码块分析他们的数据,而这些代码块可以使用交互式编程平台JupyterLab或Google CoLab等运行。这些笔记本提供了灵活的定制化选项,例如能够处理下载自实验室的数据集,或运行用户自己的数据集。现有的三套笔记本是:命名实体识别(Named Entity Recognition)、地理信息系统(Geographical Information System,GIS)和情感分析(Sentiment Analysis)。在本文中我们将探讨命名实体识别笔记本,在后续的文章中讨论其他的工作流程以及使用GIS和情感分析得到的结果。
艾玛·B·安德鲁斯夫人
(Mrs. Emma B. Andrews)介绍
《贝都因人日志,1889-1912年》,艾玛·B·安德鲁斯夫人著
作为一名古埃及学家,我研究这一领域的学科史已经十余年。当我第一次看到艾玛·B·安德鲁斯夫人的日记时,我就对此非常的感兴趣。安德鲁斯夫人是西奥多·M·戴维斯(Theodore M. Davis)的伴侣,十九世纪末二十世纪初所谓“古埃及学黄金时代”埃及考古界的一位知名但有些争议的人物。
安德鲁斯夫人在1889年至1913年之间,每年都用日记记录她的尼罗河之旅。她是一名敏锐的见证者,记录下很多国王谷的重要发现,提供了对当时社会、政治和考古关系网的有趣观察。她对她旅行途中的人物和风景的描写为她的叙述提供了丰富的文化语境。
安德鲁斯日记摘录
因为安德鲁斯夫人这套记录的独特性,在当时纽约大都会艺术博物馆埃及艺术馆长的要求下,她的日记在1919年被制作成四套打字稿。在我2011年和本科实习生一起开始我们的研究工作时,这些日记才刚刚公开出版。我们的团队将所有日志的扫描副本都抄录成了纯文本格式,然后根据《文本编码规范》(Text Encoding Initiative,TEI)开发的架构,将这些文字编码为XML文件。
我们的目标是通过XML标记抓取文献中的命名实体子集。我们标记了人名、地名、组织、考古遗址、船只、旅店、书籍、文化机构和艺术作品。这些信息是对这一历史时期开展针对性研究的一个起点,特别是古埃及学中一些“隐藏人物”的故事,他们很多都是女性。我们使用标记后的文档创建了一个在线沉浸式阅读器,结合了我们抄录的文稿和下层的TEI/XML文本,动态的侧边栏则提供了文献中人物和地点的相关传记和地理资料。
艾玛·B·安德鲁斯日记项目的沉浸式阅读器,使用TEI Publisher制作
使用Python笔记本提取命名实体
当然,使用XML文件进行标记只是从抄录原始文献文本中抓取和提取命名实体的一种方法。Gale数字学术实验室有六种工具嵌入在平台上,现在可以提供三套Python笔记本的下载,这些笔记本包含注释说明和Python代码,可在实验室以外灵活处理和分析文本。命名实体识别笔记本利用SpaCy NER模型,拆解一篇文献或一组文献,返回研究者指定的一系列命名实体。
将笔记本下载到我的本地计算机上后,我选择在Google Colab Notebook中运行代码,只需上传从实验室下载的.ipynb文件。
笔记本中提供的默认实体是PlaceName(地名),因此我开始添加我的一组十九本日记到我的Colab工作区中,然后根据指示安装必要的插件,以便能够处理我的文本。运算结果导出为CSV文件后看起来是这样的:
从实验室下载的NER Python笔记本运行后得到的地名(GPE/地缘政治实体)NER结果
表格结构很简单(地名和被提及的次数),但其中的数据是探究文本的一个起点。有一些被划分错类别的名称,但大部分都是正确的。哪些地点是最热门的?他们都访问了哪些国家?我的下一步工作是再次运行命名实体识别,选择围绕时间/日期实体,与地名实体结合在一起。这种方法将提供一种很有帮助的途径,构建谁在哪个日期在哪个地点的时间线。
我还选择对我的十九卷文献运行了人名实体查找。运行的时候我仅仅是用人物(Person)代替了代码中的地名(Place Name),然后重新运行代码块。执行计数运算的过程看起来是这样的:
从Gale数字学术实验室下载的命名实体识别Python笔记本
文本处理完成后,结果列表是这样的:
命名实体识别/SpaCy人物实体结果
显然我们还需要做一些清理的工作,但Python笔记本提供了怎样清理和纠正OCR文本以优化分析结果的提示。完成后,最终的结果可以导出为CSV文件查看。
CSV格式的人物实体结果
利用分析结果开展研究
我想要使用命名实体识别的人名分析结果在沉浸式阅读器中绘制出人物传记内容的发展。至今,我们已经找出了安德鲁斯夫人在她的日记中提到的一百多个不同人名。选择一个更小的子集来探讨是很有难度的,但在浏览命名实体识别笔记本的分析结果时,我们很明显地看到哪些人名更热门,值得我们关注。
结 论
十九世纪女性常常在档案中是不可见的。艾玛·B·安德鲁斯和许多她同时代的、在埃及生活和工作的女性就是一个例子。利用计算机处理她的日记文本和其他我收集到的档案资料,为我们提供了宝贵的研究视角,基于对大量文献数据的分析探讨那个时期。这种类型的分析是传统精读研究方法不可能实现的,通常会打开新的研究方向和发现。
欢迎关注:
Gale官方微信公众号及视频号:
联系我们
识别二维码填写您的联系信息和问题
或发送邮件至:
GaleChina@cengage.com