点击上方蓝字关注Gale——图书馆的合作者、知识与发现的推动者
原文作者:Sarah L. Ketchley,Gale数字人文高级专家
原文发表于:Gale Review Blog
想要完全掌握一所院校图书馆馆藏数字化一次文献档案库的范围和内容是非常困难的,特别是当这个档案库包含成千上万份不同格式的文献资料时。对于单个研究人员而言,在数量庞大的数据中筛选、找出与特定研究主题相关的资料,这个任务有时可能需要几年的时间才能完成。本文将探讨研究者如何能够使用Gale数字学术实验室(Gale Digital Scholar Lab)和Gale原始档案(Gale Primary Sources)作为探索性分析的平台,洞察某个档案库中包含的主题和议题。
筛选一次文献——一项可能需要几年才能完成的任务
我能够使用哪些档案库?
……
除了可以用于数据分析和可视化,Gale数字学术实验室也可以用来访问和分析Gale档案库,以及用来分析用户自行上传的纯文本内容。在探索性研究中使用数字工具能够帮助研究者将文本数据按主题的相似性分类成几组,帮助他们在建立研究路径时进行有效的文献选择。
研究者通常会问,通过他们所在院校图书馆的网站,他们能够使用哪些数据库。“图书馆电子资源/数据库”的部分通常列出了可用的数据库,且经过机构认证后就可以访问这些数据库。登录进入Gale数字学术实验室后,用户可以点击主页上的“可访问哪些文本”(What Texts are Available)链接查看他们所在院校拥有的所有Gale原始档案数据库。
在Gale数字学术实验室中查看可供访问的一次文献数据库
用户点击这个链接后就会看到他们在Gale数字学术实验室中能够使用的所有档案库。他们可以从这个页面进入每个独立的档案库进行检索,或从“构建”(Build)页面开始检索。
“具体内容”页面将向用户显示他们所在院校现有的所有Gale档案库。
我如何能够知道一套档案库中
有哪些内容而无需阅读每一页?
……
确定档案库内容是否与你的研究相关的一种很好的方法是使用Gale数字学术实验室中的工具,找出其中主要的主题和议题。这么做不但可以标识出重要或相关的文献资料,也能表明哪些资料可以从未来的研究内容集中去除。
这种研究方式的起点是利用单个Gale原始档案库建立一个新的内容集。在本文中,我将探讨“现代世界的形成,第四部分”(Making of the Modern World Part IV)档案库。利用高级检索,我可以将检索条件限定在这个数据库中,因此除了“现代世界的形成”,我取消选中了所有其他档案库,然后我又进一步按模块限定。最终我在这次检索中得到9,016条结果,将它们放入一个内容集,它将能够让我深入看到这个档案库的内容范围。
在Gale数字学术实验室中限定某个档案库和某个模块
主题建模(Topic Modelling)
创建好我的内容集后,我选择运行主题建模分析,设定为20个主题,每个主题15个词语,使用Gale默认的清理配置。这个清理配置将去除所有制表符、换行符,规范空格,去掉文本中的所有非正文内容。尽管默认设置是返回10个主题,但选择20个主题能够提供对数据集更精细的概览,同时这个数量也便于研究者管理。在这个例子中,“现代世界的形成,第四部分”被明显地划分为几个主题,包括教育、禁酒、工业、金融、贸易,以及非英语语言的几组文献,例如法语、德语、西班牙语、意大利语和拉丁语。从语言分组开始,我可以很好地分离出我想要进一步使用的文献资料,轻而易举地将它们从我的研究中排除。
以下截图显示出我正在进行的重新命名的过程。最初的分析结果按“主题0”到主题“19”命名,研究者需要自行找出算法生成每个主题时内在的关联,然后正确地重新命名各个主题。因此“主题4”被重新命名为“Education and childhood”(教育和童年),因为这个主题里的词语是“ work(工作)、children(儿童)、school(学校)、number(数字)、years(年)、schools(学校)、poor(贫穷)、education(教育)、cases(案件)、relief(信仰)、year(年)、men(男子)、persons(人)、Act(法案)、London(伦敦)”。通过这个过程我们可以很好地熟悉一次文献数据。
在Gale数字学术实验室中使用主题建模找出主题内容
聚类(Clustering)
我们可以用类似的方法使用聚类工具。以下图片显示出“现代世界的形成,第四部分“内容集被分为20个相关主题聚类。可视化图形是交互式的,因此当研究者将鼠标移动到图表里的每个点上时,将会看到聚类中每篇文献的标题。离散在外的文章也值得探究,确定它们如何与内容集中的其他文献资料相关联(如果存在关联)。点击每个聚类,屏幕右侧将打开一个面板,研究者可以在其中检查每一篇文献。同样,这也让我们有机会熟悉这些相关文献的聚类。聚类还提供了将一组相关文献分离到一个新的内容集中的方法,因此,即便在这样的初级阶段,Gale数字学术实验室也能够帮助发现研究数据并有效组织数据。
聚类分析作为探索和管理数据的一项工具
利用“我的内容集”概览页面确定研究方向
……
在实验室平台“我的内容集”部分,每一个内容集都有一个概览页面。它提供了很多有用的信息,例如我们所收集的文献资料中存在的文献类型以及作者和时间跨度等。这些详细信息可以提供一些逻辑依据,便于将数据进行分组,用于进一步的数据管理或用于分析。例如“the Temperance Society”(禁酒协会)是“现代世界的形成,第四部分”内容集中列出的作者名之一,在“现代世界的形成”这个更宽泛的数据集中,这一独特的团体可以单独分到另一个内容集中。
Gale数字学术实验室中的我的内容集总结页面
最初的探索之后
……
完成你最终的文本数据探索之后,你就可以开始对你认为与你的研究问题最为相关的文本进行有针对性的分析。这个过程很有可能包括持续不断的数据管理、文本清理以及遥读和精读的结合。进行一次探索性分析将为这类工作提供一个很有帮助的起点。
欢迎关注Gale微信视频号:Gale数字学术
本期视频带你打开《伦敦新闻画报》的“世界之窗”,看九月都发生了哪些值得关注的事情。
联系我们
识别二维码填写您的联系信息和问题
或发送邮件至:
GaleChina@cengage.com