原文作者
原文发表于Gale Review Blog
Sarah L. Ketchley,Gale数字人文高级专家
在Gale数字学术实验室(Gale Digital Scholar Lab)的六种工具中,聚类(clustering)通常被认为是最难解释清楚的一种方法。本文将探讨这一分析工具的本质,并为运行这个分析工具提供一些技巧。
为什么要聚类?
聚类分析,考察《伦敦新闻画报》中提及“考古学”的文章之间的关联
聚类是一种探索性数据分析,使用遥读技术解释一组文本文档的关联,可以揭示出通过传统精读手段不太可能会发现的、值得关注的特性。当刚开始接触一套内容集、想要找出其中的趋势和主题时,这会是一个很好的起点。这个工具围绕某些特性或属性将文献聚集在一起,从而实现对它们的比较。
实验室中的这个工具是使用开源Scikit-Learn的K均值(K-means)聚类算法[1]构建的,而上图显示出的分析结果是一幅散点图,代表了一个内容集中文档的距离有多近或多远。
它的原理是怎样的?
在机器学习中有一些基础的训练或分析方法。对于使用监督学习(Supervised Learning)技术训练的工具,你基本上是向程序提供标记过的数据。换言之,你用已经提供了正确答案的数据训练算法,然后将学习到的规则应用到新数据上,预测他们的答案。词性标注(Parts of Speech)和命名实体识别(Named Entity Recognition)就是很好的例子。
然而,聚类被划分为无监督学习(Unsupervised Learning),因此没有为数据提供标记,由程序自己发现其中的规律。这种方法用于发现隐藏的规律并分组排列。
实验室使用的k均值算法指定k作为研究者选择的聚类数量。
当算法开始工作时,它选择k个随机点作为质心并分配剩余的数据点到最近的质心。所有点都进行分配后,计算k质心的新均值,一些数据点可能被重新分配到另一个质心。当这种重新分配不再发生变化时,算法停止工作。
K均值聚类算法对非常小的差别不敏感,但对离散值和极值非常敏感——这些值让质心更难发挥他们的作用。因此,如以下例子所示,我们有时会在K均值算法处理结束后明显看到一些极值或离散值。
分析结果是怎样的?
聚类工具的分析结果是一幅散点图,在x和y轴坐标系中绘制出数据点。工具允许下载CSV和JSON格式的表格数据、JSON格式的文档元数据,以及PNG、SVG、PDF和JPEG格式的静态可视化图形。
聚类下载选项
图形表示出一个内容集中单篇文献相互之间有多近或多远。点之间的距离表明他们相互之间的相似程度,更为相似的文献被分组或“聚类”在一起。图形是交互式的,将鼠标放在图形中的一个点上,会显示出原始文献的标题,点击标题将会打开边栏,显示选中的文档及前20篇最为相似的文档,以及它们与最初那篇文献的相对相似性距离。
用户可以从边栏打开原本的文献并放大查看扫描图像和OCR文本。这样的精读能够让用户对他们想要怎样处理他们的内容集做出明智的决定。例如,根据他们对聚类结果的评判,他们可以决定分离出部分数据到新的内容集中做深入分析。
聚类可视化图形的互动功能
案例:
第二次世界大战开始和结束时《泰晤士报》上的广告发生了什么变化
这里有一个例子。这个研究问题使用来自“《泰晤士报》数字典藏”(The Times Digital Archive)的两个内容集做比较分析,探讨在第二次世界大战的过程中广告是怎样变化的。* 一套合集包含1940年的报纸广告,另一个包含1945年的报纸广告。每套合集都包含刚刚超过9000篇文献。
聚类工具设置
下方左边的图片显示出最初的聚类结果:选择使用20个聚类和默认清理配置,即去除了所有制表符、换行符、规范化所有空格且对文本数据应用了基础的英文停止词过滤。仔细查看每个聚类,文档标题列表能够帮助分辨出每个聚类组之间的关联,每个聚类可以做相应的重新命名:“聚类2”变成了“旅馆”、“聚类3”变成了“音乐会、歌剧、芭蕾舞”等。下方右边的图片显示出这一分析过程,让我们对每组文献的主题有了大概的了解。
找出实验室输出的每一个聚类的意义
对第二个1945年的内容集使用相同的方法,然后就可以比较每一组文献聚类分析的结果。并排查看两幅可视化图形,二者常见的主题存在着明显的差异——后一组包括招聘广告、教堂礼拜,以及与1940年相比更大的银行和拍卖聚类。与音乐会和表演相关的文章更加的分散,距离更远,值得注意的是旅馆聚类已经基本上看不到了。
比较聚类分析结果
建立意义及分辨趋势
分析工作是缓慢且迭代的过程,这样并排比较可视化图形可以帮助研究者逐渐适应从工具结果中建立意义和分辨趋势的过程,不再感觉混乱或晦涩。能够在精读和遥读研究方法之间切换是Gale数字学术实验室工作流程的一大特色。
* 1940/1945案例基于Rebecca Gillott的建议,她进行了一些初步的分析。
参考文献
https://scikit-learn.org/stable/modules/clustering.html
欢迎关注:
Gale官方微信公众号及视频号:
联系我们
识别二维码填写您的联系信息和问题
或发送邮件至:
GaleChina@cengage.com