『柏拉图说』是由南京大学计算传播学实验中心的成员们于2022年4月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。
柏拉图说 论文推介第 170 篇
Yu, A. Z., Ronen, S., Hu, K., Lu, T., & Hidalgo, C. A. (2016). Pantheon 1.0, a manually verified dataset of globally famous biographies. Scientific Data, 3(1), 150075.https://doi.org/10.1038/sdata.2015.75Abstract
我们介绍了 Pantheon 1.0 数据集:一个经过人工验证的个体数据集,这些个体已经超越了语言、时间和地理界限。Pantheon 1.0 数据集包括维基百科中超过 25 种语言的 11,341 份传记,并丰富了以下内容:(i) 人工验证的人口统计信息(出生地点和日期、性别)(ii) 职业分类法,将每本传记分为三个聚合级别,以及 (iii) 两个全球受欢迎程度的衡量标准,包括维基百科中存在传记的语言数量 (L), 以及历史流行度指数 (HPI),这是一个结合了语言数量(L)、出生后时间和页面浏览量 (2008-2013) 信息的指标。我们将 Pantheon 1.0 数据集与 2003 年出版的《人类成就》一书中的数据进行了比较,并与个人游戏和运动(网球、游泳、赛车和国际象棋)的外部成就衡量标准进行了比较。在所有这些情况下,我们发现受欢迎程度的衡量标准(L 和 HPI)与个人成就高度相关,这表明全球受欢迎程度的衡量标准代表了个人的历史影响。
数据收集和介绍
作者使用Freebase(现WIKIDATA) 和 Wikipedia构建一个只包含个人传记的数据集。其中包含了Wikipedia上的所有语言版本,并手动矫正了人物的时间跨度和出生地,分类了人物的职业类别。
数据收集流程
首先通过 Freebase(现WIKIDATA) 的所有被归类为个人的实体数据库确定了 2,394,169 人的名单。接下来,我们使用个人的唯一维基百科文章 ID 将个人链接到他们的英文维基百科页面,从那里我们获得了截至 2013 年 5 月使用维基百科 API 的其他语言版本的信息,将集合缩小到维基百科中存在的 997,276 个人。后来,我们用 2008 年 1 月至 2013 年 12 月期间每个人的页面浏览量数据转储中所有语言版本的月度页面浏览数据补充了这些数据。
数据集简介
Pantheon 1.0 数据集仅限于维基百科中超过 25 种不同语言的 11,341 份传记 (L>25)。
人物职业分类
这个分类法通过三个层级来组织信息:最具体的“职业”(occupation)、较广泛的“行业”(industry)和最宽泛的“领域”(domain)。
位置信息识别
作者根据当前的政治边界,按国家/地区划分个人出生地。
出生地是通过抓取 Freebase 和 Wikipedia 获得的,并通过在 Yahoo Placemaker (http://developer.yahoo.com/geo/placemaker/) 和 Google Maps 地理编码 (https://developers.google.com/maps/documentation/geocoding/) API 中使用模糊位置匹配和地理编码以及手动验证来进一步细化。
为了将出生地映射到国家/地区,我们使用地理编码 API 中提供的模糊位置匹配,对来自 Freebase 的原始数据进行标准化,以经纬度表示出生城市。然后使用通过 API 获取的坐标,然后使用geonames.org 上提供的反向地理编码 API 根据当今的地理边界将个人映射到国家/地区。
受欢迎程度指标构建
- 1.L:有关历史人物的文章的不同维基百科语言版本的数量
- 2.Historical Popularity Index (HPI):公式4
- 包含个人的年龄 (A),计算为 2013 年(数据收集时间)减去出生年份;
- 一个 L* 度量,通过考虑不同语言之间的网页浏览量集中度来调整 L(要对主要使用少数语言的网页浏览量的字符进行折扣,见公式 (1);
- 不同时间的网页浏览量的变异系数(CV)(对受欢迎时间较短的角色进行折扣);
- 非英语维基百科网页浏览量( v^{NE}) 以进一步减少任何英语偏见。
数据展示
在几个选定时期中L和HPI最高的10人:https://www.nature.com/articles/sdata201575/tables/3
数据集在线网站:https://pantheon.world/
主要作者简介
Amy Zhao Yu
MIT Media Lab
分享者介绍