13915个英语词的效价、唤醒度和优势度

文摘   2024-12-19 16:11   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 183 



Warriner, A.B., Kuperman, V. & Brysbaert, M. Norms of valence, arousal, and dominance for 13,915 English lemmasBehav Res 45, 1191–1207 (2013). https://doi.org/10.3758/s13428-012-0314-x


摘要


有关词汇情感意义的信息在情绪、情感、词汇识别与记忆以及文本情感分析等研究领域中具有重要作用。传统上,情绪可分为三个组成部分:效价(刺激的愉悦程度)、唤醒度(刺激引发的情绪强度)和优势度(刺激所施加的控制程度)。到目前为止,几乎所有研究都基于 Bradley 和 Lang 在 1999 年收集的 1034 个单词的 ANEW 规范。本研究将该数据库扩展到近 14000 个英语词元,为研究人员提供了更丰富的信息来源,包括情感规范中的性别、年龄和教育差异等。作为新可能性的一个示例,本研究纳入了 Van Overschelde、Rawson 和 Dunlosky 在 2004 年收集的几乎所有类别规范(如疾病类型、职业和禁忌词)中的刺激词,使得在语义记忆研究中纳入情感因素成为可能。

一、研究背景
在情绪和情感、词汇识别与记忆、文本情感分析等研究领域,词汇的情感意义信息至关重要。以往研究多基于 Bradley 和 Lang(1999)收集的 1,034 个单词的 ANEW 规范,但该规范在大规模研究及相关算法应用中存在局限性。因此,作者决定扩展数据库,收集多数常用英语实词(共 13,915 个)的情感评级,为研究者提供更丰富信息,包括情感规范中的性别、年龄和教育差异等。

二、研究方法
2.1 刺激材料
刺激词从三个来源汇编:Bradley 和 Lang 的 ANEW 数据库、Van Overschelde 等人的类别规范以及 SUBTLEX-US 语料库。最终确定 13,915 个单词,涵盖不同词性,平均词频为 1,056(,范围为 1 至 314,232,中位数为 87)。将刺激词分配到 43 个列表,每个列表含 10 个校准词、40 个 ANEW 控制词及随机选择的非 ANEW 词。校准词用于给参与者提供刺激范围感,控制词用于估计数据与 ANEW 规范的相关性。具体来说,校准词在不同维度上的选择旨在涵盖整个刺激范围,例如,在效价维度,“jail”(1.91)代表较低的效价,而 “free”(8.25)则代表较高的效价。

2.2 数据收集
通过 Amazon Mechanical Turk 众包网站招募参与者,限制为美国居民且每人仅完成一个列表(即一次任务)。参与者对每个单词在单一维度(效价、唤醒或优势)上用 9 点量表进行评级,指令基于 ANEW 项目并做适当修改。平均每次任务约 14 分钟,参与者完成任务可获 75 美分报酬。收集参与者年龄、性别、第一语言、童年居住地区和教育水平等信息,数据收集于 2012 年 3 月 14 日至 5 月 30 日完成。

三、研究结果
3.1 数据处理
共收集 1,085,998 个评级,约 3% 因缺失、无变化或完成评级过少而被删除。对效价和唤醒评级进行事后反转以保持直观量表(如从低到高为悲伤到快乐),并根据参与者评级与单词均值相关性调整部分数据。最终得到效价 303,539 个观测值(占原始数据池 95%)、唤醒 339,323 个观测值(89%)和优势 281,735 个观测值(74%),1,827 名参与者贡献最终数据集,其中 362 人完成两个或以上维度任务,144 人在单维度完成两个或以上任务。

3.2 描述性统计
效价和优势评级分布呈负偏态,55% 的单词在这两个维度上评级高于中位数;唤醒评级呈正偏态,仅 20% 的单词评级高于 5(表示更兴奋)。从图 1 中可以清晰看到,效价和优势的分布在低值端相对较少,而唤醒在高值端相对较少。效价评级参与者间较一致,唤醒和优势评级变异性更大。从图 2 的散点图看,效价和优势在变异性方面相似,极端(正或负)词比中性词变异性小;唤醒则不同,使人平静的词比使人兴奋的词评级更一致。例如,在效价维度,像 “pedophile”(1.26)和 “happiness”(8.48)这样极端的词,其标准差相对较小,而中性词的标准差相对较大。


3.3 维度间相关性
发现唤醒与效价呈典型 U 形关系,非常积极或消极的词比中性词更具唤醒性;唤醒与优势也呈 U 形关系;效价与优势呈线性关系,让人感觉更快乐的词也让人感觉更有控制感。但优势与效价的高相关性对其作为独立情感维度的假设提出质疑。从图 3 中可以直观看到,在唤醒与效价的散点图(a)中,极低和极高效价的词对应着较高的唤醒值;在唤醒与优势的散点图(b)中,低优势和高优势的词在唤醒上也呈现出一定的趋势。


3.4 可靠性
将本研究评级与其他研究(包括 ANEW)比较,效价在跨研究和语言中相关性高,唤醒和优势相关性较低,但跨语言相关性强于本研究中性别、年龄和教育群体间相关性。情感评级与语义变量的相关性多为弱到中等,与直接涉及情感状态的变量相关性较强。

3.5 与词汇属性相关性
从图 4 可知,早期习得的词更积极、强烈和平静,平均而言,习得年龄增加,词更消极和弱(受控制);词频越高,越快乐、强烈和平静;高形象性的词更积极和强(受控制),形象性极低或极高的词更平静,中间形象性的词更兴奋;感官体验越强,词越兴奋,且与效价在感官体验范围上半部分呈正相关,与优势无可靠关系。例如,在词频与情感维度的关系中,高频词如 “the”“and” 等在效价维度上更倾向于积极,而低频词如 “molester”(1.48)等则更消极。

3.6 人口统计学与评级的交互作用
参与者按性别、年龄(中位数分割为年轻和年长)和教育水平(二分)划分。三个维度在年轻与年长、低教育与高教育群体间平均评级有显著差异,男性在所有维度上评级略高于女性。回归分析显示年龄、性别和教育的主效应显著,多为独特贡献,且多数二维和三维交互作用显著,如年龄与教育水平对所有三个维度的交互作用(见图 5)。在效价和唤醒维度,高教育水平者年龄对评级影响小,低教育水平年轻人评级更高;在优势维度则相反。

3.7 性别差异
性别与词频、习得年龄对情感评级存在交互作用。女性对低频词给出更极端负 / 弱评级,对高频词给出更极端正 / 强评级,对最早和最晚习得的词也更极端;男性对高频和早习得的词认为更不兴奋,女性则相反。高频词上,男性评级者分歧更大,女性方差随词频增加而减小(见图 6 和图 7)。例如,在词频与性别交互作用对效价评级的影响中,低频词如 “pedophile”,女性给出更低的效价评级,而高频词如 “hat”,女性给出更高的效价评级。



3.8 语义类别
以疾病和职业为例,疾病类词多唤起负面情感、高唤醒和受控制感,性传播疾病和常见恐惧疾病更明显(见图 8);职业中,高薪职业多被评为负面,“警察” 唤起高唤醒但负面,“消防员” 唤起高唤醒且正面,“图书管理员” 积极但不唤起兴奋(见图 9)。对武器、禁忌词和性相关词的评级存在性别差异,男性对武器态度更积极、兴奋和有控制感,对禁忌词和性相关词评级总体更高(见图 10、图 11 和图 12)。

四、研究结论
本研究通过众包平台收集近 14,000 个英语单词的情感规范,为语言研究提供更广泛材料,有助于推进语言与情感相互作用研究。技术进步使大规模数据收集和基于词共现计算词特征成为可能,本研究数据集有助于提高计算估计准确性,并为针对特定读者群体创作文本提供依据。同时,发现情感评级存在性别、年龄和教育差异,但除特定研究外,使用总体评级通常有效。



作者信息

Amy Beth Warriner
Department of Linguistics and Languages, McMaster University, Togo Salmon Hall 626, 1280 Main Street West, Hamilton, Ontario, L8S 4M2, Canada

分享者

安静静
jingjing-an.github.io
南京大学新闻传播学院2024级专业硕士研究生

南京大学计算传播学实验中心成员

研究方向:计算叙事、数据分析

计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章