13915个英语词的效价、唤醒度和优势度

文摘 2024-12-19 16:11 江苏

『柏拉图说』是由南京大学计算传播学实验中心的成员们于2022年4月发起的论文精读与推介活动，我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域，紧跟专业研究热点，延伸学术视角，拓展群体智慧。

柏拉图说 论文推介第 183 篇

Warriner, A.B., Kuperman, V. & Brysbaert, M. Norms of valence, arousal, and dominance for 13,915 English lemmas. Behav Res 45, 1191–1207 (2013). https://doi.org/10.3758/s13428-012-0314-x

摘要

有关词汇情感意义的信息在情绪、情感、词汇识别与记忆以及文本情感分析等研究领域中具有重要作用。传统上，情绪可分为三个组成部分：效价（刺激的愉悦程度）、唤醒度（刺激引发的情绪强度）和优势度（刺激所施加的控制程度）。到目前为止，几乎所有研究都基于 Bradley 和 Lang 在 1999 年收集的 1034 个单词的 ANEW 规范。本研究将该数据库扩展到近 14000 个英语词元，为研究人员提供了更丰富的信息来源，包括情感规范中的性别、年龄和教育差异等。作为新可能性的一个示例，本研究纳入了 Van Overschelde、Rawson 和 Dunlosky 在 2004 年收集的几乎所有类别规范（如疾病类型、职业和禁忌词）中的刺激词，使得在语义记忆研究中纳入情感因素成为可能。

一、研究背景

在情绪和情感、词汇识别与记忆、文本情感分析等研究领域，词汇的情感意义信息至关重要。以往研究多基于 Bradley 和 Lang（1999）收集的 1,034 个单词的 ANEW 规范，但该规范在大规模研究及相关算法应用中存在局限性。因此，作者决定扩展数据库，收集多数常用英语实词（共 13,915 个）的情感评级，为研究者提供更丰富信息，包括情感规范中的性别、年龄和教育差异等。

二、研究方法

2.1 刺激材料

刺激词从三个来源汇编：Bradley 和 Lang 的 ANEW 数据库、Van Overschelde 等人的类别规范以及 SUBTLEX-US 语料库。最终确定 13,915 个单词，涵盖不同词性，平均词频为 1,056（，范围为 1 至 314,232，中位数为 87）。将刺激词分配到 43 个列表，每个列表含 10 个校准词、40 个 ANEW 控制词及随机选择的非 ANEW 词。校准词用于给参与者提供刺激范围感，控制词用于估计数据与 ANEW 规范的相关性。具体来说，校准词在不同维度上的选择旨在涵盖整个刺激范围，例如，在效价维度，“jail”（1.91）代表较低的效价，而 “free”（8.25）则代表较高的效价。

2.2 数据收集

通过 Amazon Mechanical Turk 众包网站招募参与者，限制为美国居民且每人仅完成一个列表（即一次任务）。参与者对每个单词在单一维度（效价、唤醒或优势）上用 9 点量表进行评级，指令基于 ANEW 项目并做适当修改。平均每次任务约 14 分钟，参与者完成任务可获 75 美分报酬。收集参与者年龄、性别、第一语言、童年居住地区和教育水平等信息，数据收集于 2012 年 3 月 14 日至 5 月 30 日完成。

三、研究结果

3.1 数据处理

共收集 1,085,998 个评级，约 3% 因缺失、无变化或完成评级过少而被删除。对效价和唤醒评级进行事后反转以保持直观量表（如从低到高为悲伤到快乐），并根据参与者评级与单词均值相关性调整部分数据。最终得到效价 303,539 个观测值（占原始数据池 95%）、唤醒 339,323 个观测值（89%）和优势 281,735 个观测值（74%），1,827 名参与者贡献最终数据集，其中 362 人完成两个或以上维度任务，144 人在单维度完成两个或以上任务。

3.2 描述性统计

效价和优势评级分布呈负偏态，55% 的单词在这两个维度上评级高于中位数；唤醒评级呈正偏态，仅 20% 的单词评级高于 5（表示更兴奋）。从图 1 中可以清晰看到，效价和优势的分布在低值端相对较少，而唤醒在高值端相对较少。效价评级参与者间较一致，唤醒和优势评级变异性更大。从图 2 的散点图看，效价和优势在变异性方面相似，极端（正或负）词比中性词变异性小；唤醒则不同，使人平静的词比使人兴奋的词评级更一致。例如，在效价维度，像 “pedophile”（1.26）和 “happiness”（8.48）这样极端的词，其标准差相对较小，而中性词的标准差相对较大。

3.3 维度间相关性

发现唤醒与效价呈典型 U 形关系，非常积极或消极的词比中性词更具唤醒性；唤醒与优势也呈 U 形关系；效价与优势呈线性关系，让人感觉更快乐的词也让人感觉更有控制感。但优势与效价的高相关性对其作为独立情感维度的假设提出质疑。从图 3 中可以直观看到，在唤醒与效价的散点图（a）中，极低和极高效价的词对应着较高的唤醒值；在唤醒与优势的散点图（b）中，低优势和高优势的词在唤醒上也呈现出一定的趋势。

3.4 可靠性

将本研究评级与其他研究（包括 ANEW）比较，效价在跨研究和语言中相关性高，唤醒和优势相关性较低，但跨语言相关性强于本研究中性别、年龄和教育群体间相关性。情感评级与语义变量的相关性多为弱到中等，与直接涉及情感状态的变量相关性较强。

3.5 与词汇属性相关性

从图 4 可知，早期习得的词更积极、强烈和平静，平均而言，习得年龄增加，词更消极和弱（受控制）；词频越高，越快乐、强烈和平静；高形象性的词更积极和强（受控制），形象性极低或极高的词更平静，中间形象性的词更兴奋；感官体验越强，词越兴奋，且与效价在感官体验范围上半部分呈正相关，与优势无可靠关系。例如，在词频与情感维度的关系中，高频词如 “the”“and” 等在效价维度上更倾向于积极，而低频词如 “molester”（1.48）等则更消极。

3.6 人口统计学与评级的交互作用

参与者按性别、年龄（中位数分割为年轻和年长）和教育水平（二分）划分。三个维度在年轻与年长、低教育与高教育群体间平均评级有显著差异，男性在所有维度上评级略高于女性。回归分析显示年龄、性别和教育的主效应显著，多为独特贡献，且多数二维和三维交互作用显著，如年龄与教育水平对所有三个维度的交互作用（见图 5）。在效价和唤醒维度，高教育水平者年龄对评级影响小，低教育水平年轻人评级更高；在优势维度则相反。

3.7 性别差异

性别与词频、习得年龄对情感评级存在交互作用。女性对低频词给出更极端负 / 弱评级，对高频词给出更极端正 / 强评级，对最早和最晚习得的词也更极端；男性对高频和早习得的词认为更不兴奋，女性则相反。高频词上，男性评级者分歧更大，女性方差随词频增加而减小（见图 6 和图 7）。例如，在词频与性别交互作用对效价评级的影响中，低频词如 “pedophile”，女性给出更低的效价评级，而高频词如 “hat”，女性给出更高的效价评级。

3.8 语义类别

以疾病和职业为例，疾病类词多唤起负面情感、高唤醒和受控制感，性传播疾病和常见恐惧疾病更明显（见图 8）；职业中，高薪职业多被评为负面，“警察” 唤起高唤醒但负面，“消防员” 唤起高唤醒且正面，“图书管理员” 积极但不唤起兴奋（见图 9）。对武器、禁忌词和性相关词的评级存在性别差异，男性对武器态度更积极、兴奋和有控制感，对禁忌词和性相关词评级总体更高（见图 10、图 11 和图 12）。

四、研究结论

本研究通过众包平台收集近 14,000 个英语单词的情感规范，为语言研究提供更广泛材料，有助于推进语言与情感相互作用研究。技术进步使大规模数据收集和基于词共现计算词特征成为可能，本研究数据集有助于提高计算估计准确性，并为针对特定读者群体创作文本提供依据。同时，发现情感评级存在性别、年龄和教育差异，但除特定研究外，使用总体评级通常有效。

作者信息

Amy Beth Warriner

Department of Linguistics and Languages, McMaster University, Togo Salmon Hall 626, 1280 Main Street West, Hamilton, Ontario, L8S 4M2, Canada

分享者

安静静

jingjing-an.github.io

南京大学新闻传播学院2024级专业硕士研究生

南京大学计算传播学实验中心成员

研究方向：计算叙事、数据分析

计算传播学园

寻找人类传播行为的基因，通往计算传播研究之路

衡量殖民主义的影响：亚洲、非洲的新数据集

留意差距：公众对人工智能和社会技术想象的看法

数字化治理中国：一个用来评估 101 个中国城市数字治理的框架

13915个英语词的效价、唤醒度和优势度

儒家宗族阻碍中国金融市场的发展

人工智能焦虑？比较英国、中国和印度报纸上人工智能的社会技术想象

生成式人工智能对就业的短期影响：来自一个在线劳动平台的证据

近现代中国城市的国际知名度

有什么好怕的？从技术可供型的角度理解人工智能的多维恐惧

资源保护：一个对压力概念化的新尝试

替罪羊还是被操纵的受害者？中美财经新闻中人民币汇率争端的隐喻呈现

序列分析：过去、现在与未来

新闻媒体对政治精英的影响：调查国会的战略反应

探索新冠疫情期间强制远程工作时的公众情绪

专著危机对传播学领域的影响

计算传播学实验中心师生在2024年NCA年会上荣获两个重要奖项

在传播福音时扩散知识：1840-1920年中国新教与经济繁荣

Pantheon 1.0：一个经过人工验证的全球著名传记数据集

叙事反转与叙事成功

使用大语言模型和结构叙事文本嵌入绘制新闻叙事图谱

欧洲媒体是否忽视女性政治家？议员知名度的比较分析

“2024年高等教育数字化转型与教育现代化实践研究”专项课题评选结果公示

通过政治领袖和文化机构的语言研究政治和文化的长期趋势

AI的简单宏观经济学

测量创新的扩散：基于引用分析

晚清铁路建设与辛亥革命

开发微博简体中文心理语言分析词典

LayoutParser：一个统一的基于深度学习的文档图像分析工具包

多样性和网络联系对创新的影响：一个新科学领域的出现

清代的文字狱与自我审查

对COVID-19爆发的公众关注、风险认知、情绪和行为反应评估：中国的社交媒体监测

发展中国劳动力市场的技能分类法揭示了劳动力市场两极分化的程度

使用报纸数据文本分析的叙事经济学：对 1928-1936 年美国白银购买法案和中国价格水平的新见解

揭开社交媒体上的道德和情感话语：三个案例的研究

Archigos 简介：政治领袖数据集

Newswire：一个跨越了一个世纪的大规模结构化数据集

当国家认同遇上阴谋论：国家认同语言在公众参与和关于 COVID-19 阴谋论的讨论中的传染

经济不确定性与分裂性政治：来自西班牙的证据

社交媒体大数据分析的系统综述

ChatGPT在文本标注上优于众包工作者

在传播学领域跨学科性和期刊影响力的关系

战争还是仅仅是摩擦？审视《纽约时报》和《中国日报》有关当前中美贸易争端的新闻报道

内战的经济成本：综合反事实证据和种族分化的影响

当危险来袭：追踪美国对威胁的集体反应的语言工具

人际交往，认知和手工型技能：他们是如何塑造就业和薪资的？

范式迷失了？传播学期刊中的批判研究孤岛

驱逐后的报道：驱逐记者对外国新闻报道的影响

政治治理与城市体系：中国古代首都迁徙对人口分布的持续冲击

欺负讲坛？Twitter 用户对特朗普总统推文的参与度

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉