开发微博简体中文心理语言分析词典

文摘   2024-11-12 13:22   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 163 

Gao, R., Hao, B., Li, H., Gao, Y., & Zhu, T. (2013). Developing simplified Chinese psychological linguistic analysis dictionary for microblog. In Brain and health informatics: International conference, BHI 2013, Maebashi, Japan, October 29-31, 2013. proceedings (pp. 359-368). Springer International Publishing.


摘要

人们使用的词语可以揭示他们的情绪状态、意图、思维方式、个体差异等。LIWC(Linguistic Inquiry and Word Count)已被广泛用于心理学文本分析,其词典是核心。LIWC 词典的繁体中文版本已经发布,它是 LIWC 英语词典的翻译。然而,简体中文是世界上使用最广泛的语言,与繁体中文存在细微的差异。此外,英文 LIWC 词典和繁体中文词典都是为相对正式的文本开发的。如今,微博在中国越来越受欢迎。原始 LIWC 词典较少考虑微博流行词,因此不太适用于微博的文本分析。在本研究中,根据 LIWC 类别建立了简体中文 LIWC 词典。将繁体中文词典翻译成简体中文后,将微博中最常用的 5000 个单词添加到词典中。四名心理学研究生对每个单词是否属于一个类别进行了评分。这 4 位评委对简体中文 LIWC 词典的信效度进行了检验。这个新词典可以在未来为微博上的所有文本分析做出贡献。

引入

快速发展的社交媒体——微博对社会、政治、经济、文化和人们的日常生活产生了重大影响。研究人员在微博上进行了大量研究。计算机文本分析方法,如 LIWC(语言查询和字数统计)已广泛用于社交媒体研究。LIWC 词典是 LIWC 文本分析方法的核心。

本研究根据 LIWC 词典和 CLIWC 词典建立了特定的专用简体中文 LIWC 词典 (SCLIWC),然后将微博高频词加入 SCLIWC 中。这本词典,SCMBWC(简体中文微博字数)是一种很有前途的方法,适用于基于微博的心理学和其他类型的研究。

方法

1.简体中文 LIWC (SCLIWC) 的发展

为了最好地保证 SCLIWC 词典的效率,每个词汇项都进行了人工检查和验证。招募中国科学院大学 21 名研究生开发 SCLIWC 词典。他们都是以简体中文为母语的人。

首先,将 21 名法官平均分为 3 组。各组独立逐一处理 CLIWC词汇项,并生成响应简体中文词汇项。其次,另外三位熟悉 LIWC 词典框架的评委(也是以简体中文为母语的人)(包括本文的作者)验证了 SCLIWC 的这三个版本。

最后,还有一些不同的繁体中文单词对应于同一个简体中文单词。合并了 SCLIWC 中的一些词汇项。表 1 显示了 CLIWC 中多个词汇项目的实例在 SCLIWC 中共享相同的单词(相同的汉字)。

2.新浪微博高频词选择

基于新浪微博平台,我们开发了一款应用——mental map。通过调用新浪微博 API,通过该应用收集了 99,925,821 名用户的基本信息(专属微博状态)。我们采用以下规则来筛选 99,925,821 个用户:

1. 排除近三个月未发布状态或发布状态总数少于 512 个的用户。2. 每天发布 40 个以上状态的用户,极有可能是广告用户或文娱明星用户。他们也被排除在外。

根据以下步骤选择高频词:首先,分别计算两组的用户状态文本,得到每组前 5,000 个高频词的两组;我们将这两个词集命名为 S1 和 S2。然后,我们合并了两个组的用户状态文本,并计算了这个合并组中前 5,000 个高频词的集合。我们将这个词集命名为 S3。表 2 显示了这三个词集的重叠。S1 和 S2 有超过 84% 的高频词是共同的。S1 和 S2 分别有 91.62% 和 93.04% 的单词与 S3 相同。重叠表明,我们随机选取的两个样本组都能代表新浪微博环境下使用的高频词。最后,排除停用词和 SCLIWC 词典中已有的词,选择合并组的前 5000 个高频词作为 SCMBWC 词典的候选词。在图 2 中,显示了前 5000 个高频词的词频率。新浪微博用户总数为 832737854 万。特定单词的词频率等于该单词在整篇文本材料中出现的次数 832737854,然后加上 10000。词频率受长尾分布的影响。因此,前 5000 个高频词可以覆盖新浪微博状态中频繁出现的大部分词。图 3 给出了新浪微博中高频词的前 100 个单词。

3.SCMBWC 词典开发、内部可靠性和外部有效性

第一步:将高频词分配到 SCLIWC 类别中。中国科学院心理研究所的 4 名心理学博士生被聘为评委。首先,他们独立地将新浪微博高频词归入 SCLIWC 类别。

第二步:评委评分阶段。在积累了四个版本的类别词表之后,建立了 SCMBWC 词典类别量表。

第三步:另外三位熟悉 SCMBWC 词典框架的评委(包括本文的作者)对 SCMBWC 词典类别进行评分,重点关注纳入和排除。

在开发 SCLIWC 的过程中,三名法官的同意率约为 94%。在 SCMBWC 开发中,三名裁判同意子步骤二和子步骤三的百分比超过 95%

结果

从 1,953,485 名微博活跃用户中随机挑选了 2000 名用户。我们分别通过 LIWC2007 软件使用 SCLIWC 和 SCMBWC 词典处理它们的状态文本。图 4 显示了 SCLIWC 和 SCMBWC 词典捕获的单词在总字数中的百分比。SCMBWC 词典将词典捕获的单词提高了约 11%。SCLIWC 和 SCMBWC 词典捕获的每个用户单词的平均值为 SCLIWC 的 43.56% 和 SCMBWC 的 54.68%。每个特定用户的状态文本的改进如图 5 所示。显然,对于每个用户,他或她在微博状态中使用的单词都被 SCMBWC 词典识别出来。在表 3 中,列出了心理和个人关注类别的特征平均值和标准差。很明显,SCMBWC 词典涵盖了更高比例的心理和个人关注相关词。因此,可以从每个用户的微博文本内容中提取更多信息。这可能有助于在社交媒体网站中进一步发现知识。

在使用 LIWC2007 处理中文内容时,我们发现它是为西方语言设计的,有时无法适当地处理中文内容。我们已经实现了一个原型系统 TextMind,它最适合处理简体中文。使用 SCLIWC 和 SCWBWC,TextMind 可以有效地工作并实现高性能。TextMind 提供了简体中文分析的一体化解决方案。

TextMind 链接:http://ccpl.psych.ac.cn/textmind/



主要作者简介

Bibo Hao
IBM Research; Chinese Academy of Sciences


分享者介绍

陈敏扬
chen-minyang.github.io
南京大学新闻传播学院硕士研究生
南京大学计算传播学实验中心成员
研究方向:文本分析


计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章