解密文本情感:数字人文研究的新利器
文摘
2024-11-27 15:53
陕西
莎士比亚的戏剧是否隐藏着不为人知的情感密码?古代文学中蕴藏着哪些时代情绪的变迁?如何利用人工智能技术,量化分析文学作品的情感,并以此深入理解文学创作和阅读体验?情感分析(Sentiment Analysis, SA),这一新兴的数字人文研究方法,为我们提供了探索这些问题的全新视角。它通过将文本转化为机器可读的数据,自动识别和量化文本中的情感内容,为文学研究注入了新的活力。《Digital Humanities Quarterly》上的一篇的综述文章——《Sentiment Analysis in Literary Studies. A Critical Survey》,深入探讨了情感分析在数字人文领域的应用及其面临的挑战。叙事学研究: 通过分析文本情感的起伏变化,可以识别故事的“基本形状”、关键情节和人物情感弧线。读者反应研究: 结合读者评论、网络阅读平台数据等,可以分析读者对不同文本段落的情感反应,进而理解文本的接受过程和影响力,例如对Wattpad平台读者评论的情感分析。历史文本研究: 可以探索不同时期文本的情感表达差异,揭示社会文化变迁对情感表达的影响,例如对历史政治演讲稿的情感分析。类型划分和作者归属研究: 情感特征可以作为文本分类和作者鉴定的依据之一,辅助进行类型划分和作者归属研究。文章梳理了情感分析的工具和方法,并将其分为三个部分:- 维度模型(valence,positive vs. negative, e.g., “good” vs. “bad”;arousal,calm vs. intense, e.g., “pleasurable” vs. “exciting”),这两个维度的指标组合起来可以表示人类的任意情感。很多SA工具选择该理论,并进一步简化为positivevs. negative两个指标的组合,指标为[-1,1]之间的实数(连续的、非离散的)。
- •8类joy, trust, fear, surprise, sadness, anticipation, anger, and disgust[Plutchik 1991]human behavior •7:anger, contempt, disgust, fear, joy, surprise, and sadness[Ekman 1993]facial expressions2. 情感资源: 包括词表、向量空间模型和标注文本。
- 3. 计算方法: 包括词频统计、句法结构分析和机器学习。
文学语言的复杂性: 反讽、象征、隐喻等修辞手法增加了情感识别的难度。 情感资源的局限性: 现有情感词典难以完全覆盖文学文本的丰富情感表达,尤其对于历史文本。 标注数据的缺乏: 机器学习模型需要大量标注数据进行训练,而高质量的文学文本情感标注数据仍然匮乏。 理论与实践的脱节: 如何将情感分析的结果与现有的文学理论有效结合,仍然需要进一步探索。开发更精细的情感分析模型: 能够识别更复杂的情感表达,例如反讽、幽默等。构建更丰富的文学情感资源: 包括多语言、跨文化的情感词典和标注语料库。加强理论与实践的结合: 发展基于情感分析的文学理论和研究方法。情感分析是数字人文研究的一把利器,但它并非万能钥匙。如何有效利用,还得看用的人!数字人文情感分析工具:Syuzhet、Vader、SentiArt 等优缺点及适用场景在数字人文研究中,情感分析工具的选择至关重要。不同的工具基于不同的情感理论、资源和算法,各有优劣,适用于不同的研究场景。以下分析几种常用工具及新兴的大语言模型,并比较它们的优缺点和适用场景:优点: 简单易用,可视化功能强大,可以快速生成情感弧线图,适合探索性研究。开源且可定制。缺点: 精度较低,难以处理否定、反讽等复杂情感,词典较为简单,易受语境影响。平滑算法可能导致数据失真。适用场景: 快速分析长篇文本的情感走向,例如小说、史诗等。优点: 速度较快,考虑了情感强度修饰词,对社交媒体文本效果较好。集成在 NLTK 库中,方便使用。缺点: 主要关注效价维度,词典基于社交媒体语料,对文学文本的适用性有限。处理复杂句法和反讽仍有困难。适用场景: 分析当代文本,特别是社交媒体数据、评论等。优点: 使用词向量模型构建情感词典,可以适应不同语境和语言,命中率高。可以通过 Orange 软件进行可视化操作,方便非编程人员使用。缺点: 需要训练语料,对历史文本等语料不足的情况处理困难。对功能词赋予情感值可能影响结果。适用场景: 分析特定领域或作者的文本,前提是有足够的语料进行词向量训练。优点: 整合了多个情感词典,可以测量多达 250 个情感维度,提供更细粒度的情感分析。方便非编程人员使用。缺点: 维度之间存在重叠,部分维度并非情感维度。词典固定,难以适应不同语境。适用场景: 需要对多种情感进行细致分析的研究,例如跨文化情感比较。优点: 结合了自然语言处理和机器学习技术,可以分析句子级别的情感,精度较高。功能强大,包含多种 NLP 工具。缺点: 使用较为复杂,需要编程基础。默认模型基于当代语料,需要重新训练才能适应其他类型的文本。标注成本较高。适用场景: 需要高精度情感分析的研究,例如对特定作品的细致分析。优点: 基于强大的 Transformer 架构,可以利用预训练的语言模型进行情感分析,精度高,支持多种语言。方便使用,代码简洁。可以通过微调适应不同领域。缺点: 需要一定的 Python 编程基础。预训练模型可能存在偏见,需要谨慎使用。适用场景: 对各种类型文本进行情感分析,特别是需要高精度和多语言支持的研究。优点: 强大的语言理解能力,可以处理更复杂的语义和情感表达,例如反讽、幽默等。可以通过少量样本进行微调,适应特定任务。缺点: 需要大量的计算资源,使用成本较高。模型的解释性较差,难以理解其推理过程。可能生成不准确或带有偏见的结果。适用场景: 探索性研究,挖掘文本中的潜在情感模式。辅助进行文本标注,提高效率。选择合适的工具需要根据具体研究问题、数据类型和研究资源进行综合考虑。对于初步探索性研究,Syuzhet 和 Vader 等简单易用的工具是不错的选择。对于需要更高精度和更细粒度分析的研究,则可以考虑 SentiArt、Stanford CoreNLP 或 Transformers Pipelines。对于需要处理复杂情感和语义的研究,大语言模型可以提供新的思路,但需要谨慎使用。