Python、R对小说进行文本挖掘和层次聚类可视化分析案例

科技科技 2024-10-25 17:39 浙江

原文链接：http://tecdat.cn/?p=5673

《第_二十二_条军规》是美国作家约瑟夫·海勒创作的长篇小说，该小说以第二次世界大战为背景，通过对驻扎在地中海一个名叫皮亚诺扎岛（此岛为作者所虚构）上的美国空军飞行大队所发生的一系列事件的描写，揭示了一个非理性的、无秩序的、梦魇似的荒诞世界（点击文末“阅读原文”获取完整代码数据）。

相关视频

我喜欢整本书中语言的创造性使用和荒谬人物的互动。本文对该小说进行文本挖掘和可视化。

数据集

该文有大约175,000个单词，分为42章。我在网上找到了这本书的原始文本版本。

我使用正则表达式和简单字符串匹配的组合在Python中解析文本。

我shiny在R中以交互方式可视化这些数据集。

地理图

 geo<- catch22\[( geo$Time > chapters\[1\]) & ( geo$Time < (chapters\[2\] + 1)),\]
  paths_sub <-  paths\[( paths$time > chapters\[1\]) & ( paths$time < (chapters\[2\] + 1)),\]
  
  # 绘图
  p <- ggplot() + borders("world", colour="black", fill="lightyellow") + 
    ylab(NULL) + xlab(NULL) +

 # 仅在有条件的情况下尝试绘制位置和路径

  if (nrow( geo_sub) != 0) {
     p + geom\_point(data= geo\_sub, aes(x = Lon, y = Lat), size=3, colour='red') +

可视化映射了整本书中提到的地中海周围位置。

人物章节关系

ggplot(catch22, aes(x=Chapter, y=Character, colour=cols)) +
      geom_point(size=size, shape='|', alpha=0.8) +
      scale\_x\_continuous(limits=c(chapters\[1\],(chapters\[2\] + 1)), expand=c(0,0), breaks=(1:42)+0.5, labels=labs) +

该图基本上代表了书中提到不同人物的序列。

我将数据绘制为标准散点图，章节为x轴（因为它与时间相似），人物为离散y轴。

人物共现矩阵

ggplot(coloca, aes(x=Character, y=variable, alpha=alpha)) + 
    geom_tile(aes(fill=factor(cluster)), colour='white') + 
    ylab(NULL) + xlab(NULL) +

用于构建此可视化的数据与前一个中使用的数据完全相同，但需要进行大量的转换。

聚类为此图添加了另一个维度。在整本书上应用层次聚类，以尝试在角色中找到社群。使用AGNES算法对字符进行聚类。对不同聚类方案进行人工检查发现最优聚类，因为更频繁出现的角色占主导地位最少。这是六个簇的树形图：

    ag <- agnes(cat2\[,-1\], method="complete", stand=F)
    # 从树状图中切出聚类
    cluster <- cutree(ag, k=clusters)

应该注意，聚类是在整个文本上执行的，而不是章节。按聚类排序会将角色带入紧密的社区，让观众也可以看到角色之间的某些交互。

特色词

 ggplot( pos2, aes(Chapter, normed, colour=Word, fill=Word)) + 
      scale\_color\_brewer(type='qual', palette='Set1', guide = FALSE) +

堆叠条形图更好地显示了单词所在的章节。

结论

我在这个过程中学到了很多东西，无论是在使用方面，还是在shiny。

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《Python、R对小说进行文本挖掘和层次聚类可视化分析案例》。

点击标题查阅往期内容

用于NLP的Python：使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用：情感分析

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例：LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理（NLP）：情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

R语言中的生存分析Survival analysis晚期肺癌患者4例

R语言分布滞后非线性模型（DLNM）空气污染研究温度对死亡率影响建模应用

【专题】适应新型电力系统的电力市场变革与关键问题报告PDF合集分享（附原数据表）

R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究

数据分享|R语言武汉流动人口趋势预测：灰色模型GM（1，1）、ARIMA时间序列、logistic逻辑回归模型

体验游浪潮，推动旅游业变革|报告汇总PDF洞察（附原数据表）

【视频】LSTM模型原理及其进行股票收盘价的时间序列预测讲解|附数据代码

【专题】2024年人工智能AI行业报告汇总PDF洞察（附原数据表）

数据分享|R语言分析上海空气质量指数数据：kmean聚类、层次聚类、时间序列分析：arima模型、指数平滑法

R语言分布滞后非线性模型（DLNM）空气污染研究温度对死亡率影响建模应用

马尔可夫转换MSVAR模型预测资产收益率时间序列可视化分析|附数据代码

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

【专题】中国企业财务数字化转型白皮书报告PDF合集分享（附原数据表）

【专题】2024休闲食品白皮书报告合集PDF分享（附原数据表）

Python梯度提升模型GBM生态学研究：SFS、RandomizedSearchCV预测黑腿蜱种群分布丰度可视化

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享

【视频】多元线性回归模型原理讲解与R语言实例

R语言分位数回归Quantile Regression分析租房价格

数据分享|R语言SVM支持向量机用大学生行为数据对助学金精准资助预测ROC可视化

R语言向量自回归模型(VAR)及其实现

PYTHON用时变马尔可夫区制转换（MARKOV REGIME SWITCHING）自回归模型分析经济时间序列

R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

R语言软件套保期限GARCH、VAR、OLS回归模型对沪深300金融数据可视化分析

结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数

R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口

R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

【专题】2025年春节消费机遇和备货建议、消费趋势报告汇总PDF洞察（附原数据表）

2024全国主要城市工业互联网发展指数报告合集PDF分享（附原数据表）

Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

R语言文本挖掘tf-idf,主题建模，情感分析,n-gram建模研究

R语言用贝叶斯层次模型进行空间数据分析

R语言门限误差修正模型(TVECM)参数估计沪深300指数和股指期货指数可视化

数据分享|用户消费行为分析预测模型、重庆市的政策数据分析

R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究分析案例

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

2024新能源企业“出海”系列之驶向中东、东南亚报告合集PDF分享（附原数据表）

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

R语言ARMA-GARCH模型金融产品价格实证分析黄金价格时间序列

SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究

R语言两层2^k析因试验设计（因子设计）分析工厂产量数据和Lenth方法检验显著性可视化|数据分享

SPSS大学生网络购物行为研究：因子分析、主成分、聚类、交叉表和卡方检验

R语言用贝叶斯层次模型进行空间数据分析

【专题】为2025制定可付诸实践的IT战略规划报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

原文链接：http://tecdat.cn/?p=5673

﻿数据集

地理图

人物章节关系

人物共现矩阵

特色词

结论

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

数据集