R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

科技科技 2024-11-15 19:03 浙江

原文链接:http://tecdat.cn/?p=24613

我们在心理学网络论文中看到的一个问题是，作者有时会对其数据的可视化进行过度解释。这尤其涉及到图形的布局和节点的位置，例如：网络中的节点是否聚集在某些社区（点击文末“阅读原文”获取完整代码数据）。

相关视频

下面我将详细讨论这个问题，并提供一个关于如何识别网络中项目社群的基本R教程。非常欢迎在下面的评论部分提出反馈。

节点部署和 Fruchterman-Reingold 算法

我们创建一个例子。首先，我们拿一些数据，估计一个正则化的偏相关网络，其中节点之间的边类似于偏相关，并使用'spring'命令绘制网络。这是心理学网络文献中默认的，使用Fruchterman-Reingold算法为图中的节点创建一个布局：具有最多连接/最高连接数的节点被放在图的中心。

cort<- cor(data)
 
graph(cort,layout="spring")

matrix 是这 20 个项目的相关矩阵， Size 命令告诉我们有多少人。

这是结果图：

然而，这里的节点部署只是许多同样 "正确 "的节点部署方式中的一种。当网络中只有1-3个节点时，算法将总是以同样的方式部署它们（其中节点之间的边的长度代表它们之间的关系有多强），算法唯一的自由度是图形的旋转。但是，特别是在有许多节点的图中，部署方式只告诉我们一个非常粗略的结果，不应该被过度解释。

点击标题查阅往期内容

R语言复杂网络分析：聚类（社区检测）和可视化

左右滑动查看更多

以下是绘制我们上述网络的另外两种方法，它们同样 "正确"。

nNd <- 20
set.seed(1)
grh2<-grph
set.seed(2)
gr3<-grph

虽然项目之间的边显然是相同的，但节点的位置却有很大的不同。

欧洲神经精神药理学例子

《欧洲神经精神药理学》（European Neuropsychopharmacology）上Madhoo & Levine的一篇新论文为这个问题提供了一个很好的例子。他们在两个时间点（相隔12周）调查了约2500名被诊断为重度抑郁症的精神科门诊病人的14种抑郁症状的网络结构。这篇论文的一个非常不错的贡献是，他们研究了网络结构随时间的变化，其方式与我们以前在同一数据集中的研究有些不同。

与上面的网络例子类似，他们使用正则化的偏相关网络来估计两个时间点的横截面网络模型，并使用Fruchterman-Reingold算法绘制网络。他们通过目测得出结论，有4个症状群存在，而且这些症状群没有随时间变化。

"在基线时，网络由四个症状群组成（图1a），即：睡眠障碍（项目1-5），认知和物理动机缺损（项目6-9），情感（项目10-12）和食欲（项目（13-14）。
[...]终点症状分组（图1b）与基线时相似"。

screen-shot-2016-10-19-at-18-06-54

但这些发现和结论仅仅是基于对结果图的视觉检查--而我们在上面已经了解到，对这些图的解释应该非常谨慎。值得注意的是，这种视觉上的过度解读在心理学网络文献中相当常见。

让人眼前一亮的另一个原因是，我们在最近的一篇论文中分析了同一数据集的社群结构，发现社群的数量随时间而变化--这与作者对图表的视觉解释相冲突。

R中的数据驱动的社群聚类

那么，如何在R中做到这一点？有许多可能性，我介绍三种：一种来自潜变量建模领域的非常成熟的方法（特征值分解）；一种来自网络科学的成熟算法（spinglass算法）；以及一种正在开发中的非常新的工具（使用walktrap算法的探索性图分析）。

特征值分解

传统上，我们想用潜变量框架来描述上述20个项目，问题是：我们需要多少个潜变量来解释这20个项目之间的协方差？一个非常简单的方法是查看数据中各成分的特征值。

plot(eigen)
abline(h=1)

这向我们显示了Y轴上每个成分的每个特征值；X轴显示了不同的成分。一个高的特征值意味着它能解释项目之间的大量协方差。红线描述了所谓的标准：一个简单的规则，决定我们需要多少个成分来充分描述项目之间的协方差（每个成分的特征值>1）。无论如何，根据我们现在使用的规则，我们可能会决定提取2-5个成分。我们还不知道哪个项目属于哪个成分--为此，我们需要运行，例如，探索性因子分析（EFA），看看因子载荷。

为什么这与网络有关呢？许多论文现在已经表明，潜变量模型和网络模型在数学上是等价的，这意味着在大多数情况下，支撑数据的因素的数量将转化为你在网络中可以找到的社区的数量。

Spinglass算法

第二种方法是所谓的spinglass算法，该算法在网络科学中已经非常成熟。为此，我们将上面估计的网络输入到R中。最相关的部分是最后一行membership。

spinglascmy(g)
mershp

在我们的例子中，spinglass算法检测到了5个社区，这个向量代表了这20个节点属于哪个社区（例如，节点1-7属于社区5）。然后，我们可以很容易地在qgraph中绘制这些社区，例如，对节点进行相应的着色。请注意，iqgraph是一个非常通用的软件包，除了spinglass算法之外，它还有许多其他检测社区的可能性，比如walktrap算法。(感谢Alex Millner对igraph的投入；当然，这里所有的错误都是我的错误）。

值得注意的是，spinglass算法每次运行都会导致不同的结果。这意味着你应该在运行spinglass.community之前通过set.seed()设置一个种子，而不是像我上面那样。我运行该算法1000次，看看得到的聚类数量的中位数，然后找到一个能重现这个聚类数量中位数的种子。我在一篇论文中使用了这个解决方案（注意，使用不同的种子，解决方案看起来是不同的）。

同样关键的是，要知道有许多种不同的方法来做社群检测。Spinglass有些简单化，因为它只允许项目成为一个社区的一部分--但可能项目被描述为同时属于几个社区更好。Barabási的书 "网络科学 "中有一个关于社区检测的广泛章节。Spinglass只是众多机会中的一个。正如我上面提到的：例如walktrap，也是常用的，而且更稳定。

探索性图分析

第三种方法是通过探索性图表分析。从你的数据中重新估计了一个正则化的部分相关网络，与我们上面所做的类似，然后使用walktrap算法来寻找网络中的项目社群。在使用walktrap算法的情况下，这应该会得到与igraph相同的结果（并且细节设置相同，比如步骤数）。

优点是--与特征值分解不同--它直接显示哪些项目属于哪些社群。

walktrap(da, plt= TRUE)

如果这个方法被证明是有效的，它非常容易使用，并自动显示你的项目属于哪个社区。

请注意，目前，探索性图分析采取你的数据并自动估计一个高斯图形模型（假设是多变量的正常变量）。

spinglass算法和walktrap算法结果是一样的吗？

现在，我们想检查一下我们的结果的稳健性：spinglass算法和使用walktrap算法在社区检测方面是否一致？

这很容易做到：让我们把这两个网络画在一起，并对社区进行相应的着色。首先，我们根据结果来定义社群，然后用上面第一个网络的布局来绘制网络。

walktrap(coate tile="walktap")
 
spinglass(coratix, tite="spinglass")

直觉上--基于视觉检查--walktrap的解决方案似乎更有意义，其中节点8属于蓝色社区而不是紫色社区。但是，同样，这只是复杂关系的图形显示，我们在这里必须谨慎解释。

因此，让我们用一个稍微不同的布局来绘制同一个网络。

walktrap(layou = list(int = atinomNe2,no,2)))
spinglass(cori,  layo.pr = list(iit=matrxnrm(Nd2)nde2

正如你现在看到的，在这个可视化中，不清楚节点8应该属于蓝色还是红色社区，我们没有明确的直观偏好。

结论

如果你对网络中的项目之间的统计社区感兴趣，不要只在视觉上检查你的图。当我为论文做这件事时，我使用上面描述的三种方法，通常它们的结果相当相似。显然，你也可能对理论或概念更感兴趣。在这种情况下，你可能根本不需要看你的数据，不需要经历上述所有的麻烦。

请注意，上述spinglass或walktrap等社群检测方法的最大局限是，项目确定地只属于一个社群。对于心理学数据来说，拟合因子模型经常会发现有交叉负荷的项目，这是一个问题。而你可以通过模拟一个2因子模型看到，其中1个项目在两个因子上都有同样的载荷。希望我们很快就能在R中实现允许项目同时属于多个社区的算法（Barabási在他的《网络科学》一书第9章中描述了几个。

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化》。

点击标题查阅往期内容

数据分享|Python用Apriori算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

R语言复杂网络分析：聚类（社区检测）和可视化

使用Python和SAS Viya分析社交网络

R语言用igraph绘制网络图可视化

在R语言中使用航空公司复杂网络对疫情进行建模

R语言用相关网络图可视化分析汽车配置和饮酒习惯

R语言公交地铁路线进出站数据挖掘网络图可视化

python对网络图networkx进行社区检测和彩色绘图

R语言推特twitter网络转发可视化分析

R语言复杂网络分析：聚类（社区检测）和可视化

R语言混合图形模型MGM的网络可预测性分析

R语言使用自组织映射神经网络（SOM）进行客户细分

R语言网络分析友谊悖论案例

R语言网络和网络流的可视化实践：通勤者流动网络

R语言最大流最小割定理和最短路径算法分析交通网络流量拥堵问题

R语言公交地铁路线网络图实现数据挖掘实战

R软件SIR模型网络结构扩散过程模拟

通过SAS网络分析对人口迁移进行可视化分析

python隶属关系图模型:基于模型的网络中密集重叠社区检测方法

使用Python和SAS Viya分析社交网络

用R语言和python进行社交网络中的社区检测

python图工具中基于随机块模型动态网络社团检测

在R语言中使用航空公司复杂网络对疫情进行建模

采用SPSS Modeler的Web复杂网络对所有腧穴进行分析

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548097&idx=6&sn=3c7642ebd11568acfe3c0deccebcb557

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

Python用GARCH对ADBL股票价格时间序列趋势滚动预测、损失、可视化分析

【视频讲解】共享单车使用量预测：RNN, LSTM，GRU循环神经网络和传统机器学习|数据分享

【专题】2024年5月电力行业市场展望与储能技术创新报告汇总合集PDF分享（附原数据表）

R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

Matlab决策树对空气质量和天气温度及天气数据做交通出行推荐预测|数据分享

数据报告分享|SPSS基于多元回归模型的电影票房预测

R语言贝叶斯分析：INLA 、MCMC混合模型、生存分析肿瘤临床试验、间歇泉喷发时间数据应用|附数据代码

【专题】2024年全球临床试验趋势及中国药企海外临床布局报告汇总PDF洞察（附原数据表）

【专题】2023中国数字政府建设与发展白皮书报告PDF合集分享（附原数据表）

R语言用贝叶斯层次模型进行空间数据分析

MATLAB用GARCH模型对股票市场收益率时间序列波动的拟合与预测

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

数据报告分享|SPSS基于多元回归模型的电影票房预测

MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

【专题】2024网络主播新职业发展报告汇总PDF洞察（附原数据表）

R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

用回归和主成分分析PCA 回归交叉验证分析预测城市犯罪率数据

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

数据代码分享|R语言回归分析：体脂数据、公交绿色出行与全球变暖2案例

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2024年中国消费者消费意愿调查报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉