社区检测中的Overlapping symptoms——基于Clique Percolation算法

文摘 2024-10-30 07:51 北京

PSYCH统计实验室

01 引言

在心理网络中，重叠症状是指某一症状同时隶属于多个不同的社区。例如，创伤后应激障碍的某些症状会出现在抑郁障碍中，这些症状既属于创伤后应激障碍也属于抑郁障碍。这种重叠症状在解释精神障碍共病现象具有重要作用。例如，重度抑郁障碍与广泛性焦虑障碍的共病部分源于它们共享的重叠症状——这些症状通过连接不同的障碍，从而导致共病。

Clique Percolation 算法允许节点同时隶属于多个社区，已应用于心理病理学研究中。该算法通过识别 k-cliques并将相邻的 k-cliques（即共享 k-1 个节点的 k-cliques）归入同一社区来实现社区检测。在加权网络中，k-cliques的强度还必须超过阈值 I，否则不能构成社区。对于大型网络，通过比率检验来确定最佳的 k 和 I；对于小型网络，使用 χ 指标，对于超小的网络，则依靠entropy来确定最佳参数。

02 代码实操

接下来我们通过代码实操来识别重叠症状并绘制重叠症状的网络结构图。

# 清除工作空间

rm(list = ls())

# 加载R包

library(readxl)

library(bootnet)

library(qgraph)

library(CliquePercolation)

# 设置工作路径

setwd('')

# 加载数据

load('data2.Rdata')

# 估计网络模型

item_network <- estimateNetwork(data2,default = 'EBICglasso')

plot(item_network)

在基础的网络模型基础上，通过CP算法进行社区检测并识别重叠节点。

# 首先通过cpThreshold函数在加权网络中确定最优的 k 值和强度阈值 I，以找到最佳社区划分结构。

thresholdnew <- cpThreshold(item_network,

method="weighted.CFinder",

k.range = c(3:8),

I.range = c(seq(max(abs(network)), 0.01, by = -0.001)),

threshold = c("largest.components.ratio","chi","entropy","fuzzymod"))

thresholdnew

03 选择最优 k 值和强度阈值 I 的方法

为了选择最合适的 k 值和强度阈值 I，我们将根据以下两个关键指标进行分析：

1.比率（largest.components.ratio）：逐步调整强度阈值 I，观察比率何时出现明显跃升。一般情况下，比率值首次越过2的点可以被视为渗流转变（percolation transition）的关键位置。

2.χ值：在比率首次越过2的点附近，关注该点的χ值。理想情况下，这一位置的χ值应较高，以确保该阈值有较好的分辨力。

选择步骤

1.逐步调节 I 值：

逐步降低 I，直到比率接近或首次越过2的位置，并观察比率是否出现显著的变化。

记录 I 在比率首次越过2时的值及其对应的χ值。如果此时的χ值较高，则该点可以作为候选的最优阈值 I。

2.检查社区和孤立节点数量：

在不同 k 和 I 值下，查看生成的社区数量以及孤立节点的数量。一般来说，如果 k 值设置过高，会产生较多孤立的节点。

3.最终选择：

优先选择在比率首次跳过2且对应较高χ值的 I 值作为最优阈值。

如果某个 k 值导致孤立节点数量过多且难以形成单一社区，说明该 k 值可能设置得过高。此时可以选择较低的 k 值。

# 选定的 k 和 I 作为参数传入，以生成最优的社区结构

clique <- cpAlgorithm(item_network,

k=3,

method="weighted.CFinder",

I=0.0877397)

# 绘制重叠节点的网络结构图

CliquePercolation::cpColoredGraph(network, list.of.communities = clique$list.of.communities.numbers,

cut=0, theme="colorblind", larger.six = TRUE,

vsize=5, esize=10, legend=FALSE,label.cex=1.0,

layout="spring", labels=colnames(network))

此外，也有研究者认为依据比率和χ值选择最优网络的方式可能存在缺陷，因为这是方式是通过观察网络中最大的两个社区的节点数量比值来选择参数。这种方法可能会忽略其他较小的社区，并对社区的真实结构产生偏差。

因此，后续的研究者提出使用entropy或modularity等指标来选择最优的K和I值。以下的代码可以获取entropy和modularity。一般而言，这些指标的值越大越好，因此再最终选择模型的时候，我们可以兼顾多个指标以期获得真实的网络结构。

# 根据fuzzy modularity 选择最优的k和I

fuzmod <- FuzzyMod(graph=network,

membership=clique$list.of.communities.labels,

abs=TRUE)

fuzmodsigned <- SignedFuzzyMod(netinput=network,

membassigned=clique$list.of.communities.labels)

# 根据entropy选择最优的k和I

set.seed(1337)

permute <- cpPermuteEntropy(W, cpThreshold.object = thresholds2,

n = 100, interval = 0.95)

permute$Confidence.Interval # CI values of entropy

permute$Extracted.Rows # relevant final solutions (everybody else deleted automatically)

参考文献

Blanken TF, Deserno MK, Dalege J, Borsboom D, Blanken P, Kerkhof GA, Cramer AOJ. The role of stabilizing and communicating symptoms given overlapping communities in psychopathology networks. Sci Rep. 2018 Apr 11;8(1):5854. doi: 10.1038/s41598-018-24224-2. PMID: 29643399; PMCID: PMC5895626.

04 后记

尽管Clique Percolation算法已经初步应用心理病理学的研究中，但也有研究者对该算法提出质疑，并提出了其他重叠节点的检验方式。如果大家对此部分感兴趣，我们会进一步挖掘相关文献。今天的内容就到这里了，我们下期再见！

PSYCH统计实验室

通知公告

网络分析课程目前开放视频课啦

单次课200元/讲（学生），250元/讲（非学生）

共有四讲内容：

①横断面网络分析简介与基础

②网络分析与因子分析

③交叉滞后网络分析

④时间序列网络分析

购买后开放视频权限14天，可多次申请。

并赠送所有课程相关资料（无PPT）

如果想申请购买，请联系M18812507626

更多资讯

关注我们

文稿：Ns

排版：Little Star

责编：Wink
审核：摘星

本文由“Psych统计自习室”课题组原创，欢迎转发至朋友圈。如需转载请联系后台，征得作者同意后方可转载。

Psych统计自习室

大家好，我们是由来自北京师范大学，西南大学，天津医科大学等高校在读硕士、博士研究生组成的一个科研团队——Psych统计自习室。Psych统计自习室旨在关注心理学、精神病学领域的最前沿的系列研究，并做前沿统计知识的分享。

最新文章

如何在r中进行并行运算（一）

龙年的最后一天｜我们一起辞旧迎新

有调节网络中的AND和OR规则

数据可视化指南：如何⽤ R 绘制误差条图？

多水平数据中的验证性因素分析和潜在类分析——多水平因子混合模型

【重磅来袭！】Psych统计自习室寒假培训班第二轮火热报名中！

随机截距交叉滞后模型时间不变控制变量

如何用R语言进行量表的测量不变性检验

轻松掌握三种语言实现随机抽样的代码秘籍

跟着顶刊学配色

招新公告：Psych统计自习室招募新成员啦

（因果）贝叶斯网络与有向无环图（DAG）在因果推断中的应用

jamovi应用系列——潜剖面分析

有调节网络的应用实例

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（二）

贝叶斯网络在精神病理学研究中的应用

社交媒体成瘾纵向追踪实验主试招募令

【重磅来袭！】Psych统计自习室寒假培训班火热报名中！

密集追踪数据处理之贝叶斯多水平中介分析(1-1-1模型)

学习向量量化（Learning Vector Quantization ，LVQ)）及其扩展方法

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（一）

喜报| 粉丝破万，万幸有你！

申请国自然博士生项目经验

心理障碍的网络理论系列（一） ——为什么将心理障碍建模为网络

结构化残差-潜增长曲线模型（LCM-SR）

一文带你走进智能引擎的后台——知识图谱（Knowledge Graph）

如何使用JASP进行网络分析（简单易上手的教程）

有调节的网络中如何检验特定调节作用是否存在

初识Stan：一个简单的多层回归建模指南

reslice详解｜fmri数据处理细节

全教程：横断面网络分析中的网络比较

科普｜QSIprep：简化你的扩散MRI数据预处理之旅

回复贴：GBTM与LCGM

多模态脑影像数据处理方案

潜变量随机截距交叉滞后模型

Rstan和cmdstanr的安装及比较

网络“温度(temperatur)”——评估心理症状网络稳定性的新指标

社区检测中的Overlapping symptoms——基于Clique Percolation算法

如何使用R语言绘制双因子模型

平行潜类别增长模型

置换检验(Permutation tests)的原理和R语言实现

基于Plsgui处理sMRI操作流程|结构共变网络

开放科学下的纵向网络分析——纵向网络分析的预注册指南

Bootstrap抽样技术的简单介绍

利用 GAMLSS 对心理测验进行基于回归的常模分析

随机截距交叉滞后模型多组比较

多项式回归的原理与操作

双因子模型(bi-factor model)的简介及文章介绍

生存分析2 生存分析的操作过程与R实践

生存分析在SPSS上的实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉