“WGCNA(Weighted Gene Co-Expression Network Analysis),加权基因共表达网络。作为一款高级生信分析,常用于各类组学数据中进行数据挖掘,得到与生物学意义相关的模块(Module)或者基因”
01
—
WGCNA分析要求
样本数目
如果没有重复性样本,至少需要8个样本;
如果存在重复性样本,至少需要15个样本;推荐20个以上样本;
样本越少,网络的噪音就越大,样本越多,网络就更加的稳健;
基因表达量文件
不需要进行过滤,但也可以将表达量低,在样本间变化不大的基因过滤掉;
强烈不建议采用差异表达的基因进行WGCNA分析,因为差异表达的基因使得样本失去了多样性;除非特殊的实验要求
基因的表达量数据需要进行标准化处理,消除不同样本间差异;
表型数据文件
可以是任何关注的特定表型性状在样本中的表达信息,样本名要与基因表达量文件中的样本名保持一致;例如:
02
—
WGCNA分析流程
WGCNA分析借助的是R包WGCNA,用于计算各种加权关联分析的功能集合,可用于网络构建、基因筛选、基因簇鉴定、拓扑特征计算、数据模拟和可视化等。
WGCNA分析流程如下:
构建基因共表达网络:使用加权的基因矩阵表达相关性;
识别基因集(modules):基于加权相关性,将表达模式相似的基因进行层次聚类。并根据设定标准切分聚类结果,获得不同的基因模块。不同的模块用不同颜色表示;
分析模块与特定表型性状之间的相关性,得到关键模块;
研究模块之间的关系;
从关键模块中找出关联特定表型的hub基因(key drivers);
03
—
WGCNA分析结果解读
1. Fig_1_sampleClustering 样本聚类树
采用层次聚类算法进行样本聚类分析,同一枝上的样本具有更高的相似性,根据结果初步判断是否存在离群样本(outlier),考虑是否在后续分析中剔除。
2. Fig_2_Scale_Free_Topology_and_mean 无标度拓扑拟合指数图
通过无标度拓扑拟合指数分析获取软阈值。
在左图中,横坐标为软阈值1~30(Soft Power),纵坐标为在不同软阈值情况下的无标度拓扑拟合指数。在实例分析中,我们选择WGCNA包的默认阈值0.9,也可以根据数据实际情况微调(阈值越高越好且最低要>0.8)。由结果图可见,当阈值选择0.9时,最小软阈值为30。之后通过得到的最优软阈值30使得基因表达网络趋于服从无尺度网络分布。
右图为不同软阈值情况下的平均连接度,选取soft power一般在平均连接度变化呈平稳处同时保证平均连接度越高越好。
WGCNA分析结果的好坏,关键就看是否能构建好一个满足要求的无尺度网络。
3. Fig_3_构建基因共表达矩阵并进行模块划分
基于上述最优软阈值,构建基因间共表达矩阵,然后通过函数使得基因间相关性可视化,得到如下基因聚类树状图。Fig_3_1
对层次聚类树分支进行划分得到共表达模块。不同的颜色代表不同的模块,相同颜色模块中的基因集彼此之间表达模式相似。从而将对大量基因的分析转化为对少数基因模块的分析。Fig_3_2
之后对相似颜色模块进行merge合并,得到最终的Merged模块结果,其中灰色模块grey代表里面的基因不属于任何模块。Fig_3_3/4
4.Fig_4_Eigengene_dendrogram_and_Eigengene_adjacency_heatmap 模块聚类结果及关系热图
采用聚类算法对不同共表达模块进行聚类,反映模块之间的相关性。
模块之间的相关性也可以通过下方的模块相关性矩阵进行展示。在矩阵热图中,横纵坐标都是基因模块,颜色越红相关性越高,颜色越绿模块之间相关性越低。
5. Fig_5_networkHeatmap 选择1500Genes进行网络热图绘制
图中行和列均代表基因(1500个),树枝的顶端为核心基因,在热图中颜色越亮代表TOM值越高。热图中方块的颜色越亮(黄)表示共表达相关性越高,越暗(红)表示相关性越弱。
6. Fig_6_Sample_dendrogram_and_trait_heatmap 样本聚类树及性状热图
在样本聚类树的基础上添加了性状热图,样本与性状之间的相关性越高热图中模块颜色也会越深。
7. Fig_7_Module-Trait_Correlation 模块和性状关系热图
下图中横坐标为性状,纵坐标为模块。功能相关性越强颜色越深,红色代表正相关,蓝色代表负相关。
计算每个模块里所有基因与表型性状的相关性以及可信度,从中选择最相关和最显著的模块作为核心模块。一般筛选标准:相关性数值越接近±1,相关性检验P值小于0.05为佳。
8. 8_MMlist.xls/8_GS_and_MM.xls
MM(module membership)值表示基因与模块主成分的相关性,GS(gene significance)值表示基因表达与性状的相关性。
如下图:相关性结果绘制成的散点图。横坐标是"bisque4"模块中的基因的MM,每一个值代表这个基因与"bisque4"模块之间的关系,这个值的绝对值接近1,那么这个基因就与这个模块高度相关。可以用于确定hub基因。
纵坐标是trait2性状中的基因的GS,每一个值代表这个基因与trait2性状之间的关系,这个值的绝对值接近1,那么这个基因就与这个性状高度相关。
如果"bisque4"模块中的基因都有trait2性状高度相关,那么"bisque4"模块也就与trait2性状高度相关。
9. Fig_9_gene_dendrogram_with_trait 基因聚类树及性状相关性热图
第一个部分为基因聚类绘制的聚类树,分枝代表基因;
第二部分为基因聚类树根据不同的聚类对应到的不同模块;
第三部分为基因与性状的热图,对应热图中的颜色越深,说明该模块中的基因与该性状的相关性越高。
10. 10_eigengene_expression 每个模块中基因与样本之间的表达关系热图
对每个模块中基因进行表达量热图绘制。在下面热图中,横坐标是24个样本,纵坐标是"bisque4"模块中的全部基因。热图下方对应每个样本的模块特征值。
热图颜色越明代表两者之间相关性越高。