Omada包：无监督机器学习助你穿越基因表达谱的聚类迷宫！

学术 2024-11-10 19:00 上海

嘿朋友们，欢迎来到生物信息学的精彩世界！今天，果叔将带领大家一起学习R包Omada，这是一款无监督机器学习工具，它能够自动对基因表达谱进行样本聚类，为我们揭示复杂疾病中分子状态的差异。

在RNA分析研究中，探索性聚类分析需要对众多参数进行选择，这要求对机器学习有深入了解并进行大量的计算实验。Omada通过自动化的机器学习功能，使得无监督聚类转录组数据更加方便快捷。即使在生物学区分不太明显的数据集中，它也能帮助我们找到具有不同表达谱和临床关联的稳定亚组。注意哦，GLAD包操作占用内存比较大，建议使用服务器哦，欢迎联系果叔租赁性价比高的服务器~

跑代码时卡顿、电脑不给力让人抓狂！找果叔试用稳定高速的服务器，让分析顺畅无比！

代码学不会？bug 频繁出现，束手无策？实操生信分析课程赶快学起来！滴滴果叔领取体验课程哦~

线上课程教学

课题设计、定制生信分析

云服务器租赁

加微信备注99领取使用

下面，果叔将引领大家逐步掌握操作流程，从分析数据集的聚类可行性开始，到选择最优聚类方法，再到选择最优特征，估计最优聚类数量，最后运行最优聚类，我们将一同穿越基因表达谱的聚类迷宫。如果你在旅途中遇到任何困难，别担心，果叔随时待命，记得联系果叔为你解答疑惑~

我们先安装并加载omada包：

if (!require("BiocManager", quietly = TRUE))  install.packages("BiocManager")BiocManager::install("omada")library(omada)

一、数据集的聚类可行性

第一步，我们需要根据数据集的维度（样本和特征大小）调查其聚类的可行性。为了研究数据集的聚类可行性，omada包提供了两个稳定性评估模拟函数，它们模拟特定维度的数据集并计算一系列聚类的数据集稳定性。

第一个函数是feasibilityAnalysis() ，它为特定数量的类、样本和特征生成一个独立数据集，该数据集包含了4个类别(classes)、50个样本(samples)和15个特征(features)。

# Selecting dimensions and number of clustersnew.dataset.analysis <- feasibilityAnalysis(classes = 4, samples = 50, features = 15)

第二个函数是feasibilityAnalysisDataBased()，它接受现有数据集，提取特定数量聚类的统计数据（平均值和标准差），该数据集基于toy_genes数据集，包含了3个类别。

# Basing the simulation on an existing dataset and selecting the number of clustersexisting.dataset.analysis <- feasibilityAnalysisDataBased(data = toy_genes, classes = 3)

接着，调用以下函数来提取这两种分析方法的结果：

lget_average_stabilities_per_k：获取每个聚类数k的平均稳定性

lget_max_stability：获取新数据集分析对象的最大稳定性

lget_average_stability：获取新数据集分析对象的平均稳定性

lget_generated_dataset：获取新数据集分析对象生成的数据集

# Extract results of either functionaverage.sts.k <- get_average_stabilities_per_k(new.dataset.analysis) #maximum.st <- get_max_stability(new.dataset.analysis)average.st <- get_average_stability(new.dataset.analysis)generated.ds <- get_generated_dataset(new.dataset.analysis)

请注意，这些估计值仅作为数据集是否适合聚类的指示，而不是质量的实际衡量标准，因为它们不考虑数据中的实际信号，而只考虑样本、特征和聚类数量之间的关系。

二、自动聚类分析

接下来，我们就可以使用 omada()来运行整个分析工具包，自动化聚类决策并生成估计的最佳簇。omada()的输入是基因表达数据框和要考虑的簇数上限 k。果叔提醒大家，在运行任何工具之前，都不要忘了提前删除或估算 NA 值哦。

# Running the whole cascade of tools inputting an expression dataset# and the upper k (number of clusters) to be investigatedomada.analysis <- omada(toy_genes, method.upper.k = 6)

接着，我们可以利用各种函数提取得到下列这些分析结果，例如特征选择分数（fs.scores）、最佳特征选择结果（fs.optimal.features）、聚类投票分数（cv.scores）、样本的成员关系（sample.memberships）等等。

# Extract resultspa.scores <- get_partition_agreement_scores(omada.analysis)fs.scores <- get_feature_selection_scores(omada.analysis)fs.optimal.features <- get_feature_selection_optimal_features(omada.analysis)fs.optimal.number.of.features<-get_feature_selection_optimal_number_of_features(omada.analysis)           cv.scores <- get_cluster_voting_scores(omada.analysis)cv.memberships <- get_cluster_voting_memberships(omada.analysis)cv.metrics.votes <- get_cluster_voting_metric_votes(omada.analysis)cv.k.votes <- get_cluster_voting_k_votes(omada.analysis)sample.memberships <- get_sample_memberships(omada.analysis)

最后，我们可以绘制不同的结果图，如分区协议图、特征选择图、聚类投票图等，帮助我们更好地理解数据集的结构、特征选择情况以及聚类结果，为进一步的数据分析和解释提供重要参考。

# Plot resultsplot_partition_agreement(omada.analysis)

分区一致性图显示了在不同聚类数（k值）下，数据集内部的分区一致性和稳定性。x轴代表聚类数（k值），y轴代表分区一致性得分（Partition Agreement Score）。随着聚类数的增加，分区一致性分数会变化，通常在一个较高的分区一致性得分附近选择最佳的聚类数（最佳k值）。这个图可以帮助确定数据集在哪个聚类数下表现最佳，以选择合适的聚类数用于进一步分析和解释。

plot_feature_selection(omada.analysis)

特征选择图展示了在不同特征选择数量下，特征选择效果的比较。这个图可以帮助识别哪种特征选择方法在数据集中表现最佳，有助于提高后续分析的准确性和效果。

plot_cluster_voting(omada.analysis)

聚类投票图展示了聚类方法的得分柱状图，显示了不同聚类方法的得分，可参考各聚类方法在数据集上的表现。

三、选择最优聚类方法

第三步，我们可以根据数据集选择最合适的聚类方法。使用 clusteringMethodSelection() 函数比较三种不同方法（即谱聚类、k 均值聚类、层次聚类）的内部分区一致性。我们可以定义上限 k 以及每种方法的内部比较次数。比较次数的增加会带来更高的稳健性和最高的运行时间。

# Selecting the upper k limit and number of comparisonsmethod.results <- clusteringMethodSelection(toy_genes, method.upper.k = 3, number.of.comparisons = 2)           # Extract resultspa.scores <- get_partition_agreement_scores(method.results)           # Plot resultsplot_partition_agreement(method.results)

分析上图，我们可以发现，使用谱聚类（绿色线）的分区一致性得分最高（k_maen=0.53），因此在后续的步骤中，我们可以指定使用谱聚类的方法。

Omada包还提供了通过利用函数partitionAgreement()单独计算两个特定聚类方法和参数集之间的分区一致性的函数，该函数需要选择两种算法、度量和聚类数量。

# Selecting algorithms, measures and number of clustersagreement.results <- partitionAgreement(toy_genes, algorithm.1 = "spectral", measure.1 = "rbfdot", algorithm.2 = "kmeans",measure.2 = "Lloyd", number.of.clusters = 3)           # Extract resultspa.scores <- get_agreement_scores(agreement.results)

四、选择最优特征

为了选择提供最稳定聚类的特征，函数 featureSelection() 需要最小和最大聚类数 (k) 以及决定每个特征集增加率的特征步骤。在本例中，我们选择了最小聚类数为3，最大聚类数为6，并设置了每个特征集增加率的特征步骤为3。

# Selecting minimum and maximum number of clusters and feature stepfeature.selection.results <-  featureSelection(toy_genes, min.k = 3, max.k = 6, step = 3)

从结果中提取平均特征稳定性得分，最佳特征数以及最佳特征集。平均特征稳定性得分可以帮助评估不同特征集的稳定性，最佳特征数则指示了在给定聚类范围内所选择的最佳特征数量。

# Extract resultsfeature.selection.scores <- get_average_feature_k_stabilities(feature.selection.results)optimal.number.of.features <- get_optimal_number_of_featuresoptimal.features <- get_optimal_features(feature.selection.results)

通过绘制平均稳定性结果图，可以直观地观察不同特征数量下的稳定性得分趋势，从而更好地理解哪些特征数量组合提供了最稳定的聚类结果。

# Plot resultsplot_average_stabilities(feature.selection.results)

五、估计最优聚类数量

通过使用clusterVoting()函数，我们可以根据内部指标集合估计最合适的聚类数，并选择要考虑的最小和最大聚类数以及所选算法（“sc” 表示谱聚类，“km” 表示k 均值聚类，“hr” 表示层次聚类）进行聚类投票。在本例中，我们选择将最小聚类数设为4，最大聚类数设为8，并选择谱聚类算法进行聚类投票。

# Selecting minimum and maximum number of clusters and algorithm to be usedcluster.voting.results <- clusterVoting(toy_genes, 4,8,"sc")

从结果中提取内部指标得分、聚类成员关系以及投票频率等相关指标数据，并利用这些数据来评估不同聚类数下的内部指标表现及最合适的聚类数。

# Extract resultsinternal.metric.scores <- get_internal_metric_scores(cluster.voting.results)cluster.memberships.k <- get_cluster_memberships_k(cluster.voting.results)metric.votes.k <- get_metric_votes_k(cluster.voting.results)vote.frequencies.k <- get_vote_frequencies_k(cluster.voting.results)

通过绘制投票频率结果图，可以直观地展示在考虑不同聚类数和所选算法的情况下各个内部指标得出的投票频率，帮助我们理解哪个聚类数最受内部指标的支持。

# Plot resultsplot_vote_frequencies(cluster.voting.results)

六、运行最优聚类

最后，我们可以基于上面获得的最优的参数，使用optimalClustering() 来运行最优聚类啦！这个函数还会自动运行可能的算法参数，保留稳定性最高的算法参数。

# Running the clustering with specific number of clusters(k) and algorithmsample.memberships <- optimalClustering(toy_genes, 4, "spectral")           # Extract resultsmemberships <- get_optimal_memberships(sample.memberships)optimal.stability <- get_optimal_stability_score(sample.memberships)    optimal.parameter <- get_optimal_parameter_used(sample.memberships)

最终，我们可以提取最优的结果：最优的聚类结果存储在memberships中，可以对聚类结果进行进一步分析和可视化。最优的稳定性分数为0.715，表明聚类结果的稳定性较高。使用了最优的算法参数rbfdot，这表明在这个参数设置下得到了最优的聚类结果。

综合以上结果，我们得到了稳定且高效的最优聚类结果，可用于后续的数据分析和挖掘。

怎么样，AI的世界是不是很神奇？好啦，果叔已经带领大家一起完成了Omada包的初步探索，你有没有对AI在基因表达谱的聚类上的应用有了感性的认识呢？现在，你可以开始展开自己的实践，利用omada包来构建属于你自己的模型啦！

无论你是在优化代码，还是在云端进行便捷的分析，云生信神器都能为你提供强大的支持。欢迎试试我们的云生信神器，只需一键上传数据，想要的图就能轻松get~

云生信平台链接：http://www.biocloudservice.com/home.html

不会分析还想用生信工具助力发文咋办？有这顾虑的朋友，想一步到位就带着想法来，不论是代码实操还是在线文章结果复现，果叔照样能提供，还有大家都想要的服务器，找果叔获取就对了！

往期回顾

厉害了，我的宝！哈医大本科生一作，0实验收下5分+纯生信！这波属实“信”福来敲门，被这操作狠狠秀到！

发了N篇一区SCI后，目前看来，这种方法是最容易“水”TOP文章的！发不发的出去，全看你的选题如何！

纯生信47天冲进Q1区7.7分！这才是当下极品毕业神刊！分析方法全是老“套路”，出奇制胜就因为选题牛！

http://mp.weixin.qq.com/s?__biz=Mzg3OTg3MjQyNg==&mid=2247505199&idx=2&sn=eb3316a6fdddae09b5cff6075f12c27a

生信果

生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等

玩转GWAS基因和通路富集评分，PascalX让科研充满趣味！

IF 36.1，还得是Nature methods啊！单细胞和空间转录组王炸组合，全新分析方法推断细胞间通信驱动的细胞间流动

果叔带你解码bulk RNA-seq的反卷积新工具—— BayesPrism

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

恭喜！南昌大学谢明勇院士团队拿下封面文章！药食同源+代谢组学+微生物组学，网药新方向get，这套思路拿下Q1包的！

在R语言中数据转换和分析的保姆级教程

每个生信人都需要一台服务器

本科生登上国际顶刊《Cell》？这个帅小伙，他做到了！三维时空建模工具包，高精度再次提升！

如何从孟德尔随机化内卷中脱颖而出？果叔带你深度解析Radial-MR

能发到顶刊Cell，这么卷也值了！这篇空间转录组生信文的图片堪称艺术啊，作为同行这么牛，都有点吃不消了~

RNA-seq差异分析实战指南：利用DESeq2 R包精准解析差异表达并可视化基因调控！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

你一定好奇细胞间是怎样沟通的吧！！！SingleCellSignalR包，带你深入细胞信号传导，揭示细胞间的相互作用！

一个半月就发表12.2分！河北医科大学马玉霞团队：胜在选择NHANES数据库+网药分析，这才是真正的科研强者！你上你也行！

Omada包：无监督机器学习助你穿越基因表达谱的聚类迷宫！

点赞！贵州中医药团队1个月夺得 2 区毕业神刊，“药食同源” 未来可期，“网络药理学 + 分子对接” 强势出圈，中医药人快行动！

还在为单基因GSEA发愁？看这里！果叔教你如何掌握单基因GSEA通路富集！!

机器学习热得发烫！“纯生信+机器学习”只需稍微分析，便轻取7.7分，这本1区期刊接收纯生信、审稿快，赶紧快来拾buff！

CNV可视化与焦点分析的利器：GenomeTornadoPlot R包

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

思路简直开挂，已经复现坐等毕业了！青岛大学的网络药理学研究咋就这么牛？看来“药” 做就做高级范，毕业才能so easy！

论文最豪华的“装修”道具！两分钟玩转GENECARDS和STRING，轻松构建PPI！！！

遇强则强！还是低估孟德尔随机化的实力了！山东第一医科大学团队搭配机器学习+多组学分析，便轻轻松松0实验发了6分+！

用R进行GWAS分析，原来如此简单

特朗普 “王者归来” 胜选，中国科研界将迎接哪些 “川” 流不息的挑战？

刚逃过“三花淡奶”又陷入“预制菜”！“NHANES最新数据+多变量回归”实锤：超加工食品会加重骨质疏松！不爱做饭的亲，注意咯！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

顶刊Cell的富贵还是让“多组学”接住了！樊荣团队开发新技术，天花板的代码分享！携单细胞测序玩转空间转录组，别错过！

空间转录组学数据处理只依赖R语言？让我们从scanpy开始，拥抱python吧！

这篇NC不仅纯生信，数据还全开源！涵盖了17种肿瘤类型，36万+的TAM多样性图谱！单细胞再度起飞，属实被作者思路装到了！

简单！一行代码完成RNA-seq下游分析！

谁说机器学习玩烂了？那是你没学到精髓！来看看纯“机器学习”“0实验”的14+文章！学会这波操作“paper”皆有可能!

这不就是生物信息学的宝典吗？ggmsa包，让你畅游生物序列的海洋，保守位点、突变位点，统统显露无遗！

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

厉害了，我的宝！哈医大本科生一作，0实验收下5分+纯生信！这波属实“信”福来敲门，被这操作狠狠秀到！

来稿就收，又快又水，不是说说而已！这6本几乎不退稿的毕业神刊，医学宝子们一定要刷到！有它们你不可能会延毕！

发了N篇一区SCI后，目前看来，这种方法是最容易“水”TOP文章的！发不发的出去，全看你的选题如何！

全网最全最准确的肿瘤样本药物敏感性预测教程

纯生信47天冲进Q1区7.7分！这才是当下极品毕业神刊！分析方法全是老“套路”，出奇制胜就因为选题牛！

当实验无趣时：如何通过租赁服务器开启科研新篇章

超级侦探SingleR，揭露单细胞数据细胞类型的奥秘

本科生一作，顶刊14.3分！科研内卷太厉害了！安徽医科大学的小孩哥咋这么优秀？数据库挖一挖，得来全不费工夫！

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

甭找了，博士毕业就照这个整！22天，15个样本直接锁定Nature Communications！我宣布单细胞就是生信顶流！

一图胜千言：用ggridges画的山脊图，让你的数据说话

网络药理学保姆级做图教程！轻松构建美观华丽的药物成分靶点基因网络！

IF=10.7！1个月接收的梦中情刊！NHANES数据库新战绩！广州医科大白岩森团队纯分析的SCI！公共数据库还能再开发

一图胜千言：用ggridges画的山脊图，让你的数据说话

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉