审稿人：你的PCA没分开啊，分辨率也太低了！

文摘 2024-09-12 08:01 爱尔兰

最近有粉丝后台提问R语言设置分辨率的问题，今天我们就做一个更新，一行代码解决这个问题。竟然有人因为分辨率不足而返修，差点被拒稿，这就太可惜了。

1. 原理介绍

主成分分析（PCA, Principal Component Analysis）是一种线性降维方法，它通过寻找数据的主成分（即方差最大的方向），将高维数据映射到一个较低维的空间，最大化数据的方差，同时尽量减少信息的丢失。在医学科研中，PCA常用于探索数据模式、识别变量之间的关系、检测异常样本等。PCA的一个主要优势是它能够减少数据的维度，简化分析过程，同时仍保留大部分信息。

PCA的基本原理是基于协方差矩阵或者数据的相关矩阵来构造新变量（主成分）。PCA的步骤如下：1. 数据标准化：由于不同特征的量纲可能不同，标准化可以保证每个特征对PCA有同等的影响。2. 协方差矩阵计算：对标准化后的数据计算协方差矩阵。3. 特征值与特征向量分解：协方差矩阵的特征值和特征向量用来表示数据的主成分方向和对应的方差大小。4. 主成分选择：根据解释方差比例来选择前几大主成分。5. 降维映射：通过选定的主成分将数据投影到低维空间。

2. 适用范围

PCA特别适用于以下场景：- 高维数据（例如，包含多个变量的基因表达数据） - 希望进行降维以便于可视化和后续分析 - 数据具有显著的协方差结构 - 变量之间的关系复杂，需要探索其内在模式

3. 医学科研中的应用举例

基因表达数据分析：医学研究中常用PCA来处理高维基因表达数据。通过PCA，可以将几千个基因的表达信息降维，找出能够解释大部分方差的基因组合，进而揭示不同样本间的差异。
图像数据分析：在医学图像分析中（例如，MRI或CT扫描图像），PCA可以用于图像压缩或特征提取。
药物反应研究：PCA可以帮助研究不同病人对药物反应的分布，识别特定的病人亚群。
流式细胞数据分析：PCA用于处理复杂的流式细胞数据，可以简化数据集并进行细胞群体的分群与特征分析。

4. R语言中的PCA演示

接下来，我们通过R语言展示如何进行PCA分析和可视化。

(1) 安装和加载必要的R包

# 如果还没有安装这些包，可以先运行这段代码安装
## install.packages(c("ggplot2", "FactoMineR", "factoextra"))

# 加载必要的包
library(ggplot2)
library(FactoMineR)  # 用于PCA分析
library(factoextra)  # 用于PCA结果的可视化

(2) 加载数据并进行PCA分析

这里我们使用内置的iris数据集作为示例。

# 加载 iris 数据集
data(iris)

# 移除分类列，进行PCA前仅保留数值数据
iris_data <- iris[, 1:4]

# 进行PCA分析
pca_result <- PCA(iris_data, graph = FALSE)

(3) 查看PCA结果

# 查看PCA结果的解释方差比例
pca_result$eig

##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1 2.91849782             72.9624454                          72.96245
## comp 2 0.91403047             22.8507618                          95.81321
## comp 3 0.14675688              3.6689219                          99.48213
## comp 4 0.02071484              0.5178709                         100.00000

# 查看变量对主成分的贡献
pca_result$var$coord

##                   Dim.1      Dim.2       Dim.3       Dim.4
## Sepal.Length  0.8901688 0.36082989 -0.27565767 -0.03760602
## Sepal.Width  -0.4601427 0.88271627  0.09361987  0.01777631
## Petal.Length  0.9915552 0.02341519  0.05444699  0.11534978
## Petal.Width   0.9649790 0.06399985  0.24298265 -0.07535950

(4) 可视化主成分分析结果

我们可以使用factoextra包进行PCA结果的可视化。首先，绘制样本的主成分图，并根据样本分类进行分组着色。

# 可视化PCA结果，颜色根据种类分组
fviz_pca_ind(pca_result,
             geom.ind = "point",        # 显示样本点
             col.ind = iris$Species,    # 根据种类着色
             palette = c("#00AFBB", "#E7B800", "#FC4E07"),  # 自定义颜色
             addEllipses = TRUE,        # 添加置信椭圆
             legend.title = "Species",  # 图例标题
             title = "PCA of Iris Dataset",  # 图标题
             pointsize = 3,             # 点的大小
             repel = TRUE)              # 防止标签重叠

(5) 可视化变量的贡献

除了观察样本的分布，我们还可以查看变量（特征）对主成分的贡献。

# 可视化变量的贡献
fviz_pca_var(pca_result,
             col.var = "contrib",  # 根据贡献着色
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),  # 自定义颜色
             title = "Variables Contribution to PCs")  # 设置图标题

(6) 绘制主成分贡献条形图

# 绘制主成分的解释方差比例
fviz_eig(pca_result, 
         addlabels = TRUE, 
         ylim = c(0, 60), 
         title = "Scree Plot: Variance Explained by PCs")

(7) 将PCA结果保存为高分辨率图片

# 将PCA图保存为高分辨率图片
ggsave("PCA_iris.png", width = 8, height = 6, dpi = 300)

5. 小结

PCA作为一种强大的数据降维方法，广泛应用于医学科研中，尤其适用于高维数据的分析与可视化。通过R语言的FactoMineR和factoextra包，我们可以轻松实现PCA分析和结果可视化。同时，通过自定义颜色、标题、图例等个性化设置，我们可以生成符合特定需求的SCI图表。

感谢关注，你的支持是我不懈的动力

科研代码

专注R和Python的数据分析。

最新文章

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

4万粉丝福利送书：说说做微信公众号的心得体会

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

杂志编辑：别argue了，交叉验证不做？审稿人拒稿你，也正常啊。

来了！GPT4o接入个人微信！！

审稿人：一篇论文，三种热图的计算方法都用上，年轻人！不讲武德啊。

导师说：这就是你的线性模型？不如直接用非线性回归。

学R语言，看这两本教程就够了

研究生期间靠自己买车买房的都是些什么人？

R的ggplot2碾压Python的Seaborn + Matplotlib？我不知道，不过都比盗版的origin强

导师问：你R代码没写对啊，第一句就报错“no package called ‘ggplot2’”？如何高情商回答！

答辩专家：这就是能发Nature的随机森林R语言代码吗？

ChatGPT: 三句话，我让审稿人爱上你的配色！

印度导师：我喜欢中国学生，自学能力强，能够自己找标准数据集学习数据分析。

唐长老怒斥：白骨精会用三种语言写代码，你把她打死干什么？你以为你是chatGPT啊

审稿人：就是你们实验室一直用线性回归发表论文吗？

杀疯了，天才博士少年连发Nature：科研工作者使用GPT迎来突破性进展

导师：你去画一些好看的热图(Heatmap)来！用R！

导师30岁：“伸手党”才是好学生，很多学生遇到R包报错就不学了！

文末赠书| 科技论文写作：如何应对奇葩审稿人？

海归博导：还是中国学生靠谱，像R数据导入这种基本操作，在国外得手把手教！

生命科学数据分析技能普及（第一批）

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉