PCA绘图哪家强？R和Python都玩出花来了

文摘 2024-11-13 09:02 爱尔兰

PCA（主成分分析）是一种经典的数据降维方法，它通过转换数据变量来提取数据的主要特征，以便在降低维度的同时保持尽可能多的数据信息。PCA在数据探索、可视化和特征工程中非常常用，特别是当面对高维数据集时，PCA能够帮助我们更直观地理解数据的内在结构。然而，简单的PCA图经常显得平淡无奇，那么，如何让PCA图更具视觉吸引力？R和Python又有哪些不同的绘图特点？今天的更新将带你一起探索如何用Python和R生成漂亮的PCA图，并进行个性化设置，来提升图表的表达力。

选择R还是Python？

如果你的目标是生成符合科研出版需求的图表，且希望有更直观的调色和布局调整，R的ggplot2会是一个不错的选择。其主题设置和颜色手动调整非常适合需要快速生成多样化可视化效果的科研工作。
如果你正在进行机器学习或深度学习项目的原型开发，Python则更加合适。它的matplotlib和seaborn提供了丰富的可视化支持，同时与机器学习库如scikit-learn无缝集成，更便于数据预处理与建模的联合开发。

接下来，我们将分别使用Python和R来绘制一个基于Iris数据集的PCA图，并对图形进行细致的个性化设置，包括标题、坐标轴、图例大小以及颜色的优化，让图形更适合科研和论文的需求。

使用Python绘制个性化PCA图

在Python中，我们使用scikit-learn进行PCA计算，并利用matplotlib和seaborn进行可视化。这两个库的组合能够让我们灵活地调整点的颜色、形状、大小等，生成一个清晰直观的PCA图。

Python代码

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# 数据加载和预处理
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

scaler = StandardScaler()
df_scaled = scaler.fit_transform(df.iloc[:, :-1])

# PCA计算
pca = PCA(n_components=2)
pca_result = pca.fit_transform(df_scaled)
df['PC1'] = pca_result[:, 0]
df['PC2'] = pca_result[:, 1]

# 设置图形美化风格
sns.set(style="whitegrid")

# 绘制PCA图
plt.figure(figsize=(10, 8))  # 设置图形尺寸
pca_plot = sns.scatterplot(
    x="PC1", y="PC2", hue="target", style="target", data=df,
    palette="Dark2", s=120, edgecolor="black", alpha=0.8  # 配色和透明度优化
)

# 添加轴标题和图标题，设置字体大小和加粗
pca_plot.set_title("PCA of Iris Dataset", fontsize=18, weight='bold', pad=20)
pca_plot.set_xlabel(f"PC1 ({pca.explained_variance_ratio_[0]*100:.2f}% Variance)", fontsize=14, labelpad=10)
pca_plot.set_ylabel(f"PC2 ({pca.explained_variance_ratio_[1]*100:.2f}% Variance)", fontsize=14, labelpad=10)

# 设置坐标刻度字体大小
pca_plot.tick_params(axis='x', labelsize=12)
pca_plot.tick_params(axis='y', labelsize=12)

# 图例优化
legend = pca_plot.legend(title='Species', title_fontsize='13', loc='upper right', fontsize='11')
legend.get_frame().set_edgecolor('black')  # 图例边框颜色
legend.get_frame().set_linewidth(1.2)

plt.show()

Python个性化设置说明

颜色方案：设置palette="Dark2"，选择深色调的调色板，以增强区分类别的对比度，使图形更易于辨识。
标题和坐标轴：通过fontsize和weight='bold'设置字体大小和加粗，并使用pad参数优化标题和坐标标签的间距。
点样式：设置edgecolor="black"和较大的alpha值，使得点的边缘更加清晰，增强视觉对比。
图例边框：为图例添加黑色边框，并通过linewidth参数设置边框粗细，增加图例的视觉分隔效果。

使用R绘制个性化PCA图

在R中，我们使用prcomp进行PCA计算，并利用ggplot2生成图形。ggplot2以其灵活的美学映射和组合设置能力，使R成为制作科学图表的首选之一。通过调整ggplot2的图形主题和颜色选项，可以使图形符合学术标准。

R代码

# 加载所需的包
library(ggplot2)
library(datasets)

# 数据加载和PCA计算
data <- iris
pca <- prcomp(data[, 1:4], center = TRUE, scale. = TRUE)
data$PC1 <- pca$x[, 1]
data$PC2 <- pca$x[, 2]

# 设置颜色和形状的个性化样式
p <- ggplot(data, aes(x = PC1, y = PC2, color = Species, shape = Species)) +
  geom_point(size = 3.5, alpha = 0.8) +  # 设置点大小和透明度
  scale_color_manual(values = c("#E41A1C", "#377EB8", "#4DAF4A")) +  # 使用手动配色
  theme_minimal() +  # 主题背景简化
  labs(
    title = "PCA of Iris Dataset",
    x = paste("PC1 (", round(summary(pca)$importance[2, 1] * 100, 2), "% Variance)", sep=""),
    y = paste("PC2 (", round(summary(pca)$importance[2, 2] * 100, 2), "% Variance)", sep="")
  ) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold", size = 20, margin = margin(b = 15)),  # 标题
    axis.title = element_text(size = 15),  # 坐标轴标题字体
    axis.text = element_text(size = 13),   # 坐标轴刻度
    legend.title = element_text(size = 13), # 图例标题
    legend.text = element_text(size = 11),  # 图例内容
    legend.position = "right",             # 图例位置
    legend.background = element_rect(color = "black", size = 0.5),  # 图例边框
    panel.grid.major = element_line(color = "grey", size = 0.5),  # 主网格线颜色和粗细
    panel.grid.minor = element_blank()  # 去除次要网格线
  )

print(p)

R个性化设置说明

颜色调整：使用scale_color_manual设置手动配色，让每个类别的颜色对比明显且适合打印。
标题和坐标轴字体：通过element_text调整标题和坐标轴字体大小和加粗，确保视觉效果更符合科研需求。
图例边框：为图例添加黑色边框，使其与图表背景分开，更便于理解。
网格线：通过设置panel.grid.major的颜色和粗细，降低次要网格的干扰。

小结

在这篇文章中，我们展示了如何使用Python和R分别绘制PCA图，并进行了细致的个性化设置。Python凭借seaborn和matplotlib库，能提供多样化的个性化调整；而R中的ggplot2提供了丰富的美学映射，让R在统计数据的可视化上更加便捷和细致。

感谢关注，你的支持是我不懈的动力！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247488316&idx=1&sn=a39d95281add4b1162cdb10a72aee563

科研代码

专注R和Python的数据分析。

最新文章

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

审稿人：我以为用R语言星号标记显著性是常识？结果这些作者纯手工操作！

学术圈疯传：Python也能导出显著性差异到Excel ，多简单？

朋友圈热议：R是燃油车，Python是新能源电车，我全都要！

朋友圈热议：我才知道Python也能导出高分辨率SCI图片？再也不用PPT了。

最害怕统计学，还有救吗？

朋友圈热议：学会“黑盒模型”，你已经击败95%的。。。

不要再手动计算显著性差异了！R代码从计算到出图，abcd标注一步到位！

RDA还是PCA: 冗余分析和主成分分析有区别吗？

纯干货代码！如何全自动计算显著性并用abcd标记柱状图？

论文热议：什么学校一篇SCI学校奖励8万？

R小白：我真不知道什么是Bioconductor！

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

审稿人：火山图是不是没人用了？

审稿人：才发现这么多人用Excel做散点图？

新手就用Jupyter Notebook写Python代码，不用纠结！

脸盲：图像识别，用R语言还是Python?

来了！GPT4.0接入个人微信！！

PowerBI找工作的真正捷径，超越Python和R！

学R代码，看这两本教程就够了

轰动科研界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

困在“混合双打”里的海外博士！

资深HR：会Python，不会SQL，这样的简历都被拒了。

直播带你写标书，中标率提升58.6%！一键预约！

审稿人：你才三个变量有必要做PCA吗？

听说你们都忙着看大盘，没人学习数据可视化了？

审稿人：平滑处理会丢失数据特征！

干货！甜甜圈图(Donut Chart)R语言全攻略，建议收藏！

如何用R轻松搞定数据清洗？超全攻略！

下班后死磕R语言，英语不好也能学会数据分析

你好厉害，会用R语言画动态轨迹图！

“科研代码公益课”，你会来参加吗？

审稿人：你的文章很好，用OPLSDA就对了

永久激活GPT4.0！有效期至2296年！我上车了！！

杂志编辑：分辨率太低，我要拒稿你！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉