审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

文摘 2024-12-15 09:02 爱尔兰

先把结论放在第一句：

PCA不应与分类（classification）或判别分析（discrimination）中的“分组”概念混为一谈。

在数据分析中，主成分分析（PCA）是一种广泛使用的降维方法。然而，在许多论文和项目展示中，人们常常误解PCA的本质，错误地将其视为一种分组或分类工具。例如，在PCA可视化图中为不同类别画圈或用颜色区分，导致许多人误以为PCA本身进行了分组或类别判别。但是：请记住，PCA的核心目标是降维！它的任务是通过寻找数据中“信息量最大”的方向，将高维数据映射到更低的维度，从而实现数据的简化和可视化。

为何会产生这种误解？

这是因为PCA降维后的数据往往能在低维空间中呈现出一定的结构，尤其在可视化时，不同类别的样本可能自然地分散开来。但这只是降维过程中数据分布的客观结果，而非PCA本身具备分组的能力。因此，在PCA可视化时，画圈或用颜色区分类别仅仅是为了辅助展示，而不是PCA的“功能”或“目标”。今天的更新将带你深入浅出地理解PCA的基本概念，掌握如何用Python实现PCA，并通过高度美学优化的可视化，让结果一目了然！

一、PCA理论直观理解

在不涉及复杂公式的情况下，我们来理解PCA的核心思想：

高维数据如何降维？
数据有很多个特征，有时候，我们并不需要每个特征。PCA会找到数据中“信息量”最大的方向（称为主成分），并将数据映射到这些方向上。
如何保留关键信息？
PCA会按顺序排列这些“信息量最大的方向”，确保尽量少的维度下，仍能保留最多的数据变化信息。
结果是什么？

降维后的数据（更少的特征）。
每个主成分对应的重要性（解释方差比例）。

简单来说，PCA帮你找到数据“最重要的几个方面”，然后通过降维让数据更易于分析、可视化。

二、PCA实现：手把手代码教程

我们将使用Python的sklearn库和matplotlib/seaborn进行实现和美学优化的可视化。这里，我们使用经典的iris数据集（鸢尾花数据集），它包含4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
from matplotlib.patches import Ellipse
import seaborn as sns

# 设置Seaborn风格
sns.set(style="whitegrid", palette="muted", font_scale=1.2)

# 加载Iris数据集
data = load_iris()
X = data.data  # 特征矩阵
y = data.target  # 标签
target_names = data.target_names

# PCA降维到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# 计算置信椭圆
def plot_confidence_ellipse(ax, x, y, n_std=2.0, facecolor='none', edgecolor='black', alpha=0.3, **kwargs):
    """
    在给定的轴上绘制置信椭圆
    """
    if x.size != y.size:
        raise ValueError("x 和 y 的尺寸必须相同")
    
    cov = np.cov(x, y)  # 计算协方差矩阵
    mean_x, mean_y = np.mean(x), np.mean(y)  # 计算均值
    
    # 计算椭圆的主轴长度和角度
    lambda_, v = np.linalg.eig(cov)
    lambda_ = np.sqrt(lambda_)
    angle = np.degrees(np.arctan2(*v[:, 0][::-1]))
    
    # 绘制椭圆
    ellipse = Ellipse((mean_x, mean_y), width=lambda_[0]*n_std*2, height=lambda_[1]*n_std*2,
                      angle=angle, facecolor=facecolor, edgecolor=edgecolor, alpha=alpha, linewidth=2, **kwargs)
    ax.add_patch(ellipse)

# 创建图形
fig, ax = plt.subplots(figsize=(10, 7))

# 调色板
colors = sns.color_palette("husl", n_colors=3)

# 绘制数据点和置信椭圆
for i, target_name in enumerate(target_names):
    x_pca = X_pca[y == i, 0]
    y_pca = X_pca[y == i, 1]
    ax.scatter(x_pca, y_pca, s=100, label=target_name, color=colors[i], edgecolor='k', linewidth=0.8, alpha=0.7)
    plot_confidence_ellipse(ax, x_pca, y_pca, n_std=2.0, edgecolor=colors[i], alpha=0.2)

# 美化坐标轴
ax.set_xlabel('PCA Component 1', fontsize=14, fontweight='bold')
ax.set_ylabel('PCA Component 2', fontsize=14, fontweight='bold')
ax.set_title('PCA of IRIS Dataset with 95% Confidence Ellipses', fontsize=16, fontweight='bold', pad=15)

# 设置图例位置在坐标系外部
ax.legend(
    title='Species', 
    loc='upper left', 
    bbox_to_anchor=(1.05, 1),  # 将图例放在右侧外部
    fontsize=12, 
    title_fontsize=13
)

# 美化网格与边框
ax.grid(True, linestyle='--', alpha=0.5)
sns.despine(trim=True, offset=10)

# 显示图形
plt.tight_layout()
plt.show()

PCA不仅降维，还可以告诉我们每个主成分的重要性。

# 查看主成分的重要性
explained_variance_ratio = pca.explained_variance_ratio_
print(f'PC1解释的方差比例: {explained_variance_ratio[0]:.2f}')

## PC1解释的方差比例: 0.92

print(f'PC2解释的方差比例: {explained_variance_ratio[1]:.2f}')

## PC2解释的方差比例: 0.05

主成分的重要性可以直观地反映每个主成分所包含的信息量。在实际分析中，这有助于我们判断降维后的数据是否保留了足够的信息。

三、总结

希望今天的示例能直观展示PCA的核心思想，其实，只要根据你的原始数据适当调整代码，即可将今天的知识无缝衔接到你的数据分析中。欢迎大胆尝试！有问题评论区留言！

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

最新文章

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

4万粉丝福利送书：说说做微信公众号的心得体会

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

杂志编辑：别argue了，交叉验证不做？审稿人拒稿你，也正常啊。

来了！GPT4o接入个人微信！！

审稿人：一篇论文，三种热图的计算方法都用上，年轻人！不讲武德啊。

导师说：这就是你的线性模型？不如直接用非线性回归。

学R语言，看这两本教程就够了

研究生期间靠自己买车买房的都是些什么人？

R的ggplot2碾压Python的Seaborn + Matplotlib？我不知道，不过都比盗版的origin强

导师问：你R代码没写对啊，第一句就报错“no package called ‘ggplot2’”？如何高情商回答！

答辩专家：这就是能发Nature的随机森林R语言代码吗？

ChatGPT: 三句话，我让审稿人爱上你的配色！

印度导师：我喜欢中国学生，自学能力强，能够自己找标准数据集学习数据分析。

唐长老怒斥：白骨精会用三种语言写代码，你把她打死干什么？你以为你是chatGPT啊

审稿人：就是你们实验室一直用线性回归发表论文吗？

杀疯了，天才博士少年连发Nature：科研工作者使用GPT迎来突破性进展

导师：你去画一些好看的热图(Heatmap)来！用R！

导师30岁：“伸手党”才是好学生，很多学生遇到R包报错就不学了！

文末赠书| 科技论文写作：如何应对奇葩审稿人？

海归博导：还是中国学生靠谱，像R数据导入这种基本操作，在国外得手把手教！

生命科学数据分析技能普及（第一批）

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉