资深审稿人向我道歉，请求不要再用PCA分析数据了

文摘 2024-09-04 16:00 荷兰

在数据分析和机器学习的世界中，高维数据往往让人感到困扰。如何在保留数据主要特征的前提下，降低数据的维度？这时候，PCA（主成分分析）就派上了用场。今天，我们将通过一个完整的实战案例，带大家深入理解PCA的理论，并用Python演示如何将其应用于数据降维和可视化。

什么是PCA？

主成分分析（PCA）是一种常见的数据降维方法，主要通过线性变换，把原始数据转换到一个新的坐标系中，使数据的方差尽可能集中在前几个坐标轴（主成分）上。简单来说，PCA帮助我们找到数据中最重要的方向，并将数据投影到这些方向上，从而去除冗余信息，让数据变得更加简洁。

Python实战：鸢尾花数据集上的PCA

为了更直观地理解PCA，我们将使用Python自带的经典鸢尾花数据集（Iris Dataset）来进行演示。

Step 1: 导入必要的库

首先，我们需要导入一些常用的Python库，比如numpy用于数值计算，matplotlib用于可视化，sklearn则提供了PCA算法和鸢尾花数据集。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
import matplotlib.transforms as transforms

Step 2: 加载并查看数据集

接下来，我们加载鸢尾花数据集，并简单查看数据的结构。鸢尾花数据集包含150个样本，每个样本有4个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。

# 加载鸢尾花数据集
iris = load_iris()
data = iris.data
target = iris.target

# 查看数据集的维度和基本信息
print("Data shape:", data.shape)

## Data shape: (150, 4)

print("Feature names:", iris.feature_names)

## Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

print("Target names:", iris.target_names)

## Target names: ['setosa' 'versicolor' 'virginica']

Step 3: 数据预处理

在进行PCA之前，我们需要对数据进行标准化处理。标准化的目的是让每个特征的平均值为0，方差为1，以避免特征值范围差异过大对PCA结果的影响。

# 标准化数据（均值为0，方差为1）
scaler = StandardScaler()
data_standardized = scaler.fit_transform(data)

# 查看标准化后的数据
print("Standardized Data:\n", data_standardized[:5])

## Standardized Data:
##  [[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
##  [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
##  [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]
##  [-1.50652052  0.09821729 -1.2833891  -1.3154443 ]
##  [-1.02184904  1.24920112 -1.34022653 -1.3154443 ]]

Step 4: 使用PCA降维

现在，我们准备好应用PCA了。我们将使用PCA将数据从4维降到2维，这样我们就可以对降维后的数据进行可视化。

# 创建PCA对象，并指定降维后的维度数
pca = PCA(n_components=2)

# 训练PCA模型，并转换数据
data_reduced = pca.fit_transform(data_standardized)

# 查看降维后的数据
print("Reduced Data:\n", data_reduced[:5])

## Reduced Data:
##  [[-2.26470281  0.4800266 ]
##  [-2.08096115 -0.67413356]
##  [-2.36422905 -0.34190802]
##  [-2.29938422 -0.59739451]
##  [-2.38984217  0.64683538]]

Step 5: 可视化降维后的数据

我们将降维后的数据绘制成二维图，并用不同的颜色区分鸢尾花的三种类别。这样，我们可以直观地看到PCA的效果。

# 绘制降维后的数据
plt.figure(figsize=(8, 6))

# 使用不同的颜色区分不同类别
for i, target_name in enumerate(iris.target_names):
    plt.scatter(data_reduced[target == i, 0], data_reduced[target == i, 1],
                label=target_name, alpha=0.6)

plt.title('PCA of Iris Dataset')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.legend()
plt.show()

Step 6: 查看解释方差比例

PCA还会告诉我们每个主成分能解释多少原始数据的方差。这个信息非常重要，因为它告诉我们降维后的数据还保留了多少信息。

# 查看每个主成分的解释方差比例
explained_variance = pca.explained_variance_ratio_
print("Explained variance ratio:", explained_variance)

## Explained variance ratio: [0.72962445 0.22850762]

# 绘制解释方差比例图
plt.figure(figsize=(6, 4))
plt.bar(range(1, len(explained_variance) + 1), explained_variance, alpha=0.7)
plt.ylabel('Explained Variance Ratio')
plt.xlabel('Principal Component')
plt.title('Explained Variance Ratio by Principal Components')
plt.show()

总结

通过今天的实战演示，我们不仅深入了解了PCA的工作原理，并且学会了如何用Python实现PCA的整个过程。从数据预处理到降维，再到可视化和置信区间的绘制，我们一步步地见证了PCA如何有效地减少数据维度，同时保留主要信息。PCA不仅是一种强大的数据分析工具，也为我们的机器学习模型打下了坚实的基础。

通过实践，你会发现，PCA不仅可以帮助你更好地理解数据，还能为你的数据科学之旅开启新的大门。赶快动手试一试吧！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247487342&idx=1&sn=61cfb8e07106c6df92e1940d5e2d311a

科研代码

专注R和Python的数据分析。

最新文章

文氏图还是韦恩图？糟糕的翻译，但R和Python代码可以！

医学生：我就爱用R怎么了？

审稿人：我只用星星标注显著性差异！

宣布了！博士、教授们！

审稿人：你的PCA没分开啊，分辨率也太低了！

审稿人：学会线性回归，学会用AI发论文。

条形图代码：你用了，论文就接收了！

永久激活GPT4.0！有效期至2296年，我上车了！！

恰恰相反，R和Python都比SPSS好用！

学会了，R配色！

羽哥，我总是免费给女神做显著性分析，这样做对吗？

小羽的书屋：我学数据分析用过的那些书

审稿人: 相关性那么高，是因为你的异常值吧。

用个人网站代替简历，你不知道的找工作捷径（R+github+hugo）

36岁程序员：老板最喜欢用聚类分析啊，你得学会啊！

为什么总感觉用R的人比用Python的多？

资深审稿人向我道歉，请求不要再用PCA分析数据了

审稿人：你看看机器学习和深度学习相结合都应用在哪里？

从Rstudio转向Pycharm，真香！

审稿人：你为什么不用PyTorch包做机器学习?

科研代码：我喜欢Rstudio，我怕它凉了！

审稿人：贝叶斯统计建模, 正在大量发表！

三行代码调用你想要的数据集，请直接拿去！

学R代码，看这两本教程就够了

数据新生：随便搞搞分析，有必要知道Pipeline吗？

成立了！博士们！

审稿人：我沉迷PLSDA分类，再也不用线性分析

资深HR: 我们其实很少招聘只会R语言的毕业生

审稿人：最好用的模型评价不就是准确率嘛?

恭喜各位天命人！资助45681项！24年国自然结果公布！专业评审直播解读，连麦答疑！

审稿人：我看够套路写的文章了，尤其是PCA搭配分类模型

黑神话悟空：如来如果会写代码？判别分析就很简单

太香了，用GPT-4o做科研，免费帐号GPT4.0，我上车了！！

最快完成数据分析发论文，还是得用SPSS

审稿人：最适合新手发论文的判别模型，不用修改稿！

藏不住了！大牛帮选刊投稿后，被拒的5篇SCI全中了！

科研代码：国内对开放获取的偏见该放下了！

我说Scikit-learn是最简单的机器学习库，谁赞成？谁反对？

永久激活GPT4.0！有效期至2296年，我上车了！！

PCA降维：维度其实是一个很难理解的概念

审稿人竟然说SVM只能用来二元分类？绷不住了

学R不好找工作？我们公众号也有自己的知识星球了

审稿人：别让本科生写论文了，他们甚至没做数据预处理！

文末赠书|AI for Science：AI+生命科学的落地应用

学R代码，看这两本教程就够了

新扎师妹：最烦用API调用数据了，一堆乱码！

经验之谈：做科学公众号，一年三万粉丝，收获是学会挨骂

宣布了！博士们！

资深博导：学生问为什么训练集要三七分？我懵了！

轰动科研代码界 | 创世界首列，运用此技术连发多篇顶刊， GPT-4o科研论文与算法，太强了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉