导师：你怎么连PLS-DA都不会?奥，我也没教过你。

文摘 2024-11-17 09:01 英国

PLS-DA（Partial Least Squares Discriminant Analysis）是一种常用的分类方法，适用于在变量之间存在共线性的高维数据中进行分类。在这篇文章中，我们将使用Python来完成PLS-DA分类分析，通过调用sklearn和matplotlib库，对经典的鸢尾花数据集进行建模、预测和可视化。希望这篇教程能帮助大家深入理解PLS-DA的分析流程。

一、什么是PLS-DA？

PLS-DA是一种基于偏最小二乘法的判别分析技术。不同于传统的PCA（主成分分析），PLS-DA将类别标签引入模型，通过最大化类别之间的差异来优化分类效果，尤其适用于生物信息学和化学数据中的分类任务。

二、准备工作

在进行分析前，我们需要安装scikit-learn和matplotlib库。您可以通过以下命令安装：

pip install scikit-learn matplotlib

三、导入数据和库

我们将使用sklearn库中的datasets模块导入经典的鸢尾花数据集。该数据集包含了三种不同鸢尾花（Setosa、Versicolor、Virginica）的花瓣和花萼长度、宽度，是分类分析的常用数据集。

# 导入所需库
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cross_decomposition import PLSRegression
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

导入数据

# 加载iris数据集
iris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 类别标签
target_names = iris.target_names  # 类别名称

四、数据预处理

为了提高模型的表现，我们通常需要对数据进行标准化处理，以确保特征的尺度一致。此外，我们将数据集划分为训练集和测试集（70%训练，30%测试）。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

五、构建PLS-DA模型

我们使用PLSRegression类来实现PLS-DA。PLS-DA要求将类别标签转换为哑变量（dummy variables），以适应模型输入要求。

# 将类别标签y转换为哑变量（One-hot编码）
y_train_dummies = pd.get_dummies(y_train).values
y_test_dummies = pd.get_dummies(y_test).values

# 初始化PLS-DA模型并选择成分数
plsda = PLSRegression(n_components=2)
plsda.fit(X_train, y_train_dummies)

在这里，我们将成分数设置为2，以便于后续可视化。成分数的选择可以通过交叉验证来确定。

六、模型预测与评估

在模型训练完成后，我们可以使用测试集进行预测，并计算模型的准确率和混淆矩阵，以评估模型的分类效果。

# 使用测试集进行预测
y_pred = plsda.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)

# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred_classes)
print("模型准确率:", round(accuracy * 100, 2), "%")

## 模型准确率: 91.11 %

# 计算混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred_classes)
print("混淆矩阵:\n", conf_matrix)

## 混淆矩阵:
##  [[18  0  0]
##  [ 0 10  0]
##  [ 0  4 13]]

此处的混淆矩阵可以直观显示每种鸢尾花的预测结果，而准确率则展示了模型在测试集上的总体分类效果。

七、结果可视化

我们可以通过将数据在前两个成分空间中进行投影，来可视化PLS-DA的分类效果。下图展示了三类鸢尾花在成分1和成分2上的分布情况，帮助我们直观了解分类效果。

# 提取PLS-DA的成分得分
X_train_scores = plsda.transform(X_train)

# 绘制PLS-DA分类结果
plt.figure(figsize=(10, 6))
for i, target_name in enumerate(target_names):
    plt.scatter(X_train_scores[y_train == i, 0], 
                X_train_scores[y_train == i, 1], 
                label=target_name)
    
plt.xlabel("F 1")
plt.ylabel("F 2")
plt.title("PLS-DA plot")
plt.legend()
plt.grid(True)
plt.show()

在该图中，不同类别的鸢尾花在前两个成分上表现出较好的分离效果，可以看到PLS-DA较好地实现了分类目标。

八、总结

本文详细介绍了如何使用Python进行PLS-DA分析，从数据预处理、建模到结果可视化的完整流程。PLS-DA的优势在于可以处理多变量共线性和高维数据，适合生物信息、化学等领域的分类分析。希望大家能够从中学习到更多分类分析的实用技巧！

九、完整代码

为了方便大家复制粘贴运行，以下是本次分析的完整代码：

# 导入所需库
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cross_decomposition import PLSRegression
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 加载iris数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target
target_names = iris.target_names

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 将类别标签转换为哑变量
y_train_dummies = pd.get_dummies(y_train).values
y_test_dummies = pd.get_dummies(y_test).values

# 初始化PLS-DA模型
plsda = PLSRegression(n_components=2)
plsda.fit(X_train, y_train_dummies)

# 使用测试集预测
y_pred = plsda.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)

# 模型评估
accuracy = accuracy_score(y_test, y_pred_classes)
print("模型准确率:", round(accuracy * 100, 2), "%")
conf_matrix = confusion_matrix(y_test, y_pred_classes)
print("混淆矩阵:\n", conf_matrix)

# 可视化结果
X_train_scores = plsda.transform(X_train)
plt.figure(figsize=(10, 6))
for i, target_name in enumerate(target_names):
    plt.scatter(X_train_scores[y_train == i, 0], 
                X_train_scores[y_train == i, 1], 
                label=target_name)
    
plt.xlabel("F1")
plt.ylabel("F2")
plt.title("PLS-DA plot")
plt.legend()
plt.grid(True)
plt.show()

以上代码演示了如何使用Python实现PLS-DA的分类分析。希望大家通过这篇教程可以掌握PLS-DA的基本用法，并能够在自己的数据中实践。

点赞，收藏，转发，一键三连啊！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247488370&idx=1&sn=c1be403862f2e185af6f6615dc3cafad

科研代码

专注R和Python的数据分析。

最新文章

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

审稿人：我以为用R语言星号标记显著性是常识？结果这些作者纯手工操作！

学术圈疯传：Python也能导出显著性差异到Excel ，多简单？

朋友圈热议：R是燃油车，Python是新能源电车，我全都要！

朋友圈热议：我才知道Python也能导出高分辨率SCI图片？再也不用PPT了。

最害怕统计学，还有救吗？

朋友圈热议：学会“黑盒模型”，你已经击败95%的。。。

不要再手动计算显著性差异了！R代码从计算到出图，abcd标注一步到位！

RDA还是PCA: 冗余分析和主成分分析有区别吗？

纯干货代码！如何全自动计算显著性并用abcd标记柱状图？

论文热议：什么学校一篇SCI学校奖励8万？

R小白：我真不知道什么是Bioconductor！

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

审稿人：火山图是不是没人用了？

审稿人：才发现这么多人用Excel做散点图？

新手就用Jupyter Notebook写Python代码，不用纠结！

脸盲：图像识别，用R语言还是Python?

来了！GPT4.0接入个人微信！！

PowerBI找工作的真正捷径，超越Python和R！

学R代码，看这两本教程就够了

轰动科研界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

困在“混合双打”里的海外博士！

资深HR：会Python，不会SQL，这样的简历都被拒了。

直播带你写标书，中标率提升58.6%！一键预约！

审稿人：你才三个变量有必要做PCA吗？

听说你们都忙着看大盘，没人学习数据可视化了？

审稿人：平滑处理会丢失数据特征！

干货！甜甜圈图(Donut Chart)R语言全攻略，建议收藏！

如何用R轻松搞定数据清洗？超全攻略！

下班后死磕R语言，英语不好也能学会数据分析

你好厉害，会用R语言画动态轨迹图！

“科研代码公益课”，你会来参加吗？

审稿人：你的文章很好，用OPLSDA就对了

永久激活GPT4.0！有效期至2296年！我上车了！！

杂志编辑：分辨率太低，我要拒稿你！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉