审稿人：我沉迷PLSDA分类，再也不用线性分析

文摘 2024-08-26 09:00 爱尔兰

在数据科学领域，理解和掌握不同的降维和分类技术是非常重要的。今天的更新我们将介绍一种结合了降维和分类的技术：偏最小二乘判别分析（PLS-DA）。很多时候，人们特别喜欢用线性判别分析（LDA），但问题是人们很少考虑使用线性的前置条件，那很多数据根本不适合线性分析，那么就应该用PLSDA这种万金油类型的判别分析方法。这篇更新还包括特别完整的Python代码，演示如何应用PLS-DA对自带数据集进行判别分类，展示PLS-DA分类的可视化图。值得关注分享收藏！

什么是PLS-DA？

PLS-DA（Partial Least Squares Discriminant Analysis）是偏最小二乘回归（PLS）的分类版本。PLS是一种常用于处理多变量数据的统计方法，通过寻找变量之间的最大协方差来简化数据集。PLS-DA将PLS的能力扩展到分类问题中，通过最大化类别之间的差异来进行分类。

PLS-DA的目标是通过提取对类别区分最有贡献的信息，将数据投影到一个新的低维空间中，从而提高分类的准确性。这使得PLS-DA特别适合于处理具有高维度且高度共线的数据集，例如在化学、基因组学和代谢组学中常见的数据集。

PLS-DA与PCA和LDA的区别

PLS-DA vs. PCA：

PCA（主成分分析）：PCA是一种无监督的降维技术，其目标是找到解释数据方差的主成分。PCA仅关注数据的结构和方差，而不考虑类别标签，因此它是一种无监督方法。
PLS-DA：PLS-DA是一种有监督的降维和分类技术，它在考虑类别标签的基础上进行投影，目的是找到能区分不同类别的潜在变量。因此，与PCA相比，PLS-DA更适合用于分类任务。

PLS-DA vs. LDA：

LDA（线性判别分析）：LDA是一种线性分类技术，它通过寻找可以最大化类别之间距离同时最小化类内方差的投影方向来区分类别。LDA通常适用于维度低于样本数的数据集。
PLS-DA：PLS-DA通过提取与类别差异最相关的成分来进行分类，并且不受维度限制，因此可以处理高维数据集。PLS-DA不仅可以用于降维，还可以进行分类，因此它在高维数据处理方面比LDA更具灵活性。

PLS-DA的Python实现

接下来，我们使用Python和scikit-learn库来演示如何应用PLS-DA进行数据分类。

1. 导入所需的库

import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cross_decomposition import PLSRegression
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

2. 数据加载和预处理

我们将使用scikit-learn自带的葡萄酒数据集，这是一个经典的多变量分类问题。

# 加载葡萄酒数据集
data = datasets.load_wine()
X = data.data
y = data.target
feature_names = data.feature_names

# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

3. PLS-DA建模

我们使用PLSRegression来实现PLS-DA。在这里，我们将类别标签转换为二进制格式以适应PLS回归的要求。

# 使用PLSRegression进行PLS-DA建模
plsda = PLSRegression(n_components=2)
plsda.fit(X_train, pd.get_dummies(y_train))

# 预测测试集
y_pred = plsda.predict(X_test)
y_pred_class = np.argmax(y_pred, axis=1)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred_class)
print(f"模型准确率: {accuracy:.2f}")

## 模型准确率: 0.98

# 混淆矩阵
cm = confusion_matrix(y_test, y_pred_class)
print("混淆矩阵:\n", cm)

## 混淆矩阵:
##  [[19  0  0]
##  [ 0 20  1]
##  [ 0  0 14]]

4. PLS-DA结果的可视化

我们通过绘制二维图来可视化PLS-DA的分类结果。

# 将训练数据投影到PLS成分上
X_train_pls = plsda.transform(X_train)
X_test_pls = plsda.transform(X_test)

plt.figure(figsize=(8, 6))

# 可视化训练集
for i, target_name in enumerate(data.target_names):
    plt.scatter(X_train_pls[y_train == i, 0], X_train_pls[y_train == i, 1], label=f'训练 {target_name}', alpha=0.7)

# 可视化测试集
for i, target_name in enumerate(data.target_names):
    plt.scatter(X_test_pls[y_test == i, 0], X_test_pls[y_test == i, 1], label=f'测试 {target_name}', alpha=0.7, marker='x')

plt.xlabel('PLS Component 1')
plt.ylabel('PLS Component 2')
plt.title('PLS-DA 分类结果')
plt.legend()
plt.show()

结论

PLS-DA通过结合PLS的降维能力和线性判别的分类能力，提供了一种处理高维数据的有效方法。通过最大化类别之间的差异，PLS-DA能够在保留有用信息的同时提高分类的准确性。希望这篇文章能帮助你更好地理解PLS-DA的概念和应用。

感谢关注！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247487124&idx=1&sn=808531d3bad31740abf6b8e6ff2d60f2

科研代码

专注R和Python的数据分析。

最新文章

不要再手动计算显著性差异了！R代码从计算到出图，abcd标注一步到位！

RDA还是PCA: 冗余分析和主成分分析有区别吗？

纯干货代码！如何全自动计算显著性并用abcd标记柱状图？

论文热议：什么学校一篇SCI学校奖励8万？

R小白：我真不知道什么是Bioconductor！

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

审稿人：火山图是不是没人用了？

审稿人：才发现这么多人用Excel做散点图？

新手就用Jupyter Notebook写Python代码，不用纠结！

脸盲：图像识别，用R语言还是Python?

来了！GPT4.0接入个人微信！！

PowerBI找工作的真正捷径，超越Python和R！

学R代码，看这两本教程就够了

轰动科研界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

困在“混合双打”里的海外博士！

资深HR：会Python，不会SQL，这样的简历都被拒了。

直播带你写标书，中标率提升58.6%！一键预约！

审稿人：你才三个变量有必要做PCA吗？

听说你们都忙着看大盘，没人学习数据可视化了？

审稿人：平滑处理会丢失数据特征！

干货！甜甜圈图(Donut Chart)R语言全攻略，建议收藏！

如何用R轻松搞定数据清洗？超全攻略！

下班后死磕R语言，英语不好也能学会数据分析

你好厉害，会用R语言画动态轨迹图！

“科研代码公益课”，你会来参加吗？

审稿人：你的文章很好，用OPLSDA就对了

永久激活GPT4.0！有效期至2296年！我上车了！！

杂志编辑：分辨率太低，我要拒稿你！

基因热图可视化， R最简单，还差99%就发顶刊了。

的确可以封神了!原来写 SCI这么简单

R语言的环境配置？繁琐，感到害怕！

系主任：大学青椒写SCI核心期刊论文的痛点，我都知道

用R做机器学习，不高级？

月薪45-60k！真心建议大家冲一冲数据分析相关新兴领域，前景好，人才缺口极大！

审稿人：现在的论文都不检测正态分布了吗？

审稿人：PCOA分析，99%的人都不用!

频发科研顶刊！这个新方向杀疯了，抓紧搞起来

R实战经验分享：把tidyr 包学会，R难度降低一半

来啦！科研代码在线投稿平台！

再见Rstudio，你好Dataspell

审稿人：显著性分析和ANOVA不是一回事吧？

优雅R：散点图是真没人用了吗？

优雅R：雷达图，代码给你！

小羽的书屋：我学数据分析用过的那些书

用R绘制圆形柱状图，优雅！

文氏图还是韦恩图？糟糕的翻译，但R和Python代码可以！

医学生：我就爱用R怎么了？

审稿人：我只用星星标注显著性差异！

宣布了！博士、教授们！

审稿人：你的PCA没分开啊，分辨率也太低了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉