PCA本质上是一种降维技术。然而,有时人们使用PCA来可视化高维数据集。这是通过将给定的数据投影到二维空间并进行可视化实现的。
虽然这看起来是一个合理的做法,但这里有一个经常被忽视的大问题。
为了理解这个问题,我们首先需要了解一些关于PCA如何工作的知识。
PCA是如何工作的?
PCA的核心思想是使用协方差矩阵的特征向量将数据线性投影到另一个空间。
为什么选择特征向量(eigenvectors)?
1.它创建了创建不相关(独立)的特征。如果特征之间是独立的,那么在进行降维时,可以丢弃方差最小的特征,因为它们包含的信息最少。
2.它确保新特征集合共同保留了原始数据的方差。
回到可视化的主题。
如上所述,应用PCA后,每个新特征捕捉了原始数据方差的一部分。因此,如果我们打算通过将数据投影到二维空间来进行可视化……
…那么这个可视化只有在前两个主成分能够捕捉到原始数据的大部分方差时才有用。
如果不能,那么二维可视化将会非常具有误导性并且不准确。
如何判断前两个主成分的方差贡献?
我们可以通过绘制累计解释方差(CEV)图来避免这个错误。