t-SNE的核心思想是保持高维空间中数据点之间的相似性关系,尽量在低维空间中保持相似的关系。简单说,如果在高维空间中两个点很相似,它们在降维后的低维空间中仍然要尽量保持相似。
这个算法的数学原理涉及到概率分布和距离的概念。它首先计算高维空间中点与点之间的相似性,使用一个概率分布来表示这种相似性。然后,在低维空间中,它再计算点与点之间的相似性,并构建另一个概率分布。
t-SNE的目标是最小化这两个概率分布之间的差异,以确保高维空间中相似的点在低维空间中仍然保持相似。这个差异通常通过使用KL散度(Kullback-Leibler divergence)来衡量。
数据的特征(维度)越高,就越难以在低维空间中进行绘制,没有明显的规律性(散乱);用t-SNE降维成二维或者三维较低空间时,数据样本的分布呈现出一定的规律(聚合)。
观察刚输入的原始故障样本分布和模型提取特征后全连接层的样本特征分布。
模型提取特征后的样本分布:(不同故障样本分离,同类故障样本聚合,特征提取成功)
完整代码:https://mbd.pub/o/bread/ZZqamJls