均匀流形近似和投影Uniform manifold approximation and projection是一种非线性降维方法,常用于数据可视化以及机器学习任务(如聚类)的预处理。
近日,加拿大 图特数学与计算研究所(Tutte Institute for Mathematics and Computing)John Healy & Leland McInnes,在Nature Reviews Methods Primers上发文,概述了统一流形近似和投影算法、工作原理背后的直觉、如何最好地应用于数据以及如何解释和理解结果。
Uniform manifold approximation and projection. 图1: 统一流形逼近和投影的原理。
图2: 主成分分析和等度量映射Isomap降维算法比较。
(注:等度量映射Isomap算法,最主要的优点是使用“测地距离”,而不是使用原始的欧几里得距离,以更好的控制数据信息的流失)
图3: 在帕尔默企鹅公共数据集上,基于各种特征的数据着色,均匀流形近似和投影的运行结果。
图4: 在帕尔默企鹅公共数据集上,部分示例诊断图。
图5: 赫罗图Hertzsprung–Russell diagram显示了恒星的表面温度和光度。
(注:赫罗图(Hertzsprung-Russell diagram,简写为H-R diagram或HRD),恒星天文学名词,是指恒星的光谱类型与光度之关系图。是丹麦天文学家赫茨普龙及由美国天文学家罗素分别于1911年和1913年各自独立提出的。后来的研究发现,这张图是研究恒星演化的重要工具,因此把这样一张图以当时两位天文学家的名字来命名,称为赫罗图)
图6: 不同类型的表示。
图7: 在均匀流形近似和投影中,超参数选项的部分示例。
Healy, J., McInnes, L. Uniform manifold approximation and projection. Nat Rev Methods Primers 4, 82 (2024). https://doi.org/10.1038/s43586-024-00363-xhttps://www.nature.com/articles/s43586-024-00363-x声明:仅代表译者观点,如有不科学之处,请在下方留言指正!