研究进展:统一流形逼近与投影UMAP-数据降维 | Nature Reviews Methods Primers

文摘   2024-11-24 10:44   北京  

均匀流形近似和投影Uniform manifold approximation and projection是一种非线性降维方法,常用于数据可视化以及机器学习任务(如聚类)的预处理。

近日,加拿大 图特数学与计算研究所(Tutte Institute for Mathematics and Computing)John Healy & Leland McInnes,在Nature Reviews Methods Primers上发文,概述了统一流形近似和投影算法、工作原理背后的直觉、如何最好地应用于数据以及如何解释和理解结果。

Uniform manifold approximation and projection. 
统一流形逼近与投影

图1: 统一流形逼近和投影的原理。


图2: 主成分分析和等度量映射Isomap降维算法比较。

(注:等度量映射Isomap算法,最主要的优点是使用“测地距离”,而不是使用原始的欧几里得距离,以更好的控制数据信息的流失)


图3: 在帕尔默企鹅公共数据集上,基于各种特征的数据着色,均匀流形近似和投影的运行结果。


图4: 在帕尔默企鹅公共数据集上,部分示例诊断图。


图5: 赫罗图Hertzsprung–Russell diagram显示了恒星的表面温度和光度。

(注:赫罗图(Hertzsprung-Russell diagram,简写为H-R diagram或HRD),恒星天文学名词,是指恒星的光谱类型与光度之关系图。是丹麦天文学家赫茨普龙及由美国天文学家罗素分别于1911年和1913年各自独立提出的。后来的研究发现,这张图是研究恒星演化的重要工具,因此把这样一张图以当时两位天文学家的名字来命名,称为赫罗图)


图6: 不同类型的表示。


图7: 在均匀流形近似和投影中,超参数选项的部分示例。

文献链接
Healy, J., McInnes, L. Uniform manifold approximation and projection. Nat Rev Methods Primers 4, 82 (2024). 
https://doi.org/10.1038/s43586-024-00363-x
https://www.nature.com/articles/s43586-024-00363-x
本文译自Nature。
来源:今日新材料
声明:仅代表译者观点,如有不科学之处,请在下方留言指正!

推荐阅读
23 个优秀的机器学习训练公共数据集
一张图,揭示恒星的一生
人物说 | 威廉·托马斯·图特:站在数学塔尖上“密码救国”

今日新材料
中国材料研究学会每日发布新材料最新动态。
 最新文章