北京大学智能学院袁晓如课题组在高维数据子空间可视分析方面取得重要进展,通过地图隐喻实现子空间多层次多角度的高效便捷交互式探索。该研究工作被国际可视化领域旗舰期刊IEEE Transactions on Visualization and Computer Graphics录用。
高维数据在现实生活中广泛存在,其样本拥有多个属性。子空间指高维空间中的任意低维空间。在分析高维数据时,选择合适的子空间,而不是仅在全维度空间进行分析十分必要。一方面,维数灾难(curse of dimensionality)限制了分析数据的维数。它指的是随着维数的增加,任意两个对象之间趋向于等距,导致降维和聚类等算法不再有效。另一方面,高维数据通常包含多个侧面,每个侧面都由不同的子空间构成。如下图所示,它们可能会呈现不同的数据关系,因此对不同子空间进行分析有助于我们建立对数据更全面的认知。
相同的数据在不同子空间中呈不同的分布 [Yuan et al. TVCG 2013]
子空间分析虽然有效,但往往十分复杂。其挑战主要体现在三个方面。首先,子空间的探索空间巨大。这体现在子空间数目会随维数增加呈指数级增长。面对如此巨大的探索空间,用户很容易不知所措。其次,维度对数据关系的影响复杂。加入或移除维度都可能导致数据关系的巨大变化。由于无法预见这些变化,用户难以对子空间维度做出合理调整。最后,用户对子空间的探索常常缺乏方向。在完成当前分析后,他们可能希望探索相对于当前子空间维度和数据关系变化较小的子空间,也可能希望探索维度变化小而数据关系变化巨大的子空间。选择下一步的探索方向往往是一个极其乏味的反复尝试的过程。面对这三个挑战,我们相应地设定了三个分析目标,即建立探索空间的心像地图,揭示维度对数据关系的影响,并且能够帮助规划子空间探索序列。
工作提出Subspace-Map,通过地图隐喻来开展子空间分析。地图隐喻的优点主要包括空间利用率高且无遮挡,能够在屏幕空间显示数千个子空间。此外,地图是一种人们熟知的呈现方式,使用它能够方便用户理解和交流。具体来说,在Subspace-Map中,每个六边形表示一个子空间,对应一个城市。我们计算两层子空间聚类,对应地图中的国家和省份。每个聚类根据子空间之间的平均相似度选择代表性子空间作为国家的首都和省份的省会。我们还设置两种交通模式:陆地模式和飞行模式,以支持不同形式的子空间导航。陆地模式包含陆路和海路,它们分别连接国家内和国家间的首都和省会,用于分析代表性子空间之间平滑的模式转换。飞行模式可以观察任意两个城市间的模式变化。此外,每个子空间通过扇形图标展示它和相邻子空间包含或不包含各个维度的情况,从而帮助进行局部维度稳定性分析。
Subspace-Map视觉编码
Subspace-Map的构建主要遵循两个原则:保证聚类内子空间排布尽可能紧凑以及聚类间存在间隔。对于每个聚类,我们以代表性子空间为锚点,根据相似性确定子空间遍历顺序,并按照已放置的子空间确定候选位置队列。当前后子空间不属于同一子聚类时,位置队列被重置,以保证同一子聚类内的子空间紧密排列。在排布当前聚类内子空间时,其他聚类会形成禁放区域,避免相接。最后,我们通过移除不必要空白网格、向地图中心聚集以及放大保留网格等方式进一步减少地图内的冗余空间并渲染额外地图隐喻。
Subspace-Map构建过程
我们基于Subspace-Map开发了原型系统。系统左侧为子空间列表视图,用于展示子空间的维度组成。列表每行对应一个子空间。黑框和白框表示对应维度存在或不存在。中间视图为子空间地图。右侧的地图细节视图展示子空间的维度和数据模式。圆环上的点表示维度,其中聚类通常包含和不包含的维度通过不同图标高亮。圆环内数据点的不透明度表示对应数据项在聚类内的邻域稳定性。
Subspace-Map原型系统
系统的工作流程如下图所示。用户可以在聚类、子聚类和子空间三个层面进行探索。通过分析各种模式和模式转换,用户可以获取主导维度、稳定的数据模式等方面的见解。
系统工作流程
论文由北京大学智能学院博士李金城(今年新任职于北京师范大学人工智能学院)和赖楚凡(现任职于中国科学院空间应用工程与技术中心)为共同第一作者,通讯作者为智能学院袁晓如。工作获得国家自然科学基金项目NSFC 62272012支持。
实验室长期在高维数据可视化方面开展工作。早期的工作包括SPPC (Scattering Points in Parallel Coordinates) [Yuan et al. TVCG 2009],通过将散点图嵌入平行坐标内实现不同分析手段之间的联合分析;多种对平行坐标杂乱现象的提升改进[Zhou et al. CGF 2008, Zhou et al. CGF 2009];结合矩阵和树可视化形式开展高维数据维度空间和数据空间的迭代探索的工作Dimension Projection-Matrix/Tree [Yuan et al. TVCG 2013]。
上:SPPC;下:Dimension Projection-Matrix/Tree
实验室还在社交媒体数据可视分析的工作中系统发展了地图隐喻的方法,利用地图隐喻来表达非空间信息。包括分析单人网络关系及其发送信息是如何在不同人群中流转的D-Map [Chen et al. VAST 2016]、帮助用户快速掌握事件各个方面并深入理解事件的动态发展的E-Map [Chen et al. VAST 2017]、分析单条微博的传播过程和深入理解传播过程语义变化的R-Map [Chen et al. TVCG 2020]等。
左:D-Map;中:E-Map;右:R-Map
实验室欢迎研究者联系开展合作,也欢迎有兴趣的同学申请加入。联系方法:pkuvis[at]pku.edu.cn。