Subspace-Map: 通过地图隐喻完成高维数据子空间的交互式探索

文摘 2024-08-09 05:45 黑龙江

北京大学智能学院袁晓如课题组在高维数据子空间可视分析方面取得重要进展，通过地图隐喻实现子空间多层次多角度的高效便捷交互式探索。该研究工作被国际可视化领域旗舰期刊IEEE Transactions on Visualization and Computer Graphics录用。

高维数据在现实生活中广泛存在，其样本拥有多个属性。子空间指高维空间中的任意低维空间。在分析高维数据时，选择合适的子空间，而不是仅在全维度空间进行分析十分必要。一方面，维数灾难（curse of dimensionality）限制了分析数据的维数。它指的是随着维数的增加，任意两个对象之间趋向于等距，导致降维和聚类等算法不再有效。另一方面，高维数据通常包含多个侧面，每个侧面都由不同的子空间构成。如下图所示，它们可能会呈现不同的数据关系，因此对不同子空间进行分析有助于我们建立对数据更全面的认知。

相同的数据在不同子空间中呈不同的分布 [Yuan et al. TVCG 2013]

子空间分析虽然有效，但往往十分复杂。其挑战主要体现在三个方面。首先，子空间的探索空间巨大。这体现在子空间数目会随维数增加呈指数级增长。面对如此巨大的探索空间，用户很容易不知所措。其次，维度对数据关系的影响复杂。加入或移除维度都可能导致数据关系的巨大变化。由于无法预见这些变化，用户难以对子空间维度做出合理调整。最后，用户对子空间的探索常常缺乏方向。在完成当前分析后，他们可能希望探索相对于当前子空间维度和数据关系变化较小的子空间，也可能希望探索维度变化小而数据关系变化巨大的子空间。选择下一步的探索方向往往是一个极其乏味的反复尝试的过程。面对这三个挑战，我们相应地设定了三个分析目标，即建立探索空间的心像地图，揭示维度对数据关系的影响，并且能够帮助规划子空间探索序列。

工作提出Subspace-Map，通过地图隐喻来开展子空间分析。地图隐喻的优点主要包括空间利用率高且无遮挡，能够在屏幕空间显示数千个子空间。此外，地图是一种人们熟知的呈现方式，使用它能够方便用户理解和交流。具体来说，在Subspace-Map中，每个六边形表示一个子空间，对应一个城市。我们计算两层子空间聚类，对应地图中的国家和省份。每个聚类根据子空间之间的平均相似度选择代表性子空间作为国家的首都和省份的省会。我们还设置两种交通模式：陆地模式和飞行模式，以支持不同形式的子空间导航。陆地模式包含陆路和海路，它们分别连接国家内和国家间的首都和省会，用于分析代表性子空间之间平滑的模式转换。飞行模式可以观察任意两个城市间的模式变化。此外，每个子空间通过扇形图标展示它和相邻子空间包含或不包含各个维度的情况，从而帮助进行局部维度稳定性分析。

Subspace-Map视觉编码

Subspace-Map的构建主要遵循两个原则：保证聚类内子空间排布尽可能紧凑以及聚类间存在间隔。对于每个聚类，我们以代表性子空间为锚点，根据相似性确定子空间遍历顺序，并按照已放置的子空间确定候选位置队列。当前后子空间不属于同一子聚类时，位置队列被重置，以保证同一子聚类内的子空间紧密排列。在排布当前聚类内子空间时，其他聚类会形成禁放区域，避免相接。最后，我们通过移除不必要空白网格、向地图中心聚集以及放大保留网格等方式进一步减少地图内的冗余空间并渲染额外地图隐喻。

Subspace-Map构建过程

我们基于Subspace-Map开发了原型系统。系统左侧为子空间列表视图，用于展示子空间的维度组成。列表每行对应一个子空间。黑框和白框表示对应维度存在或不存在。中间视图为子空间地图。右侧的地图细节视图展示子空间的维度和数据模式。圆环上的点表示维度，其中聚类通常包含和不包含的维度通过不同图标高亮。圆环内数据点的不透明度表示对应数据项在聚类内的邻域稳定性。

Subspace-Map原型系统

系统的工作流程如下图所示。用户可以在聚类、子聚类和子空间三个层面进行探索。通过分析各种模式和模式转换，用户可以获取主导维度、稳定的数据模式等方面的见解。

系统工作流程

论文由北京大学智能学院博士李金城（今年新任职于北京师范大学人工智能学院）和赖楚凡（现任职于中国科学院空间应用工程与技术中心）为共同第一作者，通讯作者为智能学院袁晓如。工作获得国家自然科学基金项目NSFC 62272012支持。

实验室长期在高维数据可视化方面开展工作。早期的工作包括SPPC (Scattering Points in Parallel Coordinates) [Yuan et al. TVCG 2009]，通过将散点图嵌入平行坐标内实现不同分析手段之间的联合分析；多种对平行坐标杂乱现象的提升改进[Zhou et al. CGF 2008, Zhou et al. CGF 2009]；结合矩阵和树可视化形式开展高维数据维度空间和数据空间的迭代探索的工作Dimension Projection-Matrix/Tree [Yuan et al. TVCG 2013]。

上：SPPC；下：Dimension Projection-Matrix/Tree

实验室还在社交媒体数据可视分析的工作中系统发展了地图隐喻的方法，利用地图隐喻来表达非空间信息。包括分析单人网络关系及其发送信息是如何在不同人群中流转的D-Map [Chen et al. VAST 2016]、帮助用户快速掌握事件各个方面并深入理解事件的动态发展的E-Map [Chen et al. VAST 2017]、分析单条微博的传播过程和深入理解传播过程语义变化的R-Map [Chen et al. TVCG 2020]等。

左：D-Map；中：E-Map；右：R-Map

实验室欢迎研究者联系开展合作，也欢迎有兴趣的同学申请加入。联系方法：pkuvis[at]pku.edu.cn。

http://mp.weixin.qq.com/s?__biz=MzA5NDAzMDU5Mg==&mid=2651965632&idx=1&sn=e7b04d6d3f8db0d11e7644eee2cd4b3a

可视分析

数据可视化与可视分析

2024 北大可视化暑期学校设计作品 8 – 寻迹苏轼笔下那片竹林

【预告】“人文可视化 -大模型与数据可视化在人文社科研究中的新视角”前沿讲习班开放报名

2024 北大可视化暑期学校设计作品 7 – 两宋古籍刊刻地图可视化

第十五期北京大学可视化发展前沿研究生暑期学校第十一讲-数据可视化: 人机协同优化的大数据可视化-汪云海

第十五期北京大学可视化发展前沿研究生暑期学校第十二讲-诗意的重述：以解释现象学为方法的绘图-空间研究-梁雯

第十五期北京大学可视化发展前沿研究生暑期学校第十讲-数据可视化: 科学技术与人文艺术的融合-陈思明

第十五期北京大学可视化发展前沿研究生暑期学校第九讲-可视化案例分析和设计的思考-陈慰平

第十五期北京大学可视化发展前沿研究生暑期学校第八讲-历史可视化与标注利用-张宇

第十五期北京大学可视化发展前沿研究生暑期学校第七讲-解析可视化方法-袁晓如

2024 北大可视化暑期学校设计作品 6 – 台北故宫博物院夏圭作品印章信息可视化

文生标注地图：一种基于文本自动生成标注地图的方法框架 (DH 2024)

实验室艺术可视化工作入选国际可视化年会IEEE VIS 2024 Arts Program

2024 北大可视化暑期学校设计作品 5 – 梦溪笔谈知识传播

智能·文明·道路 | “智能+”主题研讨会报名通知

北大可视化暑期学校设计作品 4 - “蓝旅”宋代中外陶瓷器色彩美学可视化

2024 北大可视化暑期学校设计作品 3 – 宋诗袭用唐诗可视化

2024 北大可视化暑期学校设计作品 2 - 宋代城池汴梁布局溯源分析系统

2024 北大可视化暑期学校设计作品 1 – 楼钥交游网络可视化

第十五期北京大学可视化发展前沿研究生暑期学校课程设计

第十五期北京大学可视化发展前沿研究生暑期学校课程成功举办

北京大学智能交互标注古籍目录工作获国际可视化年会IEEE VIS 2024 最佳论文提名

Subspace-Map: 通过地图隐喻完成高维数据子空间的交互式探索

北京大学可视化团队多项成果被IEEE TVCG录用

智能交互标注中国传统古籍目录

第十五期北京大学可视化发展前沿研究生暑期学校第六讲-数字人文研究在展览中的应用-陈静

第十五期北京大学可视化发展前沿研究生暑期学校第五讲 - 《诗经》入画入乐 - 陈晓皎

第十五期北京大学可视化发展前沿研究生暑期学校第四讲 - 历史量化、美学鉴赏 - 王懿芳

第十五期北京大学可视化发展前沿研究生暑期学校第三讲 - 徐瑞鸽

第十五期北京大学可视化发展前沿研究生暑期学校第二讲 - 寻踪，看⻅世界的里面向帆

“人文可视化 - 大模型与数据可视化在人文社科研究中的新视角” 前沿讲习班开放报名

报名通知丨数字人文师资培训：基本方法与教学设计

第十五期北京大学可视化发展前沿研究生暑期学校开幕

2024年北京大学可视化发展前沿研究生暑期学校报名第一阶段结束

“人文可视化”前沿讲习班开放报名

第十五期北京大学可视化发展前沿研究生暑期学校开放报名

IEEE PacificVis 2024 会议纪要之三

IEEE PacificVis 2024 会议纪要之二

IEEE PacificVis 2024 会议纪要 - 首日

第七届中日韩可视化论坛

可视化实验室师生参加国际会议PacificVis 2024

通识课《可视化看中国》春季学期更新信息

通选课《可视化看中国》春季学期选课

《数据可视化》课程设计

《可视化与可视分析》课程设计

可视化看中国 - 2024年更新上线

看见你的故事：叙事医学中的可视化

智能与考古跨学科合作分析彩陶花纹演变

PKUVIS两项作品2023中国数字人文年会项目获奖

可视化学术讲座 2023-6 | Till Nagel：Making with Temporal Data

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉