01 多图表数据集收集
鉴于缺乏具备数据叙事逻辑关联的高质量多图表可视化数据集,团队进行了细致的收集筛选,最终收集了1098个符合标准的多图表可视化。同时,我们还公开了此数据集,可于以下网址下载:https://chart2vec.idvxlab.com/。该数据集涵盖了经济、体育、社会、健康、政治、工业、娱乐、食品、教育和生态十个常见主题。
图1. 收集的1098张高质量的多图表可视化数据集分布
02 图表事实定义
通过综合考虑通用性和灵活性等多方面因素,基于我们对相关工作的调研,团队选择以声明性规范的方式作为图表的输入格式。如图2所示,该输入格式为7元组的可视化图表事实。我们将其进一步划分为结构化信息(蓝色标注的文本)和语义化信息(绿色标注的文本)。这种划分背后蕴含着多重考虑,其中结构化信息主要关注于图表的组织和排列方式,而语义化信息则涉及到数据字段和值的具体含义。
图2. 可视化的图表事实格式,拆解为结构化信息(蓝色)和语义化信息(绿色)
03 Chart2Vec 模型设计
为了充分捕捉可视化图表所蕴含的丰富信息,本文提出了Chart2Vec模型,其核心包括输入嵌入模块(Input Embedding)和编码器模块(Encoder),如图3(a)所示。在输入嵌入模块中,我们采用独热向量对图表事实的结构化信息进行编码,并使用词向量模型Word2vec对语义信息进行编码。这一步骤将图表事实的信息转化为计算机可识别的向量形式,并分为两个通道处理。在编码器模块中,我们运用特征模糊技术以提取数据的主题信息,利用特征融合来建立结构化和语义化信息之间的关联,同时采用特征转换对数据进行非线性变换以获取更深层次的图表信息。
为了学习多图表可视化之间的上下文叙事逻辑关联,我们整合了监督和无监督学习任务,如图3(b)所示。其中,我们使用线性插值损失函数来学习连续连接图表的叙事逻辑关联,并引入三元损失来捕获图表的共现情况。同时,我们采用多任务训练策略联合优化两大任务。
图3. (a)Chart2Vec模型架构;(b)多任务训练策略
04 应用场景
可视化相似度计算:计算两个图表的向量之间的距离,来度量它们之间上下文相关性。
可视化推荐:针对指定的可视化,根据向量计算的距离执行推荐并按照相关性进行排序。
可视化聚类:根据图表向量计算出的相似度,划分多个不同的相似区间,将相关的图表聚类在一起。
可视化插值:指定前后两个可视化,根据向量计算出中间向量,与搜索空间中的图表向量进行比较选择出距离最近的的作为插值结果。
图4. 应用Chart2Vec模型的可视化下游任务
该项工作与蚂蚁集团合作,并在github上开源了相关代码:https://github.com/idvxlab/chart2vec。目前该算法已经被成功应用于蚂蚁集团内部 BI 工具 DeepInsight 中,为商业分析系统的 AI 能力提供基础技术,提升了决策效率,降低了分析门槛。
*Qing Chen, Ying Chen, Ruishi Zou, Wei Shuai, Yi Guo, Jiazhe Wang, and Nan Cao. Chart2Vec: A Universal Embedding of Context-Aware Visualizations. IEEE Transactions on Visualization and Computer Graphics (IEEE TVCG 2024).
论文链接:https://arxiv.org/pdf/2306.08304.pdf
关注实验室公众号,了解更多招生及教学动态