点击下方“PaperEveryday”,每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息
题目:Hierarchical Recognizing Vector Graphics and A New Chart-based Vector Graphics Dataset
分层识别矢量图形和一种新的基于图表的矢量图形数据集
作者:Shuguang Dou; Xinyang Jiang; Lu Liu; Lu Ying; Caihua Shan; Yifei Shen; Xuanyi Dong; Yun Wang; Dongsheng Li; Cairong Zhao
源码链接:https://github.com/microsoft/YOLaTVectorGraphicsRecognition
论文创新点
直接处理矢量图形文本:提出了YOLaT和YOLaT++,直接对矢量图形的文本文档进行处理,无需转换为像素形式,提高了识别效率和准确性。 多级抽象特征学习:YOLaT++通过从原始形状到曲线再到点的多级特征学习,增强了模型对矢量图形复杂结构的理解能力。 VG-DCU数据集:创建了大规模的VG-DCU数据集,为矢量图形识别和图表理解任务提供了丰富的标注资源,促进了该领域的研究。
摘要
关键词
矢量图形 检测 数据集 图表理解
1 引言
3 YOLaT和扩展到真实世界的YOLaT++的研究
3.1 检测模型-YOLaT
3.1.1 图构建
3.1.2 双流GNN的特征提取
3.1.3 预测和损失
3.2 真实世界矢量图形的YOLaT++
<path>
原语形成,包含多个曲线,每个曲线包含两个向量点。识别真实世界的矢量图形需要全面理解它们的元素和关系。然而,YOLaT通过将原语解剖为Bézier曲线内的顶点来过度简化这一点。YOLaT的GNN仅关注于模拟这些顶点的位置和关系,忽视了包含完整原语属性和形状的关键高级信息。我们认为,识别真实世界的矢量图形需要一个多层次的层次结构。因此,我们引入了YOLaT++,它整合了一个为矢量图形量身定制的层次模型,具有三个不同的抽象层次:原语、曲线和点。此外,YOLaT++采用了位置感知增强策略,以区分具有相似特征的原语。3.2.1 从原始形状到曲线和点的多级抽象特征学习
<line>
、<path>
等组成的原始形状,或文本元素 <text>
。在这个阶段,模型专注于学习原始形状的空间属性,如高度、宽度、面积和长宽比,这些属性作为更高层次抽象的基础元素。3.2.2 原语层面的图构建
3.2.3 点层面图与位置感知特征增强
<text>
可能具有相似的特征提取,这使得网络难以正确区分它们。如图4所示,我们利用GNN中的相对位置信息来处理类别间相似性。具体来说,我们使用相对位置信息作为增强的节点特征,然后使用这些节点特征训练图神经网络。位置感知特征增强(PFA)的关键步骤如下:3.2.4 将曲线信息注入到层次图中
4 基于VG的检测和图表理解的基准
4.1 动机
4.2 数据集构建
4.3 数据集统计
4.4 VG-DCU基准的挑战
5 实验
5.1 实现细节
5.2 数据集和评估指标
5.3 与最新方法的比较
5.3.1 SESYD数据集上的结果
5.3.2 VG-DCU数据集上的结果
5.3.3 Vega-Lite与Plotly
5.4 实验分析
5.4.1 消融研究
5.4.2 YOLaT系列的尺度不变性
5.4.3 对VG-DCU数据集的大型语言模型讨论
5.4.4 可视化分析
6 结论
声明
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编