数据集 | 自然场景盲文字符识别数据集

学术 2024-07-25 08:20 北京

点击文末 “阅读原文” 下载关联论文全文

吴东, 卢利琼*, 熊建芳

岭南师范学院计算机与智能教育学院

数据集：

吴东, 卢利琼, 熊建芳. 自然场景盲文字符识别数据集[DS/OL]. V1. Science Data Bank, 2024[2024-07-25]. https://doi.org/10.57760/sciencedb.j00188.00007. DOI:10.57760/sciencedb.j00188.00007.

关联论文:

吴东, 卢利琼, 熊建芳. 自然场景盲文字符识别数据集[J/OL]. 计算机辅助设计与图形学学报, 1-11[2024-07-25].https://www.jcad.cn/cn/article/doi/10.3724/SP.J.1089.2023-00630

数据集摘要

该数据集中总共有1 157幅盲文段图像, 其中, 训练集中有925幅, 测试集中有232幅。该数据集目录下总共有两个文件夹character_label和segment_label. character_label文件中存放3种格式的盲文段图像:

(1) 以ICDAR-2015格式存储的盲文段图像和标签文件. 该格式下, 每个.jpg文件对应一个.txt文件, .txt文件中每行存储一个盲文字符矩形框的位置和识别标签, 其数据分别对应矩形框四个点的坐标和识别的数字标签;

(2) 数据的原始格式, 存储在文件夹org中. 该文件夹下每个.jpg文件对应一个labelme 3.16.5软件标记的.json文件;

(3) voc格式, 存放在voc-data文件中. 该文件夹下根据voc格式存放图像和对应的.xml文件, 在.xml文件中标记每个盲文字符矩形框的位置和对应的数字标签信息.

此外, 自然场景盲文原始图像和对应盲文段的标记.json文件存放在文件夹segment_label中.

图1 自然场景盲文段图像数据集目录结构

研究背景

世卫组织数据显示，全球视力障碍者约2.53亿. 我国视力残疾人约1 732万人. 视障人士通过阅读盲文书籍学习知识和技术, 使用盲文记录心得、参与考试和沟通交流, 盲文是他们与世界联系的纽带和桥梁. 但是, 由于正常人对盲文知之甚少, 导致其与视障人士之间的沟通交流障碍重重; 特别是视障人士的朋友和家人, 如果不懂盲文, 则难以了解视障人士的学习、工作等各方面的情况. 盲文识别是利用人工智能技术自动识别图像中的盲文, 帮助正常人快速读取盲文信息, 能有效地助力正常人与视障人士之间的沟通交流, 亦可应用于盲文书籍电子化、盲汉文翻译等产品中.

本文方法

1. 方法框架

本文以SSD框架为基础架构, VGG-16为基础结构, 通过设计不同的机制和策略, 提出自然场景盲文识别方法, 其框架如图2所示.

图2 本文方法框架

2. 对比实验

在本文提出的盲文段图像数据集上, 将本文方法与SSD, Faster RCNN, EAST, Unet-Braille, East-Edge方法对比. 结果如表1所示, 其中, 将本文方法分为不使用注意力机制的本文方法(简称为SSD-Braille-without-Attention)和使用注意力机制的本文方法(简称为SSD-Braille).

图3所示为SSD和本文方法的盲文识别样例效果对比. 可以看出, 与SSD方法相比, 本文方法的改进效果非常明显.

图3 2种方法盲文识别样例效果对比

结语

针对正常人对盲文知之甚少, 与盲人之间沟通交流障碍重重的问题, 本文基于SSD框架的自然场景盲文识别方法. 首先构造自然场景盲文段图像数据集; 然后基于SSD框架并结合自然场景盲文的特点, 提出自然场景盲文识别方法. 与SSD方法相比, 本文方法在盲文识别特征层选择、默认框大小设计、PA设计和图像输入策略上, 根据自然场景盲文字符的特点进行重新设计. 在本文构造的盲文段图像数据集上, 与SSD, Faster RCNN, EAST, EAST-Edge和Unet-Braille方法进行实验对比的结果表明, 本文方法识别盲文的P, R, H和V的值分别为0.927, 0.879, 0.903和66.22, 识别性能提升明显.

吴东(1981—), 男, 硕士, 副教授, 主要研究方向为文本识别.

卢利琼(1980—), 女, 博士, 副教授, 主要研究方向为计算机视觉.

熊建芳(1980—), 女, 硕士, 讲师, 主要研究方向为模式识别.

— END —

还没关注？点击下方“卡片”关注，获取第一时间资讯

综述推荐

综述推荐 | 开放环境下的跨域物体检测综述

综述推荐 | 基于叙事结构抽象的可视分析方法综述

综述推荐 | 监控场景下基于单帧与视频数据的行人属性识别方法综述及展望

综述推荐 | 面向超级计算机系统的可视化综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于RGB图像的三维人手姿态估计技术综述

综述推荐 | 数字图像多功能水印综述

综述推荐 | 基于条件生成对抗网络的图像翻译综述

综述推荐 | 基于单目RGB数据的三维模板物体跟踪算法综述

综述推荐 | 基于可视分析的训练数据质量提升综述

综述推荐｜数字说话人视频生成综述

综述推荐 | 基于骨架的人体动作识别技术研究进展

综述推荐 | 面向计算机程序的可视化综述

合辑荐读

合辑荐读 | 计算机技术与传统文化论文合辑

合辑荐读 | 几何建模与优化最新论文合辑

合辑荐读 | 目标检测、目标跟踪与重识别最新论文合辑

合辑荐读 | 医学图像处理最新论文合辑

合辑荐读 | 感知与交互最新论文合辑

合辑荐读 | VR/AR/MR最新论文合辑

合辑荐读 | 三维图形计算最新论文合辑

合辑荐读 | 可视化与可视分析最新论文合辑

合辑荐读 | 《计算机辅助设计与图形学学报》最新综述论文

整期论文速览

2023年第12期-CAD几何引擎架构及算法专刊论文速览

声明

本公众号发布的所有原创文章欢迎转发和转载，但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号；任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外，本公众号发布的图文旨在学术交流，版权归原作者所有，本公众号将不承担任何法律责任；非原创内容均已对来源作出标注，如有侵权，请留言与本公众号联系，我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。

http://mp.weixin.qq.com/s?__biz=Mzk0NTQyNjMyNw==&mid=2247548655&idx=1&sn=7860cc622fdbcae1bd1d8d03b739de91

计算机辅助设计与图形学学报

《计算机辅助设计与图形学学报》官方平台。本刊创刊于1989年，EI、Scopus、北大核心、CSCD、CSTPCD、CNKI等国内外数据库收录，CCF推荐中文科技期刊A类、计算领域高质量科技期刊T1类。期刊官网：www.jcad.cn。