VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

文摘 2024-08-30 12:11 湖北

Scientific Data

近日，iPad团队本科生论文被Nature旗下期刊《Scientific Data》接收。论文题目为《An open dataset for oracle bone character recognition and decipherment》，人工智能学院大三本科生王鹏杰和张凯乐共同为第一作者。

《Scientific Data》是Nature旗下刊物https://www.nature.com/sdata/，发行于2014年，致力于发表具有科学价值的数据集，以及能促进科学数据共享和再利用研究。该期刊实时影响因子12.5，JCR分区Q1。

该论文构建了高质量的甲骨文单字数据集，包含大量已破译和未破译的甲骨文，旨在为甲骨文人工智能研究做出贡献。

相关链接

论文链接：

https://arxiv.org/abs/2401.15365

资源下载：

https://github.com/Yuliang-Liu/Open-Oracle

研究背景

甲骨文 (OBC) 刻在龟甲和兽骨上，是中国发现的最早的文字形式之一。这些文字可以追溯到约3000年前，为研究商代的人文地理提供了宝贵资料。这些文字内容丰富，包括天文学、气象学、畜牧业、宗教和仪式等方面的内容[1]。与其他古代文字类似，许多甲骨文字的含义已随时间流逝而失传。在已出土的16万片甲骨中，发现了超过4600个不同的甲骨文字，但只有约1500个甲骨文字的含义和对应的现代汉字得到了确认。

然而，字符层面的破译任务由于多种因素而变得复杂。过去保存和发掘的方法并不总是理想的，导致许多甲骨受损。这种损坏通常导致铭文部分、模糊或难以辨认，使得解释它们变得艰难。因此，目前甲骨文研究中使用的大多数图像都是经过去噪和处理的扫描图像或人工转录的图像。此外，作为早期文字系统，甲骨文字经历了显著的演变。字符的形式存在很大差异，许多字符以多种形式出现，有时差异很大，但对应同一个汉字[2]。这种变异性增加了破译过程的复杂性。所有这些因素使得全面理解甲骨文字不仅具有挑战性，而且是一项难得的壮举，激发了古代中国研究领域的学者和历史学家的浓厚兴趣。

图 1 考古发现的距今3000年的甲骨文

人工智能的出现使得使用 AI 辅助破译甲骨文成为可能，前提是存在一个全面且高质量的数据集提供训练。在数据集这一领域已经有一些成果，如OBI-100[3]、OBI-125[4]、Oracle-20k[5]、HWOBC[6]等等，但是它们存在一定的局限性，比如说数据来源单一、类别与样本有限；仅含已破译的甲骨文，无法进行破译任务；数据集质量差，噪声多或是形式单一。

图 2 HUST-OBC与其它数据集对比

研究方法

为了解决这些问题，我们提出了高质量的HUST-OBC数据集。HUST-OBC数据集从三种不同的来源收集，包括书籍、网站和现有数据集。包含两种类型的甲骨文样本图像：a）从原始甲骨文拓片的处理扫描中获取的甲骨文图像；b）基于原始甲骨的手写甲骨文图像，进一步细分为基于拓片描摹的图像和基于字形的手写图像。

图 3 构建 HUST-OBC 数据集的流程图

为了构建多样化的数据集，我们从三个不同来源收集了甲骨文图像：书籍、网站和数据集。为了组织和合并来自这些不同来源的数据，如图3所示，并通过一个半自动化的流水线进行数据获取、自动标注、数据整合和数据验证四个关键步骤。具体步骤如下：

1.数据获取：甲骨文刻写在龟甲和兽骨上，并被埋藏在地下超过3,000年。这些珍贵的文物散落在世界各地的博物馆和私人收藏中，被精心保存，因此直接获取原始甲骨文上的文字相当具有挑战性。为了克服这一困难，我们利用了专家转录的甲骨文图像，从权威书籍、学术网站和数据集中收集了这些图像。具体来说，通过扫描书籍、爬取网站、引入数据集，获得丰富且多样的甲骨文数据。

图 4 数据获取并处理

2.自动标注：收集到的原始数据需要进一步处理，如裁剪、注释和筛选。对于书籍来源的数据，由于书籍中甲骨文对应的汉字相对偏僻少见，现有OCR工具难以精准识别，我们训练近9万种汉字OCR模型自动识别汉字标签。网站和数据库的图像已经经过预处理，只需进行过滤和代码匹配。

图 5 自动标注中文字OCR方法

3.数据整合：不同来源的注释标准可能不同，导致相同的甲骨文字符被归类到不同的类别中，比如注释汉字异体字导致的冗余类别。通过训练无监督的视觉对比学习模型MOCO，将相似的样本合并到同一类别中，减少冗余类别。

图 6 数据整合中对比学习

4.数据验证：自动数据获取和注释过程中可能存在错误，我们邀请甲骨文学者进行人工审查和指导，确保数据的准确性，最终形成HUST-OBC数据集。

最后我们构建的HUST-OBC数据集包含1,588个已破译字符的77,064 张图像和未破译的62,989张图像，总共140,053张图像。以下是已破译和未破译的部分数据展示。

图 7 已破译和未破译的部分甲骨文示例图像

为了评估数据集的质量，使用该数据集训练AI模型。将已破译的部分按照8:1:1分为训练集、验证集和测试集，使用ResNet进行图像分类任务，最终分类准确率为94.6%，宏平均F1分数为0.914。部分结果如下。

图 8 甲骨文示例的分类指标

参考文献

[1] Keightley, D. N. The shang state as seen in the oracle-bone inscriptions. Early China 5, 25–34, 10.1017/ S0362502800006118 (1979).

[2] Gao, J. & Liang, X. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions. IEEE Access 8, 152258–152275 (2020).

[3] Fu, X., Yang, Z., Zeng, Z., Zhang, Y. & Zhou, Q. Improvement of oracle bone inscription recognition accuracy: A deep learning perspective. ISPRS Int. J. Geo-Information 11, 10.3390/ijgi11010045 (2022).

[4] Yue, X., Li, H., Fujikawa, Y. & Meng, L. Dynamic dataset augmentation for deep learning-based oracle bone inscriptions recognition. J. Comput. Cult. Herit. 15, 10.1145/3532868 (2022).

[5] Guo, J., Wang, C., Roman-Rangel, E., Chao, H. & Rui, Y. Building hierarchical representations for oracle character and sketch recognition. IEEE Transactions on Image Process. 25, 104–118, 10.1109/TIP.2015.2500019 (2016).

[6] Li, B. et al. Hwobc-a handwriting oracle bone character recognition database. J. Physics: Conf. Ser. 1651, 012050, 10.1088/1742-6596/1651/1/012050 (2020).

VLRLab

编辑｜王鹏杰

审核｜罗琪頔

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉