近日,iPad团队本科生论文被Nature旗下期刊《Scientific Data》接收。论文题目为《An open dataset for oracle bone character recognition and decipherment》,人工智能学院大三本科生王鹏杰和张凯乐共同为第一作者。
《Scientific Data》是Nature旗下刊物https://www.nature.com/sdata/,发行于2014年,致力于发表具有科学价值的数据集,以及能促进科学数据共享和再利用研究。该期刊实时影响因子12.5,JCR分区Q1。
该论文构建了高质量的甲骨文单字数据集,包含大量已破译和未破译的甲骨文,旨在为甲骨文人工智能研究做出贡献。
论文链接:
https://arxiv.org/abs/2401.15365
资源下载:
https://github.com/Yuliang-Liu/Open-Oracle
甲骨文 (OBC) 刻在龟甲和兽骨上,是中国发现的最早的文字形式之一。这些文字可以追溯到约3000年前,为研究商代的人文地理提供了宝贵资料。这些文字内容丰富,包括天文学、气象学、畜牧业、宗教和仪式等方面的内容[1]。与其他古代文字类似,许多甲骨文字的含义已随时间流逝而失传。在已出土的16万片甲骨中,发现了超过4600个不同的甲骨文字,但只有约1500个甲骨文字的含义和对应的现代汉字得到了确认。
然而,字符层面的破译任务由于多种因素而变得复杂。过去保存和发掘的方法并不总是理想的,导致许多甲骨受损。这种损坏通常导致铭文部分、模糊或难以辨认,使得解释它们变得艰难。因此,目前甲骨文研究中使用的大多数图像都是经过去噪和处理的扫描图像或人工转录的图像。此外,作为早期文字系统,甲骨文字经历了显著的演变。字符的形式存在很大差异,许多字符以多种形式出现,有时差异很大,但对应同一个汉字[2]。这种变异性增加了破译过程的复杂性。所有这些因素使得全面理解甲骨文字不仅具有挑战性,而且是一项难得的壮举,激发了古代中国研究领域的学者和历史学家的浓厚兴趣。
图 1 考古发现的距今3000年的甲骨文
人工智能的出现使得使用 AI 辅助破译甲骨文成为可能,前提是存在一个全面且高质量的数据集提供训练。在数据集这一领域已经有一些成果,如OBI-100[3]、OBI-125[4]、Oracle-20k[5]、HWOBC[6]等等,但是它们存在一定的局限性,比如说数据来源单一、类别与样本有限;仅含已破译的甲骨文,无法进行破译任务;数据集质量差,噪声多或是形式单一。
图 2 HUST-OBC与其它数据集对比
为了解决这些问题,我们提出了高质量的HUST-OBC数据集。HUST-OBC数据集从三种不同的来源收集,包括书籍、网站和现有数据集。包含两种类型的甲骨文样本图像:a)从原始甲骨文拓片的处理扫描中获取的甲骨文图像;b)基于原始甲骨的手写甲骨文图像,进一步细分为基于拓片描摹的图像和基于字形的手写图像。
图 3 构建 HUST-OBC 数据集的流程图
为了构建多样化的数据集,我们从三个不同来源收集了甲骨文图像:书籍、网站和数据集。为了组织和合并来自这些不同来源的数据,如图3所示,并通过一个半自动化的流水线进行数据获取、自动标注、数据整合和数据验证四个关键步骤。具体步骤如下:
1.数据获取:甲骨文刻写在龟甲和兽骨上,并被埋藏在地下超过3,000年。这些珍贵的文物散落在世界各地的博物馆和私人收藏中,被精心保存,因此直接获取原始甲骨文上的文字相当具有挑战性。为了克服这一困难,我们利用了专家转录的甲骨文图像,从权威书籍、学术网站和数据集中收集了这些图像。具体来说,通过扫描书籍、爬取网站、引入数据集,获得丰富且多样的甲骨文数据。
图 4 数据获取并处理
2.自动标注:收集到的原始数据需要进一步处理,如裁剪、注释和筛选。对于书籍来源的数据,由于书籍中甲骨文对应的汉字相对偏僻少见,现有OCR工具难以精准识别,我们训练近9万种汉字OCR模型自动识别汉字标签。网站和数据库的图像已经经过预处理,只需进行过滤和代码匹配。
图 5 自动标注中文字OCR方法
3.数据整合:不同来源的注释标准可能不同,导致相同的甲骨文字符被归类到不同的类别中,比如注释汉字异体字导致的冗余类别。通过训练无监督的视觉对比学习模型MOCO,将相似的样本合并到同一类别中,减少冗余类别。
图 6 数据整合中对比学习
4.数据验证:自动数据获取和注释过程中可能存在错误,我们邀请甲骨文学者进行人工审查和指导,确保数据的准确性,最终形成HUST-OBC数据集。
最后我们构建的HUST-OBC数据集包含1,588个已破译字符的77,064 张图像和未破译的62,989张图像,总共140,053张图像。以下是已破译和未破译的部分数据展示。
图 7 已破译和未破译的部分甲骨文示例图像
为了评估数据集的质量,使用该数据集训练AI模型。将已破译的部分按照8:1:1分为训练集、验证集和测试集,使用ResNet进行图像分类任务,最终分类准确率为94.6%,宏平均F1分数为0.914。部分结果如下。
图 8 甲骨文示例的分类指标
[1] Keightley, D. N. The shang state as seen in the oracle-bone inscriptions. Early China 5, 25–34, 10.1017/ S0362502800006118 (1979).
[2] Gao, J. & Liang, X. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions. IEEE Access 8, 152258–152275 (2020).
[3] Fu, X., Yang, Z., Zeng, Z., Zhang, Y. & Zhou, Q. Improvement of oracle bone inscription recognition accuracy: A deep learning perspective. ISPRS Int. J. Geo-Information 11, 10.3390/ijgi11010045 (2022).
[4] Yue, X., Li, H., Fujikawa, Y. & Meng, L. Dynamic dataset augmentation for deep learning-based oracle bone inscriptions recognition. J. Comput. Cult. Herit. 15, 10.1145/3532868 (2022).
[5] Guo, J., Wang, C., Roman-Rangel, E., Chao, H. & Rui, Y. Building hierarchical representations for oracle character and sketch recognition. IEEE Transactions on Image Process. 25, 104–118, 10.1109/TIP.2015.2500019 (2016).
[6] Li, B. et al. Hwobc-a handwriting oracle bone character recognition database. J. Physics: Conf. Ser. 1651, 012050, 10.1088/1742-6596/1651/1/012050 (2020).
编辑|王鹏杰
审核|罗琪頔