甲骨文是中国已知最早的文字之一,对研究商代人文地理具有重要意义。然而,由于时间的推移,大部分甲骨文的意义已经模糊不清,破译这些古文字面临巨大挑战。人工智能的出现使得使用 AI 辅助破译甲骨文成为可能,但缺乏高质量的数据集限制了这一领域的进展。
为此,团队本科生iPad成员(王鹏杰,张凯乐、王欣雨)提出了甲骨文单字辅助破译数据集HUST-OBC,数据集从三个不同的来源收集,包括书籍、网站和现有数据集,包含1,588个已破译字符的77,064 张图像和未破译的62,989张图像,总共140,053张图像。
论文链接:
https://arxiv.org/abs/2401.15365
代码和数据集下载:
https://github.com/Pengjie-W/HUST-OBC
为了组织和合并来自这些不同来源的数据,如图所示,我们设计了一个半自动化的流水线,包含四个关键步骤:数据获取、自动标注、数据整合和数据验证。
以下是已破译和未破译的部分数据展示。
为了评估数据集的质量,使用该数据集训练AI模型。将已破译的部分分为训练集、验证集和测试集,使用ResNet-50进行图像分类任务,最终分类准确率为94.6%,宏平均F1分数为0.914。
编辑|王鹏杰
审核|罗琪頔