原文作者
原文发表于Gale Review Blog
Alan Thomas,英国谢菲尔德大学
机器智能中心AI研究工程师
低质量光学字符识别(OCR)是想要利用历史报纸等数字化一次文献开展研究工作的人文学者的一个主要障碍。为了提高嘈杂的历史文献OCR的质量,我们引入了BLN600——从Gale“大英图书馆报纸”(British Library Newspapers)数据库中得到的一套开放获取数据集,并展示了大语言模型(LLM)在利用Liama进行后OCR校正中的潜力。
背景
数字化档案已经成为人文研究不可或缺的资源。一次文献,例如报纸、早期印刷书籍和手写文稿都已经被数字化并被保存在可检索的在线数据库中,例如Gale的“大英图书馆报纸”,并且通过使用OCR技术将历史文献的扫描图像转变为了可机器读取的文本。
然而,想要利用这些资源的学者们一直面临的一个挑战是OCR生成转录文本的质量较差。由于文献原件的年代和保存状态,OCR处理过程常常产生不准确的转录文字,为依赖这些文本开展研究工作的研究者带来阻碍。
原始图像造成低质量OCR的例子,文献来源:“LAW NOTICES.-THIS DAY.”, Morning Chronicle, 29 October 1835. British Library Newspapers, https://link.gale.com/apps/doc/BA3207647413/BNCN?u=su_uk&sid=bookmark-BNCN&xid=45ba0d38
在英国谢菲尔德大学的机器智能中心(Centre for Machine Intelligence),我们正在与数字人文研究院(Digital Humanities Institute)开展一个协作项目,旨在通过应用先进人工智能的方法提高历史文献OCR转录文本的质量来解决这个问题。在本文中,我们详述了怎样将大语言模型用在后OCR校正中,优化和纠正OCR技术生成的文字。
开源数据集BLN600
提高OCR质量,特别是历史文献的OCR质量,仍然是一项巨大的挑战,公开可用的资源很少。为了解决这个问题,我们发布了BLN600,一套可公开获取的十九世纪报纸文本平行语料库,主要聚焦伦敦的犯罪活动。这套语料库来自Gale“大英图书馆报纸”的第一部分和第二部分。BLN600包含600份报纸节选,每一份都包括原始图像、机器生成的OCR转录文字,以及手工创建的黄金标准转录文字。
BLN600中的一个例子,包含OCR文本、原始图像和真实文本,文献来源:“A COURAGEOUS POLICEMAN.”, Lloyd’s Illustrated Newspaper, 20 June 1880. British Library Newspapers, https://link.gale.com/apps/doc/BC3206247284/BNCN?u=su_uk&sid=bookmark-BNCN&xid=d1652e94
“大英图书馆报纸”跨越200多年的英国报刊史,收录240多种不同的出版物。为了从这套庞大的档案库中提取出BLN600,我们进行了检索,找出了在伦敦报纸上发表的与犯罪活动相关的文章,得到了1万幅整版报纸的图像。从这些图像中,我们随机选取了600幅出现犯罪活动相关内容的图像及其可读文本。每一幅图像都由人工重新键入文本,与来自“大英图书馆报纸”的OCR相对应,形成一套完整的样本。
BLN600对于探讨十九世纪犯罪新闻学的历史学家和数字人文研究者而言很有价值,提供了黄金标准的转录文本,能够辅助自然语言处理技术的应用。原始图像让研究者能够使用BLN作为基准数据集,追踪和衡量历史文献OCR引擎性能的提高程度。一一对应的OCR文本和真实文本可以用于支持后OCR校正模型的开发和训练。
BLN600样本中出版物和年代的分布
利用大语言模型的后OCR校正
Liama是Meta AI发布的一组经过预训练和微调的大语言模型。经过微调的聊天模型是专为助理式聊天而设计的,为对话应用进行了优化,类似于Chat GPT。经过预训练的基础模型是一种因果语言模型,设计为可预测序列中的下一个词语,可以适应多种自然语言生成任务,包括后OCR校正。我们选择使用Liama 2的原因是它是开放获取的且具有多种版本。
使用BLN600,我们创建了一个序列对数据集,将文本分割成多个片段,可以是句子、短标题或较长的段落。在生成这些序列对后,我们将它们分成了训练组和评价组。训练组用于构建一个指令-调整数据集,包括指令、输入,以及指导模型做出响应的响应域。
指令-调整数据明细(上方)和例子(下方)
在用我们的指令-调整数据集对基础Liama 2模型进行微调后,它就可以用于对评价组生成错误校正了。为了衡量我们模型的性能,我们计算了字符错误率的下降百分比。字符错误率(CER)衡量转录文本中不正确字符在所有字符中出现的频率。Liama 2 7B将字符错误率降低了43.26%,而Liama 2 13B对字符错误率的降低达到了54.51%,说明这些模型大致上减少了OCR文本中一半的错误。
Liama 2 13B对不同错误类型的校正(替代、插入、删除、错误命名实体、乱码)
通过在后OCR校正中使用大语言模型,我们可以显著降低BLN600中的错误数量,为未来利用大语言模型改进访问性能以及为人文研究释放历史文献全部的潜力铺平了道路。自这项工作完成后,拥有更强大性能的Liama 3也已经发布,说明未来提高OCR质量的潜力将更大。
BLN是可公开获取的资源:
https://doi.org/10.15131/shef.data.25439023
更多此项工作的详情,请参阅以下论文:
Booth, Callum William, Alan Thomas, and Robert Gaizauskas. “BLN600: A Parallel Corpus of Machine/Human Transcribed Nineteenth Century Newspaper Texts.” Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources
Thomas, Alan, Robert Gaizauskas, and Haiping Lu. “Leveraging LLMs for Post-OCR Correction of Historical Newspapers.” Proceedings of the Third Workshop on Language Technologies for Historical and Ancient Languages (LT4HALA)@ LREC-COLING-2024. 2024.
欢迎关注:
Gale官方微信公众号及视频号:
联系我们
识别二维码填写您的联系信息和问题
或发送邮件至:
GaleChina@cengage.com