关于史料「数字化」,这里有一份不错的作业

文化   历史   2024-07-17 23:03   广东  


用程序读历史,以数据讲故事。


在历史研究中古籍资料的重要性不言而喻,只是对普通历史爱好者而言接触、阅读一手史料是一件相当不容易的事情,比如「中国第一历史档案馆」向社会开放了清代满文档案的检索预约,可一来预约后终究还是需要线下前往,时间、金钱成本过高;二来,一手史料的阅读门槛也不是一般的高,就算没有残缺保持完整,光语言这一项就能挡住绝大部分人。要让一手史料走向普及,「数字化」应该是一条不错的路径,只是这里的电子化不应该只是简单的文字转录、或是拍照上传……

    什么是史料「数字化」?

从字面意思上来说,就是把各种文字史料做成电子版、然后存入计算机中,这样就可以方便利用各种软件来做查询、统计等功能,一个例子,像是之前推荐过的晚清、民国报刊阅读网站就是此类:

网站上提供了1911-1949这30多年、共计超过7万期的报纸影像资料

下载狂飙,公众号:陈勇要深入了解一个时代,那就去读他的报纸吧
晚清和民国时期中文报纸集 ▼


这里进行报刊数字化是较为常见的手段:扫描原件 → OCR文字提取 → 搜索索引建立。采用这一手段完成数字化的史料还原性是比较好的,就像上面的报刊,排版、印花、字体都得到了原汁原味的呈现,缺点是受限于现阶段OCR的文字提取能力,可以发现左侧的「文本」栏中被提取出来的文字凌乱、还夹杂着大量识别错误、乱码字符的情况,因此无法最大限度利用数字化后的长项——自动化分析处理。


为弥补这一缺陷可以引入人工进行文字的提取精校,这方面的典型代表比如「中國哲學書電子化計劃」:

https://ctext.org/zh
中國哲學書電子化計劃 ▼


经过人工校对排版的文字、明显在阅读体验上更胜一筹,不像前面的报纸影像,无法利用搜索快速定位「文字」位置,还需要一栏一栏逐步阅读查找。但是缺点也是有的,这样经过人工整理的史料就不再是「一手」的了,倒不是说“非一手”的史料不好,而是因为其中其中丢掉了不少细节,如果对其依赖过高、可能会对你的判断准确性造成不同程度的影响。

怎么来理解这个影响?咱们先抛开史料不说,以最近比较火的「姜萍事件」为例,网上有不少分析她书写的文章,比如下面这份板书,就有数学大神逐帧分析各种错漏:

姜萍板书 ▼


咱数学也没学好、这方面不过多评价,但数学公式对于如何理解史料书写中携带的信息是一个很好的代入场景,今天社会的识字率已经被拉升的很高、所以可能比较难理解古人在做古文抄写时是如何把字给抄错的,那去找一份偏微分方程的数学公式来抄一抄,应该会有比较深刻的认识,在不理解文档内容的情况下去完成背诵抄写,就只能照着外形去抄,比如下面这份菜单就是一个极端情况,一个会中文的人是绝不会把“和”给拆开来“禾”、“口”进行换行写的:

被换行的“和” ▼


而当一份这样「错误」的「一手」史料被人工精校整理后可能就变成了:“意大利面条用奶油培根和鸡蛋酱”,意思确实还是那个意思,但菜单抄写员的中文水平信息就丢失掉了,基于上面数字化后文字你就无法得出抄写这份菜单的员工不懂中文的结论,但看着图片就可以……


    鱼与熊掌可兼得的「数字化」方案

对于史料数字化的优缺点大家肯定能看到了,因此几乎是伴随着计算机、互联网的出现,如何进行文本的数字化编码就被提上了议程,这里面最具代表性的是1987年成立的文件编码协会(Text Encoding Initiative,简称TEI):

https://tei-c.org/

TEI协会 ▼


不要看网站上啰七八嗦介绍了一大堆TEI是什么,其实总结起来就是一句话:通过XML标签来数字化史料文字,更进一步的说,这里的XML标签不是固定死的,而是可以根据各自的需要自行扩展。


比如说上面的那份菜单,如果要用TEI进行数字化可以像这样:

<TEI version="3.3.0"    xmlns="http://www.tei-c.org/ns/1.0"    xmlns:cotr="https://mp.weixin.qq.com/">    <teiHeader>        <fileDesc>            <titleStmt>                <title>一份有错别字的中文菜单</title>                <editor>陈勇</editor>                <funder>陈勇</funder>                <principal>陈勇</principal>            </titleStmt>            <publicationStmt>                <p>关于史料「数字化」,这里有一份不错的作业</p>            </publicationStmt>            <sourceDesc>                <msDesc>                    <msIdentifier>                        <settlement>某国外餐厅</settlement>                        <institution>源自网络</institution>                        <idno>菜单001</idno>                    </msIdentifier>                </msDesc>            </sourceDesc>        </fileDesc>    </teiHeader>    <text>        <body>            <!-- Declaration > 下面是那份菜单中有错误的文字节选 ########## -->            <ab>                <s n="1"> 意大利面条用奶油培根                                <seg type="unsettled" subtype="version" n="错别字001"></seg> 鸡蛋酱                        </s>            </ab>        </body>    </text></TEI>

这里的“和”字用<seg>标签做了单独的标注,并且用一个“错别字001”做了标记,当然,这么看或许有些抽象、完全不像图片来的直观。那是因为TEI的设计本意确实不是给人看的、而是为了方便机器读取,如果要完成史料的数字化呈现还需要搭配读取TEI文件并进行展示的程序


关于TEI应用的例子有一个项目叫COTR(community of the realm in Scotland,苏格兰王国历史研究)做出了很好的示范:

https://cotr.ac.uk/viewer/?group=declaration&blocks=44:transcription;

COTR项目 ▼


上面的史料文本是阿布罗斯宣言(Declaration of Arbroath)于1320年由苏格兰的贵族们签署,并发送给罗马教皇。可以认为是苏格兰版的“独立宣言”,项目并非是对这份宣言的简单数字化扫描、或是文字提取,而是利用TEI编码对不同时期的宣言抄写本进行了内容的重新整合,可以看见上面的文本是可以「交互」的,并且能在拉丁语(原文)、英语之间进行切换,需要注意的是,上面例子虽然都是文本,但TEI也支持对图片的引用,比如前面的“错别字001”就可以放入一个图片链接地址,点击后进行展现。


如果对TEI编码感兴趣,网站上也提供了TEI文件的下载以及详细的方案说明,可以下载后对比研究:

https://cotr.ac.uk/texts/

TEI编码文件下载 ▼


哦,最后顺带一提,上世纪TEI协会提出这一编码方式或许本意是为了在尽可能多保留信息的情况下将史料进行数字化,而当时能看到的好处或许就只是存储、传播、检索更方便了,在今天这个大模型的时代,数字化还带来了另一项便利:

Kimi的浏览器划词解读 ▼


你看,就算浏览器没有提供英文版本,借助于大模型我们可以很低成本的去理解一段史料的含义,虽然不一定说完全准确,但确实为普通人阅读一手史料推开了一扇窗。这里强烈推荐Kimi浏览器助手插件(Edge浏览器可以使用下面链接跳转应用市场直接安装):

https://kimi.moonshot.cn/extension/download

Kimi浏览器助手 ▼


这个时代下各自基础设施都已经准备好,真的很期待中国上下五千年的史料都能尽快完成「数字化」工作,在全民读史的热潮下,天知道会有什么重大的新发现。




让我知道你“在看”

陈勇
上下千年时空历史地图、生动有趣的博物馆导览、新奇好玩的历史书籍推荐,最后,无聊的时候还能刷刷历史剧、说一说历史游戏。
 最新文章