关于史料「数字化」，这里有一份不错的作业

文化历史 2024-07-17 23:03 广东

用程序读历史，以数据讲故事。

在历史研究中古籍资料的重要性不言而喻，只是对普通历史爱好者而言接触、阅读一手史料是一件相当不容易的事情，比如「中国第一历史档案馆」向社会开放了清代满文档案的检索预约，可一来预约后终究还是需要线下前往，时间、金钱成本过高；二来，一手史料的阅读门槛也不是一般的高，就算没有残缺保持完整，光语言这一项就能挡住绝大部分人。要让一手史料走向普及，「数字化」应该是一条不错的路径，只是这里的电子化不应该只是简单的文字转录、或是拍照上传……

什么是史料「数字化」？

从字面意思上来说，就是把各种文字史料做成电子版、然后存入计算机中，这样就可以方便利用各种软件来做查询、统计等功能，一个例子，像是之前推荐过的晚清、民国报刊阅读网站就是此类：

网站上提供了1911-1949这30多年、共计超过7万期的报纸影像资料
下载狂飙，公众号：陈勇要深入了解一个时代，那就去读他的报纸吧

晚清和民国时期中文报纸集 ▼

这里进行报刊数字化是较为常见的手段：扫描原件 → OCR文字提取 → 搜索索引建立。采用这一手段完成数字化的史料还原性是比较好的，就像上面的报刊，排版、印花、字体都得到了原汁原味的呈现，缺点是受限于现阶段OCR的文字提取能力，可以发现左侧的「文本」栏中被提取出来的文字凌乱、还夹杂着大量识别错误、乱码字符的情况，因此无法最大限度利用数字化后的长项——自动化分析处理。

为弥补这一缺陷可以引入人工进行文字的提取精校，这方面的典型代表比如「中國哲學書電子化計劃」：

https://ctext.org/zh

中國哲學書電子化計劃 ▼

经过人工校对排版的文字、明显在阅读体验上更胜一筹，不像前面的报纸影像，无法利用搜索快速定位「文字」位置，还需要一栏一栏逐步阅读查找。但是缺点也是有的，这样经过人工整理的史料就不再是「一手」的了，倒不是说“非一手”的史料不好，而是因为其中其中丢掉了不少细节，如果对其依赖过高、可能会对你的判断准确性造成不同程度的影响。

怎么来理解这个影响？咱们先抛开史料不说，以最近比较火的「姜萍事件」为例，网上有不少分析她书写的文章，比如下面这份板书，就有数学大神逐帧分析各种错漏：

姜萍板书 ▼

咱数学也没学好、这方面不过多评价，但数学公式对于如何理解史料书写中携带的信息是一个很好的代入场景，今天社会的识字率已经被拉升的很高、所以可能比较难理解古人在做古文抄写时是如何把字给抄错的，那去找一份偏微分方程的数学公式来抄一抄，应该会有比较深刻的认识，在不理解文档内容的情况下去完成背诵抄写，就只能照着外形去抄，比如下面这份菜单就是一个极端情况，一个会中文的人是绝不会把“和”给拆开来“禾”、“口”进行换行写的：

被换行的“和” ▼

而当一份这样「错误」的「一手」史料被人工精校整理后可能就变成了：“意大利面条用奶油培根和鸡蛋酱”，意思确实还是那个意思，但菜单抄写员的中文水平信息就丢失掉了，基于上面数字化后文字你就无法得出抄写这份菜单的员工不懂中文的结论，但看着图片就可以……

鱼与熊掌可兼得的「数字化」方案

对于史料数字化的优缺点大家肯定能看到了，因此几乎是伴随着计算机、互联网的出现，如何进行文本的数字化编码就被提上了议程，这里面最具代表性的是1987年成立的文件编码协会（Text Encoding Initiative，简称TEI）：

https://tei-c.org/

TEI协会 ▼

不要看网站上啰七八嗦介绍了一大堆TEI是什么，其实总结起来就是一句话：通过XML标签来数字化史料文字，更进一步的说，这里的XML标签不是固定死的，而是可以根据各自的需要自行扩展。

比如说上面的那份菜单，如果要用TEI进行数字化可以像这样：

<TEI version="3.3.0"    xmlns="http://www.tei-c.org/ns/1.0"    xmlns:cotr="https://mp.weixin.qq.com/">    <teiHeader>        <fileDesc>            <titleStmt>                <title>一份有错别字的中文菜单</title>                <editor>陈勇</editor>                <funder>陈勇</funder>                <principal>陈勇</principal>            </titleStmt>            <publicationStmt>                <p>关于史料「数字化」，这里有一份不错的作业</p>            </publicationStmt>            <sourceDesc>                <msDesc>                    <msIdentifier>                        <settlement>某国外餐厅</settlement>                        <institution>源自网络</institution>                        <idno>菜单001</idno>                    </msIdentifier>                </msDesc>            </sourceDesc>        </fileDesc>    </teiHeader>    <text>        <body>            <!-- Declaration > 下面是那份菜单中有错误的文字节选 ########## -->            <ab>                <s n="1"> 意大利面条用奶油培根                                <seg type="unsettled" subtype="version" n="错别字001">和</seg> 鸡蛋酱                        </s>            </ab>        </body>    </text></TEI>

这里的“和”字用<seg>标签做了单独的标注，并且用一个“错别字001”做了标记，当然，这么看或许有些抽象、完全不像图片来的直观。那是因为TEI的设计本意确实不是给人看的、而是为了方便机器读取，如果要完成史料的数字化呈现还需要搭配读取TEI文件并进行展示的程序。

关于TEI应用的例子有一个项目叫COTR（community of the realm in Scotland，苏格兰王国历史研究）做出了很好的示范：

https://cotr.ac.uk/viewer/?group=declaration&blocks=44:transcription;

COTR项目 ▼

上面的史料文本是阿布罗斯宣言（Declaration of Arbroath）于1320年由苏格兰的贵族们签署，并发送给罗马教皇。可以认为是苏格兰版的“独立宣言”，项目并非是对这份宣言的简单数字化扫描、或是文字提取，而是利用TEI编码对不同时期的宣言抄写本进行了内容的重新整合，可以看见上面的文本是可以「交互」的，并且能在拉丁语（原文）、英语之间进行切换，需要注意的是，上面例子虽然都是文本，但TEI也支持对图片的引用，比如前面的“错别字001”就可以放入一个图片链接地址，点击后进行展现。

如果对TEI编码感兴趣，网站上也提供了TEI文件的下载以及详细的方案说明，可以下载后对比研究：

https://cotr.ac.uk/texts/

TEI编码文件下载 ▼

哦，最后顺带一提，上世纪TEI协会提出这一编码方式或许本意是为了在尽可能多保留信息的情况下将史料进行数字化，而当时能看到的好处或许就只是存储、传播、检索更方便了，在今天这个大模型的时代，数字化还带来了另一项便利：

Kimi的浏览器划词解读 ▼

你看，就算浏览器没有提供英文版本，借助于大模型我们可以很低成本的去理解一段史料的含义，虽然不一定说完全准确，但确实为普通人阅读一手史料推开了一扇窗。这里强烈推荐Kimi浏览器助手插件（Edge浏览器可以使用下面链接跳转应用市场直接安装）：

https://kimi.moonshot.cn/extension/download

Kimi浏览器助手 ▼

这个时代下各自基础设施都已经准备好，真的很期待中国上下五千年的史料都能尽快完成「数字化」工作，在全民读史的热潮下，天知道会有什么重大的新发现。

让我知道你“在看”

陈勇

上下千年时空历史地图、生动有趣的博物馆导览、新奇好玩的历史书籍推荐，最后，无聊的时候还能刷刷历史剧、说一说历史游戏。

最新文章

《瓦尔特保卫萨拉热窝》：经典就是，今天你还时常能见到他的影子

多侧面了解奥斯曼历史文化，顺带提升英语听力

《奥斯曼帝国六百年》：找到了！现代欧洲与中世纪的接缝处

「切」线段

一周考古新闻（2024.07.28-2024.08.03）

《德国人》：喔，时间线版“神圣罗马帝国”史

刷完1600座哥特式教堂！没有「松驰感」……

《欧洲之心》：读史何必纠结于顺序

作正方形

一周考古新闻（2024.07.21-2024.07.27）

《十二猴子》：这，也是历史的一部分

「数字人文学科」学什么？现在历史系大学生都这么卷的嘛

《流行病与社会》：在不断地无序尝试中寻找一切可能

基于面积的作图（二）

一周考古新闻（2024.07.14-2024.07.20）

《勇敢的心》：为“阿布罗斯宣言”补个课

关于史料「数字化」，这里有一份不错的作业

《凯列班与女巫》：马克思说的也不全对

基于面积的作图（一）

一周考古新闻（2024.07.07-2024.07.13）

《年轻的维多利亚》：历史含量过低、风月严重超标

一步步完成「世界海洋气候数据库」可视化

《现代欧洲200年》：或许，这才是一切的开始

当把多边形放置在同样的底边上发现了什么

一周考古新闻（2024.06.30-2024.07.06）

《人民领袖毛泽东》：人民需要英雄

航海日志里的殖民史

《银、剑、石》：文明？或许并非人类发展的必经之路

平行线之间的研究

一周考古新闻（2024.06.23-2024.06.29）

《国家宝藏》：4年！终于等来了他的回归

要深入了解一个时代，那就去读他的报纸吧

《大清为何轰然倒塌》：包顿饺子就为这碟醋

从平行线到平行四边形

一周考古新闻（2024.06.16-2024.06.22）

《大宅门》：嗯，表情管理

免费AI大模型，可用靠整合

《采桑子》：落魄旗人的幸福生活

作平行线

一周考古新闻（2024.06.09-2024.06.15）

《茶馆》：没人比老舍更懂「底层」

晚清民国老照片哪儿找？

《月牙儿；断魂枪》：经典之所以为经典

平行线与角

一周考古新闻（2024.06.02-2024.06.08）

《精武英雄》：再读袁八爷的动作语言

叮！现在支持选择「生态区域」底图啦

《借势》：中华自古文武成一脉

终于，来到了三角形命题「完结篇」

一周考古新闻（2024.05.26-2024.06.01）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉