首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
熊莹:“AI所至,金石为开” ——人工智能与古典学
文化
2024-11-18 21:16
广东
在公元79年的维苏威火山爆发中,一处私人宅邸的纸草卷被火山灰掩盖,并因高温而碳化。不过,这反倒阴差阳错地避免了它们的腐败。1752年,这批纸草卷和其他大量的罗马文物一起重见天日。然而近三百年来,识读纸草文字困难重重。今天,人工智能模型被应用于此。
“维苏威挑战赛”
2023年3月,古典学界的一桩重要新闻无疑是“维苏威挑战赛”(Vesuvius Challenge,网址scrollprize.org)的举行,比赛内容是读取赫库兰尼姆发现的两个碳化纸草卷上的内容。比赛使用的是1802年那不勒斯国王费迪南四世赠送给当时的法兰西共和国第一执政官拿破仑的六卷纸草中的两卷(编号PHerc. Paris 3和4,另有两卷已分别在1986和1987年被打开,编号为PHerc. Paris 1和2),现藏于法兰西金石与美文学院。
“维苏威挑战赛”上使用的碳化纸草卷
赫库兰尼姆纸草数量可能有800—1000卷,来自一处私人宅邸(主人可能是恺撒的岳父卡尔普尔尼乌斯·皮索·凯索尼努斯,那里因此被称为“纸草别墅”),在公元79年的维苏威火山爆发中被火山灰掩盖,纸草卷因为高温而碳化。不过,这反倒阴差阳错地避免了它们的腐败。1752年,这批纸草卷和其他大量的罗马文物一起重见天日。从已经打开的来看,大部分为公元前1世纪的伊壁鸠鲁派哲人、在赫库兰尼姆当地生活过的加达拉人斐洛德摩斯(Philodemus of Gadara)的作品。研究者面对的最大问题是如何复原纸草上的文字,因为碳化后的纸草卷极其脆弱,稍一展开就会变成碎片。当时采用的方法包括灌注水银、硫磺蒸熏、水浸等等。事实证明这些方法都是破坏性的,许多纸草卷就此被毁掉了。效果最好的方法之一是将纸草卷纵向切成两半,露出最内层,而后读一层刮掉一层,以此类推。后来,梵蒂冈图书馆的安东尼奥·皮亚乔(Antonio Piaggio)神父改进了这种方法,只需纵向切开两条深1—2厘米的口子,就可以把纸草卷分成内芯和两瓣外皮,对内芯重复这一程序,直到获得的内芯保存情况足够好,可以用皮亚乔发明的悬吊装置轻轻地展开,外皮则依然刮层读取。
纸草卷上的文字分成不同的列。以PHerc. Paris 4为例,从读取的结果来看,每列宽大约62毫米,列与列间距17毫米,每行有14到17个希腊字母,平均为16个字母。参赛者需要在不打开它的情况下,根据主办方提供的部分CT扫描图读取纸草卷内部的内容。挑战赛设置了多个奖项,包括分层算法、辨识出第一个字母、第一个单词等等,而第一个识别出至少4列文字的参赛者将获得大奖。
手工打开一个纸草卷
“虚拟展开”的难点
近年来,新的扫描和图像处理技术的发展令研究者得以进行所谓的“虚拟展开”(virtual unwrapping),即通过CT对纸草卷的内部结构进行三维扫描,密度较低的部分颜色较深,密度较高的部分颜色较浅。通过算法可以“分离”出写有文字的表面,然后将其转化为二维平面,这个过程被称为“分层”(segmentation)。该技术之前已经被用于分析以色列恩戈地(En-Gedi)发现的碳化摩西五经抄本(除死海古卷之外年代最早的希伯来语抄本),以及一本被烧焦和经过水浸的5或6世纪的埃及科普特语《使徒行传》(Morgan Library M.910)。就赫库兰尼姆纸草来说,第一个难点便是,经过挤压和高温,纸草卷内部被紧紧压实在一起,形成了复杂的结构。因此,“分层”也就成了维苏威挑战赛参赛者的第一项重要工作。在与该赛事有关的网上社群里,参赛者每天都会更新发布已分层面积。组织方还举办了分层工具比赛,总奖金4.5万美元。
对扫描图像分层后,第二个难点又出现了。与以金属为原料的墨水(前面说的希伯来语和科普特语抄本均是如此)不同,赫库兰尼姆纸草书写文字所用的墨水大部分以碳为原料,与纸张本身成分相同,导致根据扫描结果常常无法分辨纸张和字迹。理论上,可以人工识读字迹。早在2015年的一篇论文中,法国国家科学研究中心的丹尼尔·德拉特尔(Daniel Delattre)等人就尝试用X射线相位衬度成像(X-ray phase-contrast imaging)读出纸草卷内部的文字,因为墨迹通常会比表面高出至少100微米,但由于纸草卷扭曲变形严重,人工识读非常困难。肯塔基大学的斯蒂芬·帕森斯(Stephen Parsons)在他的博士论文中也提到,在一些纸草卷(如PHerc. Paris 2 fr. 143)上,部分字迹与某种高密度的颗粒存在重合,可能是沙子或火山灰。之所以出现这种情况,要么是书写者使用的墨水受到了污染,要么是墨迹在未干时就氤氲在了纸张上。而2023年8月,挑战赛的参赛者凯西·汉德梅尔(Casey Handmer)在扫描图上分辨出纸草表面的多种结构,其中一种像是干裂的土壤,高出纸草表面0.1—0.5毫米,这种结构被证明是墨迹(caseyhandmer.wordpress.com/2023/08/05/reading-ancient-scrolls)。汉德梅尔借此赢得了辨识出第一个字母的奖项。
由于人工识读纸草文字困难重重,一些研究者开始另辟蹊径。他们假设,字迹和它附近的纸草表面结构之间存在一定的对应关系。根据已经打开的纸草卷残片上的文字,以及未打开纸草卷表面的字迹(可以通过红外线拍摄看到),可以得到对应关系的数据,用它来训练模型,让模型学会分辨出这种关系,那么就可以将模型用于未知结果的纸草扫描图,“推测”哪些区域可能有字迹。为此,研究者需要把得到的平面图分成小块,并描绘每个小块的局部结构(不仅限于表层,也包括表面以下或以上一定范围内的,因为墨水会高出和渗入表面)。为了验证参赛者建拟模型的可行性,维苏威挑战赛的主办方又另外组织了一场墨迹识别比赛(kaggle.com/competitions/vesuvius-challenge-ink-detection),验证的对象是一份已经打开的纸草卷残片(PHerc. Paris 1 fr. 39)。
扫描过程模拟
三名机器学习专业学生的胜利
挑战赛引发了巨大的反响,从2023年开始,有1000多支队伍报名参赛。最后,由三名机器学习与机器人学专业的学生优素福·纳德尔(Youssef Nader)、卢克·法里托尔(Luke Farritor)和尤利安·希利格(Julian Schilliger)组成的团队获得大奖,平分70万美元的奖金。他们识别出了PHerc. Paris 4最内层的15列文字,相当于整个纸草卷5%的内容,其所用代码也在网上公布(github.com/younader/Vesuvius-Grandprize-Winner)。2024年,挑战赛继续进行,今年的大奖将授予第一个识别出1到4号纸草卷中90%内容的参赛者。
维苏威挑战赛的网站上公布了针对PHerc. Paris 4部分已识别出的结果(纸草卷上的作者和作品信息通常出现在卷尾,这部分还没有被识别,因此无法确定是否为斐洛德摩斯的作品)。其中,第8列是:
2 ...]ι̣μ̣εν τοὺϲ̣ [πα]ρ̣[ὰ Ξ]ε̣-
νοφάντωι το̣ιούτου[ϲ,
ὃ καὶ ὑπ’ ἄ̣λλων δοκεῖ
5 γείνεϲθαι, παραπλη-
ϲίωϲ δ̣’ ο̣ὐδὲ παρ̣’ ἑτέρωι
ἴδι̣ον το̣ῦ δ̣οκοῦ̣ντοϲ̣
εἶναι καὶ παρὰ πλε̣ί-
οϲ̣ι̣ν̣ ἥδιο̣ν, ἀλλ’ ὡ̣ϲ̣ καὶ
10 ἐ̣π̣ὶ τῶν βρω̣μ̣άτ̣ων
ο̣ὐ̣κ ἤδ̣η τὰ ϲπάνια
πάντωϲ̣ καὶ ἡδ̣ίω
τῶν δ̣αψιλῶν̣ ε̣ἶναι̣
14 νομίζ̣ο̣με̣ν· οὐ γ̣ὰρ̣
大意是:……[克塞]诺芬托斯这样[说],这一点在其他人看来也是如此,就像不属于他人而只属于自己的东西要比那些看起来属于大多数人的东西更美好,但正如对于食物,我们不会认为那些异常稀有的要比供应充足的更美味,不是因为……
就像从上面这段复原后的纸草文本中可以看到的,传世文献和碑铭纸草往往残缺不全。事实上,在维苏威挑战赛公布的15列已识别文字中,这已是相对完整和清楚的一部分了。对于结构复杂(有的希腊语句子可能长达12行)、语义微妙的古典语言来说,任何一部分的缺失或误读都会对原文理解产生巨大的影响。传统上,这需要研究者根据自己对上下文、句法结构和背景信息的了解对缺漏之处进行补全。而近年来,人工智能开始在这方面为研究者提供越来越多的帮助。
以古代文本数据库为基础的各种深度学习模型
首先,古代文本电子化的发展为此类应用打下了基础。以碑铭和纸草为例,体量最大的拉丁语铭文数据库是Clauss/Slaby铭文数据库(manfredclauss.de)。它集成了总计45个数据库,可以进行全文检索,并提供了其他一些重要数据库的链接,让使用者能够了解碑铭的更多信息,特别是文本之外的物质和环境信息。帕克德人文学会(Packard Humanities Institute,PHI)所建的可检索数据库是最重要的希腊语铭文数据库(inscriptions.packhum.org),提供了全文检索或是按照地区和出版物进行查找等功能,但数据更新速度较慢,许多铭文没有收录。纸草方面,目前内容最全的网站是杜克大学推出的payri.info,综合了许多从前相对独立的纸草数据库。
以上述古代文本数据库为基础,研究者开发了各种深度学习模型,朝着尽可能正确地补全文本的目标而努力。其中之一便是谷歌开发的“基于变换器的双向编码表征”模型(Bidirectional Encoder Representations from Transformers,简称BERT)。BERT和现今最热门的ChatGPT都是基于变换器架构,但两者的预训练方式和功能不同。通俗地说,ChatGPT所做的工作类似于接龙,即根据输入的文本判断出统计学上最可能的下一个词是什么,不断重复同样的操作,最终生成“答案”。而BERT做的是完型填空,在训练模型时,会随机掩盖住其中的一些文字,让BERT猜出被盖住的文字是什么。
目前,已经有研究者用拉丁语、希腊语、阿卡德语等古代语言的语料库训练BERT模型。相较于现代语言,这些古代语言的数据总量要小得多。拉丁语BERT模型(github.com/dbamman/latin-bert)的开发者、加州大学伯克利分校的大卫·巴曼(David Bamman)和德克萨斯大学奥斯丁分校的帕特里克·伯恩斯(Patrick J. Burns)在论文中提到,他们所用的语料库涵盖了从古典时代到21世纪的拉丁文作品,共计6427万个词,收录了以古典时代文献为主的“珀尔修斯项目”(Perseus Project)、“教父拉丁语文集”(Patrologia Latina)、“托马斯·阿奎那文库”(Corpus Thomisticum)、维基百科拉丁语版,以及“互联网档案馆”(Internet Archive)等数据库上的文本。拉丁语BERT的功能包括词性标注(POS tagging)、文本补全、词意分辨,以及语境下最相近文本的检索,即寻找在类似语境下包含特定词语的段落。
以文本补全为例,拉丁语BERT不仅能够根据上下文猜测缺失的文字最有可能是什么,还会根据概率大小列出所有可能的选择。目前,利用“网络拉丁文图书馆”(thelatinlibrary.com)里的古典文献对BERT文本补全能力的检验结果显示,它与专业古典学家的校勘结果的一致率为33.1%。但有时,仅仅依据上下文和句法结构可能无法做出正确的判断。
巴曼和伯恩斯的论文中举了一个例子,研究者让BERT补全3世纪初拉丁语作家卢基乌斯·安佩利乌斯(Lucius Ampelius)的《史事备忘》(Liber Memorialis)第36节中述及迦太基将军事迹的一个从句:
Hanno et Mago qui [...] punico bello cornelium consulem aput liparas ceperunt(“……布匿战争中,在利帕里岛擒获了执政官科尔内利乌斯的汉诺和玛戈”)
文本在punico bello(“布匿战争”)之前有阙文,模型给出的第一选择是secundo(“第二次”),概率为45.1%;第二选择primo(“第一次”)的概率为38.5%。而在1854年的托伊布纳版中,校勘者爱德华·沃尔夫林(Eduard Wölfflin)根据他所掌握的背景知识给出的选择是primo,因为导致格奈乌斯·科尔内利乌斯·西庇阿(Gnaeus Cornelius Scipio Asina,公元前260年的罗马执政官,并非那位赫赫有名的“大西庇阿”)被俘的利帕里战役发生在第一次布匿战争期间。实际上,我们最熟悉的玛戈是汉尼拔的弟弟,其人参加的是第二次布匿战争;而最有名的汉诺(Hanno the Great)则是汉尼拔所在的巴尔卡家族的对头,与汉尼拔在战略问题上存在分歧。古代晚期的简史作者大多依靠摘抄前人作品,安佩利乌斯也不例外,在这里很可能张冠李戴了。模型无法获得额外的历史信息,只能根据主语进行判断,因此得出了错误的结果,这也暴露出了人工智能模型在复原历史文本上的短板。毫无疑问,在补全碑铭文字时,历史背景信息以及铭文发现的时间和地点等文本以外的物质和环境信息往往与上下文及句法结构同样关键。如果没有这些额外信息,仅凭文本就可能无法得出正确的结论。
编号
PHerc. Paris
4的纸草卷,两千年来无人知晓其中内容。
深度学习用于补全古典文本的另外两个应用是PYTHIA和Ithaca模型。与拉丁语BERT模型不同,两者是专为解析希腊语铭文而设计的。PYTHIA是一种“长短期记忆网络”(Long Short-Term Memory)模型,由希娅·索莫希尔德(Thea Sommerschield)等人设计。相比传统的递归神经网络,它能够更好地处理长文本序列,实现文本分类、情感分析和机器翻译等功能(github.com/sommerschield/ancient-text-restoration)。训练PYTHIA的数据来自PHI希腊语铭文库。由于铭文中缺失的往往不是单词,而是一部分字母,因此模型不仅在单词层面上,也在字母层面上进行复原。这种模型可以为铭文中需要补全的部分提供多达20种最有可能的选择,复原结果的字符错误率(Character Error Rate)和第一选择的正确率分别为47%和32.6%。相比之下,参与实验的两名碑铭学博士的这两项数据则分别为59.6%和25.3%。Ithaca也由PYTHIA的团队设计,同样依靠PHI数据库进行训练。不同之处在于,它使用了新的变换器模型,大大改善了复原结果的准确性。在Ithaca的帮助下,古代史研究者的复原字符错误率下降到18.3%,第一选择的正确率提高到32.6%(ithaca.deepmind.com)。
* * *
以上介绍了人工智能模型被应用于古典学研究的几个例子,这项技术在学校、档案馆、博物馆和文化遗产机构都有着广阔的运用前景。模型最大的作用之一在于凭借强大的计算能力,它能“发现”墨迹和纸草表面结构的对应,或是文本材料内部的隐藏关联,从而让我们看到原先“不可见”的东西。除了对文学史料和文书史料的复原,它还能提供新的研究思路和角度,给研究者带来启发。当然,作为工具,人工智能模型仍然存在可信度和可解释性的问题,它决不能替代研究者。比如,出版过斐洛德摩斯的《论音乐》第四卷和《论死亡》第四卷校勘本的德拉特尔就对机器识读纸草持保留意见。他表示,以此方式呈现在我们眼前的并非纸草上的真实文字,而是人工智能生成的,只是为我们提供了对墨迹的一种解读。进一步分析和处理识读结果是古典学家的工作。研究者与人工智能两者的更深入合作才能推动这门学科的更大发展。
王晨先生对本文的撰写亦有贡献,石晨叶博士对文中的希腊语翻译提供了宝贵意见,在此一并致谢。
来源:
文汇学人
http://mp.weixin.qq.com/s?__biz=MjM5Mzc0Njk1MA==&mid=2651384284&idx=6&sn=f74092d6fa26b0b2d505c49c28290006
古籍
始于2014年,古籍及艺术品收藏拍卖行业大号,数十万古董收藏家爱好者都在关注的掌中文史副刊,从古旧书趣味考古中解读新鲜历史观点,古玩、古董、书画、收藏、拍卖、国学、文化、历史、读书、苏富比、佳士得、嘉德、保利最新资讯等及时送达。
最新文章
独家重磅!国宝《赵城金藏》在日本拍出3亿元高价!
唐代书生写给驴的一篇祭文,看哭无数网友!
令和六年古典籍展观大入札会重磅拍品一览!
段立生:日本古籍《华夷变态》与明清华侨史
潘伟利:日本古代贡举对唐制的模仿与分解
熊莹:“AI所至,金石为开” ——人工智能与古典学
张升:《永樂大典》録副本的謄録、圈點及總葉數
《中国书法》· 微刊 | 谢稚柳 徐邦达 杨仁恺 刘九庵:四家谈“三希”
徐慧前:亲历曹操墓的发掘与认定
张晶晶:考古造假?“真假曹操墓”之争,该画上句号了
王公望:天生我才必大用——解缙书法研究
戴眼镜的李子柒,现身浙江
《赵城金藏》档案:田埂边捡回的国宝,如何归了北京图书馆?
尹恒:古籍拍卖场上的《赵城金藏》
尹敏志:令和元年古典籍展观大入札会
《赵城金藏》脱难记:看中国共产党如何守护珍贵古籍国宝
罕见!永乐大典、四库全书、天禄琳琅等近150件珍稀善本、孤本亮相奥莱美术馆,“琳琅萃珍——唐宋元明清典籍特展”开幕
大英博物馆获10亿英镑中国陶瓷捐赠,创英国博物馆史上最高纪录
国宝帮为什么对专家有这么大的敌意?
焦长权:换亲,一种婚姻形式及其运作——来自田野与地方志的分析
李袁婕:文物捐赠证据的采信——甲某与某市文物局文物捐赠纠纷案评析
洪荣昌:包浆靠不住
黄润洁:《五牛图》三版本对比研究
首次走进百年藏书楼!2024中华传统晒书大会城市主场活动在南浔嘉业藏书楼启幕
弘一大师的每一幅书法,都是一门佛法!
郭晨子:中国漆艺的传奇史
长北:浅讲《髹饰录》
胡嘉麟:中国龙与西方龙——两个世界的传说与艺术
赵琪:清代中缅划界的法律之误
赵明生:论阿佤山边界问题产生的原因、解决及其意义
张瑞田:日本高僧良宽的书法人生
卜键:《尼布楚条约》是一份平等的边疆划界条约吗?
鲜于枢的《吴越春秋》草书背后,藏着元代书法界的惊天大瓜!
金亮等11位收藏家组团捐赠东坡古籍
刘正义:关于新版《中华人民共和国文物保护法》民间收藏相关规定的解读
高婉瑜:《天回医简》的“狐”与“疝”
郝名玮:三千年还是五千年?——拉丁美洲古文明源头探析
图录 | 《经典与解释二十二年书目:750种出版纪念特刊》
唐容桢:新华书店究竟成立于何时?
郑伊看:斜倚的绅士肖像——18世纪英国男性与“阴柔气质”
郑晓星:建议取消拍卖企业5名文博专家的规定
许丽思:一幅作品卖近800万!不用进厂做苦力,机器人找到新谋生方式
沈津:知音世所稀——顾廷龙、周叔弢二位先生之交往
独家拍摄!马王堆汉墓考古破解新字形
赵盼超 赵津:元代《秘书监志》中的多民族艺术交流互鉴——以唐文质《职贡图》为中心
张昭炜:孔子的真年谱与真学孔
权紫晶:乡村博物馆既要塑形,也要铸魂
啸语微言|我们有什么资格将自己放在历史的序列中?——有感于当下艺坛表扬之风,兼复张公者先生
乌兹别克斯坦机场,一旅客携带价值2.23亿苏姆的中国钱币和金块出境被立案!
事发瓯海!男子工地挖出清朝文物......
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉