本文将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型序列标注的泛化能力;通过设置断句、分词一体化的对比实验,以选取性能更优的处理方案;设计了深度学习方法与预训练模型的对比试验。结果表明,CRF模型一体化的标注方案在各任务中的整体性能均有所提升,且速度快用时少,更适用于里耶秦简。
出土文献是中华文化与文明的重要组成部分,对于史学研究具有特殊的价值。对出土文献进行深层次加工可便于对文献内容进行深度挖掘与知识发现,从而充分发挥出土文献的史料价值。
分词是中文信息处理中的重要研究方向,是对文本数据进行组织与挖掘的基础。古代汉语与现代汉语有显著差异,行文过程是连续书写,并无断句,因此,断句是古文信息处理中必不可少的环节。在传世文献领域,自动断句与分词任务已经取得了比较丰硕的研究成果,而在出土文献领域,相关研究却鲜少涉及。
1 古文断句与分词相关研究
基于深度学习的模型虽然可以通过训练语料自动学习特征,但同时也对训练语料的规模提出更高的需求。目前在已公布的里耶秦简中,大部分的简文内容并不完整。同时,里耶秦简在语料资源上呈现出更加匮乏的特点。因此,深度学习模型并不完全适用于里耶秦简。
2 CRF模型介绍
其中,
CRF完全由特征函数tk、gl及其相应的权重λk与μl确定。
3 实验语料与分词原则
3.1 语料简介
里耶秦简共约37000余枚,总计约20余万字。湖南省文物考古研究所按工作进度,已出版前两卷。武汉大学历史学院陈伟教授的研究团队,对应2卷《里耶秦简》分别同期出版了《里耶秦简牍校释》第1卷与第2卷(下简称校释),其中包含了大量的校订工作。本文使用的基础语料是湖南省文物考古研究所出版的2卷《里耶秦简》,同时为保证语料质量及完善程度,参照陈伟团队推出的校释,对简文内容进行校对,并采用其中新的校释及改释结果。
3.2 语料预处理
3.3 分词原则与词表
(1)分词单位主要是词,也包括里耶秦简中结合紧密、使用稳定的词组。
(2)分词时按照从长到短的顺序逐层切分。
(3)分词时遵循从宽原则,介于词与短语之间的词组,在不影响语义理解的情况下,不做切分处理。
(4)凡是收入《里耶秦简词表》的词条一般都视为一个切分单位,不再进行切分。
(5)由于简牍残断导致简文过于简短,致使内容难以理解,同时校释未给出相应的解释说明。结合里耶秦简作为上古汉语具有以单字词为主的特点,将这类简文按单字词进行切分处理。
4 实验设计与过程
4.1 实验设计
4.1.1 特征模板设计
CRF通过特征模板设置滑动窗口,以及添加二元同现等特征,对上下文进行表示。滑动窗口设置过小可能会导致信息丢失,若过大则可能会引起过拟合。为充分利用上下文信息,将滑动窗口设置为左右1~3个字,并引入二元同现特征进行对比实验。考虑到大部分简文内容不完整的特殊情况,增设了采用对称与不对称特征模板的对比实验。共设计了10个特征模板,前6个是对称模板,后4个为不对称模板。针对不同的处理任务,通过具体实验选取效果最好的特征模板。
4.1.2 标记集设计
CRF在中文信息处理中的使用原理是将断句、分词等任务转化为字的序列标注问题。针对断句、分词等不同任务,设计了不同的标记集合。
基于CRF模型进行自动断句,主要是判断文本序列中的某个字符是否位于断句处,若是就标记为Y,否则标为N。在分词任务中,因为里耶秦简词表中词汇的平均长度为1.80,并且存在3个字及3个字以上的词,因此本文选用4词位的标注集合:T={B,M,E,S},4个标记分别表示词首、词中、词尾字及单字词。对执行断句分词一体化任务时,需对词位与是否断句同时进行标注,因此需要3层标记符号。通过设置不同的标记集,可以便于利用CRF模型处理不同的任务。一体化实验的原理是同时面向断句与分词的多分类任务,将两层标记结合到一起,能够为模型同时执行两个任务提供便利。
4.1.3 语料划分与评估指标
为避免偶然性,使得到的实验结果更加可靠,在所有实验中均采用5-折交叉验证的方法。将语料平均分成5份,轮流取其中的4份为训练语料,剩余1份用于测试。将5次评估结果的均值作为判定模型效果的依据。参考中文信息处理中评估模型性能的常用指标,用人工校对后的断句、分词结果作为标准,将准确率P(precision)、召回率R(Recall)、F1值作为衡量模型效果的指标:
4.2 实验过程
4.2.1 自动断句实验
通过CRF模型将字面信息作为主要特征,分别利用上述10个特征模板进行实验,以筛选断句效果最好的特征模板,实验结果如表3所示。
通过对比模型在不同特征模板上的实验结果,可以得到三个结论:
1)滑动窗口对实验结果的影响。发现随着滑动窗口的增大,自动断句的F1值呈现增大的趋势。
2)添加二元特征的影响。增加二元特征可以有效提升模型在断句任务上的标注能力。
3)模板是否对称的影响。发现模型采用对称模板的性能均优于采用不对称模板的表现。在使用不对称模板的情况下,在当前窗口后面比在前面增加二元同现特征的效果相对好一些。
4.2.2 自动分词实验
里耶秦简的内容属于上古汉语,上古汉语的特点是以单字词为主,因此将语料按照单字词切分作为参照基线(baseline)。基于字面特征结合10个特征模板分别进行分词实验,结果见表4,得到以下结论:
1)滑动窗口对分词结果的影响。不同于自动断句,随着滑动窗口的扩大,分词的F1值反而呈现略微下降的趋势。
2)二元特征的影响。增加二元特征依然是提升分词性能的有效方案。
3)模板是否对称的影响。采用对称模板依然比不对称模板呈现出更好的分词性能,但是与断句任务不同的是,在当前窗口前面比在后面增加二元同现特征的效果相对好一些。
4)参照基数中的准确率为58.14%,召回率却达到75.89%,与先秦汉语以单字词为主的特点相契合。
4.2.3 参数c对模型性能的影响
使用CRF进行模型训练时,需要确定超参数f与c。f表示特征的最低频次,低于该阈值的特征将被舍弃。参数c可以调整欠拟合和过拟合之间的平衡度,数值越大对训练数据的拟合程度越高。通过对比实验结果可以发现,在自动断句与分词任务上,参数c对模型标注效果的影响非常微弱,基本没有差别。
4.2.4 断句分词一体化实验
4.3 对照实验
通过上述实验可知,CRF模型在里耶秦简的断句与分词任务中具有较好的性能表现,为更加确定CRF模型对于里耶秦简的适用性,加入BiLSTM-CRF、BERT-BiLSTM-CRF模型进行对照试验,实验结果可知,BiLSTM-CRF与BERT-BiLSTM-CRF模型并没有显著提升模型的性能。同时,将“云梦睡虎地秦简”的内容融入原有语料,以探究语料规模、题材的变化对模型性能的影响。利用CRF模型开展自动断句与分词任务,两个任务的模型性能反而出现明显降低的趋势。
5 结论
论文全文发表于《科技导报》2024年第23期,原标题为《基于CRF模型的<里耶秦简>自动断句与分词研究》,本文有删减,欢迎订阅查看。
白名单回复后台「转载」
精彩内容回顾
《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。