图源 | Internet
朱丹浩1 赵志枭2 张一平1 孙光耀2
刘 畅2 胡 蝶2 王东波2
1.江苏警官学院刑事科学技术系,南京,210031;
2.南京农业大学信息管理学院,南京,210095
摘 要
Abstract
关键词
大模型评测 古籍 领域知识
引用格式
朱丹浩,赵志枭,张一平,等.面向古文自然语言处理生成任务的大语言模型评测研究[J].信息资源管理学报,2024,14(5):45-58.
01
引 言
2022年11月,ChatGPT的出现带动了整个自然语言处理乃至人工智能领域迈入了新的阶段,大语言模型(Large Language Models, LLMs)展现出的卓越性能让众多互联网公司、科研团队加入了这场大语言模型的军备竞赛中。与此同时,众多开源大语言模型的发布也让更多硬件条件不足的团队有机会加入到大语言模型的研究之中。大语言模型的不断推出也为大语言模型评测带来了机遇与挑战,一直以来,模型的能力往往体现在其在下游任务上的表现,对于生成式模型来说,生成内容的优劣是评价模型能力的重要参考。但是,相较于文本分类、序列标注等标准化输出,生成式模型的输出存在着不确定性,这就为当前大语言模型性能评测带来了挑战。
在当前“百模大战”的格局之下,对于大部分科研团队来说,在通用领域进行大语言模型构建探索的成本过于昂贵,因此针对垂直领域的大语言模型构建成为当前炙手可热的研究话题。中国古代典籍作为中华传统文化的重要载体,承担着记录、传承、发扬中华传统文化的重要使命,在数智时代,对于古代典籍的整理、保护固然重要,如何更好地使用古籍数据,使其在新时代发挥出真正的文化传承价值亦是古籍研究的重要内容[1]。古代汉语在文字形态、语言表达、篇章结构等方面与现代汉语有着很大的差异,因此,当前针对现代汉语的评测并不能完全反映大语言模型在古代汉语方面的能力。
为更好地将古籍与大语言模型技术相结合,推动古籍数字资源活化利用,亟需一系列针对古籍文本和古籍领域知识的大语言模型评测标准。基于此,本文针对大语言模型的古籍文本生成能力,从语言和知识两个维度对当前主流的通用大语言模型进行了评测。本次评测主要出于两个目的:其一,针对古籍领域制定一套大语言模型评测体系,为古籍领域大语言模型评测提供参考;其二,通过测评得到当前古籍信息处理能力最为优异的大语言模型,为针对古籍垂直领域大语言模型训练的基线模型选取提供依据,本文所使用的评测数据现已全部开源至github网站(https://github.com/Xunzi-LLM-of-Chinese-classics/ACHEval)。
02
相关研究
2.1 垂直领域大语言模型概述
大语言模型是拥有超大规模参数量的预训练语言模型的统称。与小模型相比,庞大的参数量为语言模型带来了“涌现”[2]现象和丰富的知识储备。这使得大语言模型可以在只依赖小样本微调和上下文学习[3]的情况下表现出极佳的生成能力。大语言模型基于生成式统一建模的方式进行工作,即用自回归模型的训练方法学习输入文本到与目标输出之间的映射关系,然后再以生成文字的形式回答用户提问,这使得大语言模型几乎可以用于任何NLP场景之中。然而,在面对特定的垂直领域的提问时,受限于训练数据的大小和训练逻辑,大语言模型仍然会不可避免地在专业领域产生事实性错误[4],且大语言模型生成的关键答案通常在输出文本中以离散的形式出现,只有通过进一步的结构化处理方能从中抽取可用于后续计算的信息。因此,在不经过领域数据微调的情况下,大语言模型的处理能力可能低于经由微调的中小模型[5]。
许多研究者基于领域适应的思想,充分利用继续预训练、指令数据微调、人类反馈强化学习和多模态等技术构建适用于垂直领域的基座模型(Base Model)和有监督微调模型(SFT Model)。例如,在医学和生物学领域,Wang等[6]基于开源的医学知识图谱和知识库,结合ChatGPT API构建一批医学指令微调数据集,并在LLaMA[7]模型的基础上训练用于医学处理的Huatuo(BenTsao)对话模型,人工评估的结果表明模型具有较高的安全性和准确性。Luo等[8]在LLaMA2模型的基础上实现了自然语言与多种生物模态(如分子、蛋白质和细胞)的交互,从而弥补了生物语言和人类自然语言之间的“模态差距”,相关成果可用于药物设计领域。在法律领域,Cui等[9]基于自建的法律对话数据集,分别使用7B和33B参数规模的模型训练了法律大语言模型ChatLaw,并引入检索增强的方法降低模型幻觉,取得了良好效果。在金融领域,BloombergGPT[10]和FinGPT[11]分别代表大语言模型领域化不同量级的解决方案,其中,FinGPT采用以数据为中心的方法,能够基于实时的金融数据快速微调,更适配于时效性极强的金融环境中。在教育和文化等领域,Taoli[12]、Firefly[13]等大语言模型基于国际中文教育和中国文化数据集进行构建,用于辅助中国文化的国际传播,在各自的领域中均有良好表现。上述研究表明,通过特定的数据构造和训练技巧,LLMs能够在垂直领域达到高度专精。在古籍领域,也已经有学者针对大语言模型在古籍文本分词与词性标注任务中的性能表现进行了探索[14-15]。
2.2 大语言模型语言生成与领域知识性能评测研究
对模型性能的评测是推动人工智能领域发展的关键环节。当前,国内外涌现出众多大语言模型,社会各个领域迫切需要利用大语言模型相关技术来推动产业和研究的进步。然而,在具体的任务中,如何选择合适的大语言模型以及正确运用大语言模型成为一个重要问题。为了解决这个问题,需要对大语言模型进行科学的评估,深入探究它们在具体领域和任务中的实际能力。对大语言模型进行真实可靠的性能评估是将大语言模型广泛应用于各个行业和社会实践的必要途径。在后ChatGPT时代,传统的自然语言处理中间过程[16]正逐渐消亡,端到端的信息处理模式模糊了自然语言理解和生成的边界,然而,这种信息处理模式同时也为评测工作带来新的挑战。目前已有大量研究人员结合大语言模型特性,提出了适应大语言模型的评价体系,Chang等[17]对现存的大语言模型评测研究做了较为完善的整理与介绍,本文将重点介绍评估生成能力和知识储备能力的评测。
众多的评测基准被提出,用于从多个角度评测大语言模型的能力。不同的评测基准有不同的侧重点,如 Hendrycks等[18]提出的MMLU基准用于测试文本模型在预训练期间所获得的世界知识,分别设置零样本和少样本任务来测试模型的泛化和知识迁移能力。ARB[19]用于评估大语言模型在多学科当中的专家推理能力,CRASS[20]用于测试大语言模型的反事实推理,而 TruthfulQA[21]侧重于衡量模型生成答案的真实性等。然而,上述评测基准在非英语语言中的适用性有限。因此,许多团队和个人为构建适用于中文环境的大语言模型评测基准作出了贡献。其中,GAOKAOBench[22]以中国高考试题为测试样本,从主观题和客观题两个方面来分析模型的得分。与之相似的是MMCU[23]与AGIEval[24],MMCU是一个多任务测试体系,旨在用从中国高考等专业考试中收集的评测数据以选择题的形式来衡量大语言模型在医学、法律、心理学和教育领域的表现。同样,AGIEval也被用于评估模型在人类标准化考试中的表现,但其包含的范围更广,测试内容包括高考、高中数学竞赛、中国公务员考试等,这项基准有利于推动模型更接近人类认知,同时该研究表明GPT-4在某些任务中超越了人类平均水平。与上述基准相比,C-Eval[25]与M3KE[26]则覆盖了更广泛的学科领域,收集了更多的测试数据,并且都属于多层级的测试基准。C-Eval设置了跨越52个学科的四个难度等级的测试,在此基础上选择具有挑战性的科目单独形成了C-Eval HARD基准,专门用于测试模型的高级推理能力,M3KE基准则涵盖了包括小学、初中、高中、大学和专业考试在内的各个主要中国教育阶段的评测任务。值得注意的还有分别由智源研究院与阿里巴巴达摩院提出的大语言模型评测基准FlagEval[27]与M3Exam[28],其中,前者目前对于自然语言处理领域已有比较完善的评测框架,该评测的特点是区分基座模型和有监督微调模型,采用不同的方法分别进行评测与排名,评测方法采用客观评测与主观评测相结合的方式,并对AI辅助人类的主观评测进行了探索。而M3Exam是一个利用人类考题构建的多语言、多模态、多级别的测试基准,能够充分测试模型的多语言能力以及多模态能力。此外,还有DomMa[29]与Xiezhi[30] 都是包含特定领域专业知识测试的大规模中文基准。CMMLU[31]除包含标准化考试的测试题之外,还涵盖了中国饮食文化等中国特有知识。SuperCLUE[32]作为另一个中文大语言模型评测的综合基准,通过模型竞技测试、GPT-4评测开放式问答、自动获取封闭问答得分的方式,对大语言模型的语义理解与生成、知识理解与应用、环境适应性和安全性等方面的能力作出了评估。特别地,CBBQ[33]专用于全面衡量大语言模型的社会偏见,而CMExam[34]作为目前少有的垂直领域评测基准,它以中国执业医师考试的题目来测试大语言模型在医学领域的表现。表1是对目前支持中文的大语言模型评测基准的总结。
除了上述基准之外,还有许多研究聚焦于大语言模型在传统的生成任务与知识评估任务中的性能评价,由于其他大语言模型尚未完成良好的落地,当前的评测研究多以建立在GPT3.5和GPT4基座模型上的ChatGPT为主要的探究对象,例如,Jiao等[35]对ChatGPT的翻译能力进行了全面评估,结果显示,GPT4可同时在资源丰富和资源缺乏的跨语言翻译任务中与商业翻译产品相媲美。Choi等[36]使用法律考试题目来评价ChatGPT的法律知识运用能力,结果表明,ChatGPT仅能获得法学院C+学生的水平。Bang等[37]设计了一种用来综合评价大语言模型能力的框架,该框架包含了多语言和多模态的数据集,评测结果表明,ChatGPT的能力可以超过目前绝大多数的大语言模型,但在逻辑推理、非文本推理和常识推理上的能力仍然不够可靠,“幻觉”问题仍然有待解决。在国内期刊发表的研究成果中,张华平等[38]选取了包含ChatGPT、ERNIE 3.0 Titan在内的多个大语言模型在情感分析、自动摘要、阅读理解等任务中进行测试,发现ChatGPT在错误混淆、信息安全等方面存在风险;杨锋昌[39]使用ChatGPT进行越南语的辅助翻译研究,结果表明,ChatGPT较其他模型未有显著的能力改善,且术语翻译和复句翻译能力要落后于其他翻译软件。
在已调研的文献中,尚未发现有研究者使用大语言模型进行专业的古文能力评测,目前的预训练模型古文能力评测研究都集中于小型模型。例如,Zhou等[40]设计了一种被称为WYWEB的评价基准,这一基准包含了常见的古文理解和生成式古文处理任务,可用于评价当前全部的中小型古文预训练模型。Wang等[41]使用三种不同的古籍数据训练BERT和GPT模型,并分别在简体、繁体和简繁并存的数据集上进行模型训练,证明了训练语料的书写体会影响模型的适用范畴。
纵观当前研究,针对大语言模型综合能力的评测基准已经相当丰富,而针对其在垂直领域中性能表现的研究仍处于快速发展阶段。目前的评测基准多集中于对模型在预训练过程中获得的世界知识的衡量,极少有评价基准或研究关注大语言模型在垂直领域中的语言运用能力,古文理解和生成能力的评测标准更是难觅其踪。评测模型缺失、评测任务不全、评测指标匮乏等情况的存在,使得研究者不得不面对信息过载和重复劳动的问题。考虑到大语言模型必须在实际场景中落地应用,必须要在垂直领域的评测中加大投入与关注。
表1 现存中文大语言模型评测基准
03
评测体系的构建
区别于以BERT为代表的自编码语言模型,对于生成式模型的评测一直充满挑战,输出结果的不确定性、自然语言的复杂性使得生成式任务难以通过指标进行全面、客观的评价。随着大语言模型时代的到来,其强大的语言能力和丰富的知识储备使得生成式任务的输出结果更容易调整和控制,输出内容的结构更加清晰,这为大语言模型的评测提供了一定的便利。已经有研究表明,语言模型尤其是大语言模型可以将训练过程中学习的知识进行存储,这些知识在训练完成后间接地通过参数的形式存储在模型之中[42-43]。基于这一现象,当前大多数对于大语言模型的评测都以知识问答的形式进行,而为了保证评测的便捷准确,其中大部分又以客观题的形式存在。此外,语言能力也是大语言模型评测的重要参考,对于大语言模型来说,语言能力主要可以分为两个方面:语言理解和语言生成。优越的语言理解能力使得大语言模型可以理解人类提出的问题并对此作出回应,而语言生成能力则保证大语言模型所输出的内容符合人类的预期。
宽广的知识背景可以提升模型的语言能力,而强大的语言能力也使得模型能够将知识更好地组织、传播。在垂直领域模型评测中,领域知识与语言能力是相辅相成、密不可分的。因此,本文在构建任务的过程中,综合考虑了两方面评测的适配性,提出了本文的评测体系。
3.1 评测维度与任务
考虑古汉语自身的特点以及古文领域信息处理的需求,本文基于自然语言生成以及领域知识这两个维度提出了六个任务,旨在综合考察模型在古文领域的语言生成能力和领域知识能力,如图1所示。其中,文本翻译、文本摘要、诗歌题材生成属于语言生成能力评测,均使用古代汉语文本进行评测,以保证评测的领域性,人物关系单选题、古代文化常识单选题以及历史常识问答题属于领域知识能力评测。在评测前期,本文针对各任务构建了提示模板,并通过少量样本测试对模板进行调整修改,使模型输出内容尽可能符合要求。除此之外,对于一些具体的任务,由于0-shot情况下模型表现较差,不利于评测的开展,因此在提示模板中额外添加了示范样例,还分别进行了1-shot、3-shot和5-shot的测试。
图1 通用大语言模型古籍领域能力评测体系
3.2 数据和模型选取
3.2.1 数据集构建和选取
本研究使用的数据集主要来源于课题组前期在古文知识组织及翻译研究中所使用的语料库,如二十四史对齐语料[44]。其中,先秦典籍语料是由南京师范大学语言科技研究所人工对齐后得到的[45]。二十四史古现对齐语言与先秦典籍古英对齐语料均作为第一届古代语言机器翻译评测ALT2023训练语言推出[46]。另有部分数据来源于古诗文网[47]、CBDB[48]等网络资源,经数据处理后应用于本研究。
表2展示了本研究收集的用于评测的全部数据集,通过测试发现,对于同一个模型,500条数据与50条数据得到的测试结果非常接近,因此,为提高研究的可复现性,本文从全部数据集中为每个任务随机抽取了50条数据作为本次测试数据,对于few-shot任务,示例数据与测试选用数据不重合。
表2 数据集统计信息
3.2.2 模型选取
针对本次古籍文本领域的评测研究,本文选取两种类型的模型,第一类是通用大语言闭源模型如GPT-4[49]、GPT-3.5-turbo[50],第二类是参考目前已有的中文大语言模型评测榜单,例如C-eval、Super-CLUE、CLIB等,从中选取排名较为靠前的大语言模型,本研究选取的模型均于2023年8月前发布,由于大语言模型迭代较快,本文旨在构建一套体系化的评测基准,以供后续各类大语言模型进行古籍领域性能评测。如表3所示,本次评测总共包含13个大语言模型,其中GPT-4、GPT-3.5-turbo与ERNIE-Bot[51]是通过调用API的方式来对其进行访问,其余模型均为开源模型可直接获取后在本地进行部署。
表3 模型信息
3.3 评测指标确定
(1)Accuracy
Accuracy(准确率)即输出答案与标准答案相同占总任务量的比例,在文本分类、序列标注等任务中常被用作参考指标,由于准确率并不考虑各类别的各自情况,因此适用于标准答案类型较少且各类别占比较为均衡的测评。在本文中,准确率用于计算各模型单项选择任务得分。
(2)ROUGE
ROUGE ( Recall-Oriented Understudy forGisting Evaluation)[60]是用于评测自动文本摘要等自然语言任务的一组评价指标。它被广泛用于衡量系统生成的文本序列与参考序列之间的相似程度。本研究将ROUGE指标应用于文本摘要和历史常识问答任务的评测中,通过考虑与参考序列的重叠度和一致性来更好地评估模型生成文本的质量。结合具体任务的评测需求,选用ROUGE-L来参与评测,以同时考虑两序列中重叠单词的数量以及这些词语之间的顺序和结构。综合来看,以最长公共子序列为基准能够较好地在相应任务中衡量模型生成文本与参考文本之间句子级别的匹配和结构相似性,从而达到评测目的。
(3)BLEU
BLEU(Bilingual Evaluation Understudy)[61]是用于自动评估机器翻译质量的常用指标之一,该指标基于n-gram重叠度,通过比对机器翻译结果与参考译文的重叠程度和匹配数量来评估翻译的质量。为了解决不同研究中对原始BLEU计算参数设置不明确、不一致导致研究结果之间无法直接比较的问题,SacreBLEU[62]被提出为相关研究提供了一套针对标准数据集的参数设置方案,并且规定了针对不同语言文本的词切分算法。为了更加合理地评测各模型在文本翻译任务中的表现,本研究采用SacreBLEU作为具体的评测工具,并规定其评估对象为现代汉语文本,其余参数保持默认值。
(4)chrF
chrF(Character n-gram F-score)[63]是一种通过计算文本相似性来对机器翻译和文本生成任务进行评价的指标。该指标同样考虑了n-gram重叠,但不同于BLEU的词级别匹配方法,chrF更注重于字符级别的匹配,因此能够衡量序列间字符级的准确与流畅度。此外,它能够更灵活地处理未登录词或罕见词,从而增强评估的准确性。本研究同时采用BLEU与chrF指标对模型在古文翻译上的效果进行全面的评估。
(5)BERTScore
BERTScore[64]是一种基于BERT的用于对文本生成任务进行评估的指标,它与传统的基于n-gram的指标不同,BERTscore使用上下文嵌入计算标识的相似性,能够更好地捕捉语义信息,提高相似性评估的质量。本研究使用BERTscore来评测大语言模型在诗歌题材生成任务中的表现。
(6)MAUVE
MAUVE[65]是用于在开放式文本生成任务中衡量机器生成的文本和人类文本之间差异的指标,该指标从KL散度的角度对文本生成效果进行评估。实验证明,MAUVE指标能够对生成文本的质量作出准确有效的度量,并且能够评测出更符合人类感知的文本。因此,本研究将MAUVE指标应用到对开放式历史常识问答任务的评测中,同时结合ROUGE指标,旨在对模型生成的回答进行全面、有效的评价。
04
实验与结果分析
4.1 自然语言生成能力测评
评测大语言模型文本生成能力的任务主要包括文本翻译、文本摘要及诗歌题材生成。以文本翻译任务为例,对翻译任务给予1个示例的提示信息如图2所示,模型将输出{input}中古汉语的译文。
图2 翻译任务评测样例
通过实验发现,古文生成任务对于通用大语言模型较为困难,因此本研究针对每项任务分别设计了0-shot、1-shot、3-shot和5-shot的实验,将模型的输出调整为可直接进行评测的形式,再采用对应的指标来评估模型的表现。在文本翻译的多组实验中,可以看到除了个别模型外,随着示例个数的增多,各个大语言模型的BLEU指标整体呈上升趋势,如图3所示,因此在数据处理上本文优先选择5-shot结果作为各项任务的评测数据。综合来看,ERNIE-Bot表现最佳,Baichuan-13B的翻译性能随示例个数的增加上升趋势明显,GPT-4与MOSS-moon-003-sft统一表现出不错的效果。相比之下,GPT-3.5-turbo、Ziya-LLaMA-13B-v1.1与ChatGLM系列模型表现并不突出,而AquilaChat-7B、Phoenix-inst-chat-7b以及Chinese-LLaMA-Alpaca系列模型在古文文本翻译任务中的性能较差,AquilaChat-7B以及Phoenix-inst-chat-7b模型随着示例个数的增多,性能反而下降,这体现出其在处理较长文本时对语义的理解能力较差,无法实现长上下文情景下的指令跟随。结合文本翻译输出内容分析,指标得分较好的模型,其输出都较为规范、易于处理,而指标得分较低的几个模型指令跟随能力较差,缺乏对古汉语文本的理解能力,其输出较为杂乱,常常出现答非所问的情况,难以处理。
图3 翻译任务评测结果
随机抽取一条评测数据 “莽以太后好出游觀,乃車駕置酒長畫宣,請太后”,其参考译文为“王莽因爲太后喜歡出來游玩觀光,就在長畫宣設擺酒席,用車駕請太后前去。”各个模型对该古汉语句子的翻译结果如表4所示。GPT-4、MOSS-moon-003-sft及ERNIE-Bot取得了较高的指标得分,其译文中均将“莽”正确翻译为“王莽”,这说明此三者具有较为深厚的古代历史知识储量与较强的语境理解能力。其他模型输出的译文中,Ziya-LLaMA-13B-v1.1同样正确翻译了人名,但对“長畫宣”的翻译存在明显错误。而ChatGLM2-6B、Phoenix-inst-chat-7b以及GPT-3.5-turbo在语境中正确理解了“長畫宣”,但在其他字词上翻译不恰当,如ChatGLM2-6B仅将“请”译作“请求”,GPT-3.5-turbo的输出中缺少对“車駕”的翻译等。ChatGLM-6B 和Baichuan-13B未对“長畫宣”做出翻译,但整体语义基本正确,Chinese-LLaMA-Alpaca系列模型翻译效果较差,存在较多问题,而AquilaChat-7B输出了与原句子完全无关的内容,这说明其指令跟随能力及对古汉语的处理能力都不太理想。
同文本翻译的处理流程类似,文本摘要和诗歌题材生成分别选取不同的指标对模型在古文生成任务中的性能进行评测,实验结果汇总如表5所示。结果显示,ERNIE-Bot在文本翻译任务上表现最优,而GPT-4在文本摘要和诗歌题材生成任务中的指标表现均以较大幅度领先于其他模型。此外,GPT-3.5-turbo、Baichuan-13B、MOSS-moon-003-sft、Ziya-LLaMA-13B-v1.1及ChatGLM系列模型在古文生成任务上的表现较为接近,其输出都比较规范。相比之下,AquilaChat-7B、Phoenix-inst-chat-7b及Chinese-LLaMA-Alpaca-33B的效果较差,输出内容也较为杂乱。
表4 模型翻译结果
表5 自然语言生成能力评测结果(%)
4.2 领域知识测评
领域知识评测旨在度量大语言模型对古文领域知识的掌握范围,是大语言模型在垂直领域评测中不可或缺的一个部分。这一部分的评测任务主要以选择题和开放问答的形式出现,在评测过程中对于选择题只需给予文本指令与需要解答的问题,而开放性问答直接输入题目即可,该部分输入内容示例如图4所示。
图4 领域知识能力评测数据样例
人物关系单选、文化常识单选与古代历史常识问答这三个任务的评测结果汇总于表6。可以看到,ERNIE-Bot 在中国古代文化知识能力评估上表现非常突出,这与它在训练阶段较为充分地学习了古文领域知识有关。GPT-4与ChatGLM系列模型在古文知识掌握方面也展现出了良好的性能,并且,相较于GPT-3.5-turbo,GPT-4在人物关系及文化常识方面的知识能力有了较大提升,但在历史常识问答上的表现却不及GPT-3.5-turbo 。GPT-4对于“祖甲的政治改革”及“巢居时代”等题目回答不正确,或以“在已知的历史资料中没有祖甲的相关信息”的格式作为回复,而GPT-3.5-turbo的回答基本正确。总的来看,在历史常识问答上,ERNIE-Bot 与GPT-3.5-turbo倾向于给出质量更高的答案。
表6 领域知识评测结果(%)
4.3 综合能力评价
综合各个大语言模型在上述两组任务中的表现情况,根据实际需求对实验结果进行处理,将各个大语言模型的分项能力与综合能力进行呈现。
首先,在需要采取few-shot策略引导模型输出的任务中,我们统一以5-shot的结果来代表模型在该任务上的表现。其次,由于评测指标的取值皆在0到1之间,因此将各指标取值按照1:100作为单项得分。并且,对于有两个指标的任务,将两个指标的单项得分取均值以代表在该项任务上的得分。最后,对各项任务中的得分取均值,得到两个维度上的得分以及综合得分。按照上述步骤将各模型的综合得分按降序排列,得到参与本次评测的13个大语言模型在现有评测体系上的综合排名,如表7所示。
表7 大语言模型综合能力汇总
实验表明,三个闭源模型ERNIE-Bot、GPT-4及GPT-3.5-turbo的综合能力得分均领先。其中,GPT-4在自然语言生成方面能力十分突出,ERNIE-Bot与GPT-3.5-turbo在自然语言生成任务中能力相近,并且ERNIE-Bot以其丰富的古代文化知识储量获得了最高的综合得分。其次,在开源大语言模型上,ChatGLM2-6B表现最佳,其在领域知识能力方面领先于其他开源模型,且综合得分超过了闭源模型GPT-3.5-turbo。此外,ChatGLM-6B、Baichuan-13B及Ziya-LLaMA-13B-v1.1在两方面能力上的表现都较为均衡,MOSS-moon-003-sft的自然语言生成能力尚可,但因领域知识能力较差致使其排名靠后。其余几个模型在实验过程中频繁出现输出混乱的情况,在古文信息处理上的能力较差,因此得分并不理想。
根据综合分析结果,为了更直观地反映出本研究中评测效果表现较好的大语言模型在各项任务中的差异,将综合得分在35分以上的模型按照各项任务得分作雷达图,结果如图5所示。
图5 综合性能较优模型在各项任务中的性能表现
05
总结与展望
本文提出大语言模型在古文领域的评测框架,并从语言生成能力和领域知识能力这两个角度出发,对当前主流大语言模型在古文领域中的性能进行了评测。评测结果证明ERNIE-Bot、GPT-4之类的闭源通用模型在古文领域的领先地位,与此同时,也有一些开源模型,例如ChatGLM系列模型、Baichuan、Ziya模型表现出不俗的性能。这些模型在少样本情况下仍然表现出不错的效果,这在低资源语料的领域数据自动标注方面有着非常广阔的发展前景。
从两个评测角度来看,GPT模型尤其是GPT-4模型有着强大的语言能力,其语言生成得分极大领先于其他模型,但领域知识能力稍有欠缺,主要原因在于其训练语料中缺少中文尤其是古代汉语数据。而ChatGLM系列模型的领域知识得分甚至超过了GPT模型,这证明通过特定领域的数据增量训练,一些参数量较小的模型仍然可以在某个领域达到非常优越的性能。从模型本身来看,ChatGLM系列模型之所以可以达到如此优越的性能,与其训练过程中的对话数据指令微调不无关系。大语言模型拥有着非常庞大的知识储备,但正如前文所说,语言能力与知识储备是相辅相成、不可分割的,经过对话数据微调的模型可以更好地理解人类指令,进而输出更加高质量的回答。因此,在模型训练过程中,对话数据微调也是必不可少的一个环节。
除此之外,评价指标的构建也是当前大语言模型评测的重中之重,对于更擅长进行开放性任务的生成式模型来说,当前的评价指标已经有些力不从心。大语言模型的优越性能或许可以为模型评测带来更多的方法,训练评价大模型作为生成式任务性能评测的工具或将成为大语言模型性能评测的新路径。此外,更加全面、具体的评价指标也成为大语言模型评测的痛点与难点。为实现大语言模型的高质量评测,需要语言学、数学、计算机科学等领域学者的深度合作,大语言模型的发展也必将推动学科的交叉融合。
参考文献
作者简介
* 原文载于《信息资源管理学报》2024年第5期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
朱丹浩,赵志枭,张一平,等.面向古文自然语言处理生成任务的大语言模型评测研究[J].信息资源管理学报,2024,14(5):45-58.
往期 · 推荐
制版编辑 | 周凡倩
审核 | 于媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊