图源 | Internet
左 亮1,2 赵志枭3 王东波3
1.南京农业大学数字人文研究中心,南京,210095;
2.南京邮电大学社会与人口学院、社会工作学院,南京,210023;
3.南京农业大学信息管理学院,南京,210095
摘要
关键词
《四库全书》 分类模型 荀子古籍大语言模型 文本自动分类
引用格式
左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.
01
引言
中华民族五千年的历史发展进程逐渐形成了讲求文治的传统,并产生了盛世修书独特的文化工程和人文景观。纂修于清乾隆时期(1736—1795年)的《钦定四库全书》(以下简称《四库全书》),是对这一优良传统的再次传承和发扬。其主要囊括了从先秦时期至清代乾隆以前的中华历史上的主要典籍,涵盖了中国传统学术文化的学科门类和专门领域。上自罕见之书,下至寻常书目,共著录书籍3461种,79309卷;存目书籍6793种,93551卷;合计10254种,172860卷[1],被誉为“典籍总汇,文化渊薮”。其中的四部分类法通过建构独属于中国古代典籍的包罗宏富、组织严密且分类合理的分类体系,将所著录的3461种典籍统括为有机的整体。不同类别的古籍能反映出共性与特性的文化关联与时代特征,基于数字人文技术对特定类别的古籍进行数据挖掘,能揭示文字背后蕴含的隐式知识。
数字人文(Digital Humanities,DH)适逢2019年教育部 “新文科”建设契机,在中国被寄予厚望,逐步形成了跨学科、跨地域甚至是跨文化和语言共生的协作性研究社群[2]。数字人文时代的到来,进一步缩小了基于中华传统典籍的文献定性研究与借助计算机技术的定量研究之间的鸿沟,为传统人文研究和计算机技术相结合提供了新的研究范式。其中的大语言模型(Large Language Model,LLM)在自然语言处理领域中的应用不断扩展,尤其是自ChatGPT发布以来,大语言模型不断拓展人工智能(AI)的应用场景。
随着国家古籍数字化工程的推进,截至目前已经有6700多部(件)古籍在云端与读者见面。帮助这些数字资源更好地实现“藏与用”,是时代赋予古籍工作者的责任和使命。为此,本研究引入“荀子古籍大语言模型”,在《四库全书》古籍文本上进行微调,最终构建古籍自动分类模型。其一,针对《四库全书》而言,实现对前人分类结果的自动纠错,并尝试在目前分类的基础上,对其中的篇章进行更为细粒度的类别划分;其二,针对其他传世典籍而言,一方面实现典籍类别的自动划分,另一方面对传世过程中损坏或遗失的典籍编目信息进行复原,按照特定的分类体系对其进行组织和存储。
02
相关研究
2.1 大语言模型概述
大语言模型指以百亿级甚至更大规模的神经网络为基础参数量所组成的语言模型[3],它是自然语言处理模型通过不断继承、优化和迭代所发展得到的最新成果。大语言模型以海量人类文本为训练数据,凭借其出色的知识实践和逻辑处理能力呈现出跨越领域疆界的通用性。以大语言模型为代表的“数字模式”和以人类为代表的“模拟模式”,共同构成知识分享的“能动者共同体”[4]。长期以来,学者们致力于探索各类语言模型,经历了由Word2Vec[5]和GloVe[6]等静态词向量表示的初级阶段,逐渐收敛成以Transformer为核心的BERT(Bidirectional Encoder Representations from Transformers)和GPT系列大语言模型为代表的“预训练-微调”以及“预训练-提示”两种不同技术范式的快速发展阶段[7]。
大语言模型快速发展的开始时期,以BERT作为典型的自编码(Auto encoder,AE)语言模型受到很大的关注。作为双向编码模型,其主要基于预训练和微调两部分进行构建。通过文本预训练对文本序列进行标记生成令牌序列后,该模型能够根据上下文来预测被掩盖的信息,并且通过基于特定任务的新数据对模型进行微调,其性能可以得到再次提高。诚然,该模型需要大量下游的精调样本,但是BERT的出现在预训练模型发展史上具有里程碑式的意义[8]。然而,随着美国开放人工智能研究中心(OpenAI)2019年、2020年分别发布的GPT-2[9]与GPT-3[10]问世,其展现出的巨大潜力使得越来越多的学者们开始将目光转向生成式预训练模型。其中,GPT-3作为拥有96层Transformer 解码器的首个参数规模突破1750亿的大语言模型,为自然语言处理带来了新的研究范式。该模型可以不进行梯度更新或微调,而是使用少样本提示,提供少量的上下文示例帮助模型推理,即可表现出超强的“涌现能力”[11]。2023年,GPT-4[12]作为一个大型的多模态模型被提出,它将文本输入扩展到文本和图像的多模态信号输入[13]。
以 GPT 系列为代表的自回归语言模型和提示学习范式,得到学术界和产业界的支持和跟进,并不断推出一系列的大语言模型。如LaMDA(Language Model for Dialogue Applications)[14]、 PaLM(Pathways Language Model)[15]、LLaMA(Language Model Meta AI)[16]、Megatron-Turing[17]、PanGu-α[18]、GLM(General Language Model)[19]等。但是该类模型均是通用大模型,因此在不同领域、不同类型的专业知识方面表现力不足。为此部分学者开始推出一系列垂直语言模型,促进大语言模型在特定专业领域中的应用。在医学领域,推出了以ChatGLM-6B为基础的DoctorGLM[20]、以LLaMA-7B作为基座模型的BenTsao[21]、以ChatYuan-large-v2和ClueAI为基座模型的BianQue[22]等模型,在中文医学知识构建、中文问诊和中文医疗等方面取得较好的效果。在法学领域,推出了ChatLaw[23]、LaWGPT[24]、Lawyer LLaMA[25]、LAW-GPT[26]等模型。除此之外,在金融学及教育学领域,也推出了PIXIU[27]、BloombergGPT[28]、FinGPT[29]、 EduChat[30]等模型。现如今,大语言模型已经深入到古籍智能处理领域,例如,朱丹浩等[31-32]基于古籍垂直领域荀子系列大模型探讨了大语言模型在古籍文本自动分词及词性标注上的表现。吴娜等[33]利用BERT类模型以及大语言模型对古籍文本自动摘要进行了探索。
综上所述,大语言模型研究的不断发展,尤其是垂直化大语言模型研究的不断深入,在不断地阐述这样的道理:如果要想大语言模型在专业领域中得到系统深入的运用,不断发挥大语言模型在专业领域中的应用价值,就需要利用专业领域中的专业数据来不断训练和优化大语言模型的专业知识,不断提升大语言模型在特定领域的表现。基于此,本研究依托荀子古籍大语言模型,利用未经人工标注的海量数据,从古籍词法分析、实体识别、关系抽取、文本分类与匹配、文本翻译等方面以贴近古籍原文处理的方式,通过类似于人类专家的模式来理解古文语境,实现古籍的自动处理,进一步拓宽大语言模型在古籍等领域的垂直化运用。
2.2 文本自动分类研究
对文本进行自动分类不仅有利于数字文献的高效管理,而且对开展多学科交叉研究具有重要作用。目前利用机器学习算法、深度学习技术与预训练语言模型进行文本自动分类的方法,已经渗透到政治学[34]、天文学[35]、地理学[36]、语言学[37]、文献学[38]以及图情学[39]等领域。
在文本自动分类研究的早期阶段,学者们主要利用支持向量机(SVM)、决策树、贝叶斯算法、最近邻算法(KNN)等机器学习方法不断提升分类的精度。其一,在利用支持向量机进行自动分类研究方面,如杨敏等[40]从高校图书馆中随机抽取五个大类的书目,基于SVM算法尝试设计并实现了一套书目自动分类系统;王东波等[41]以万方期刊数据中的医学和卫生类论文的标题与摘要数据作为数据来源,利用支持向量机学习模型,采取低密度多特征的训练方法,对医学和卫生大类下的期刊文章进行了自动分类研究。其二,在基于最近邻算法进行自动分类研究方面,张野等[42]将Sougou语料库作为数据集,提取了10个大类的数据,利用KNN和SVM分类算法进行自动分类;李湘东等[43]以图书、网页、学术期刊和非学术期刊四类文献作为自动分类的研究对象,利用KNN算法对数字图书馆中的多类型文献进行自动分类,实现文献的组织和整合;王昊等[44]利用KNN算法对中国知网(CNKI)中已有的中文期刊论文进行学习并结合中图法的分类特点构造分类器,为期刊论文自动分类提出了解决方案。其三,在基于多种混合算法开展的自动分类研究方面,Kuo[45]利用朴素贝叶斯模型、SVM和决策树等分类器,提出多层图书馆文献分类模型,在《中国图书馆分类法》一级分类的准确率超过90%;慎金花等[46]构建基于KNN、支持向量机、Rocchio和朴素贝叶斯等算法的层次分类器,对从大为(Innojoy)专利搜索引擎中随机抽取的数据集按照IPC主分类号作为分类依据,对专利文本进行自动分类。
2016年以后,随着神经网络、BRET预训练模型为代表的深度学习技术的飞速发展,文本的自动分类开始进入深度学习算法阶段,这类研究主要分为两类。其一,基于卷积神经网络模型(CNN)开展的自动分类研究,如郭利敏[47]对《全国报刊索引》近4年的历史数据中所含有的题名、关键词、分类号等文献信息,利用多层次CNN模型,对文献开展分类预测;杨锐等[48]以采集到的能源政策文本为数据来源,从标题、内容以及核心主题句三个方面利用CNN模型进行训练,提出了一种融合主题信息的卷积神经网络文本分类方法。其二,2018年开始随着BERT预训练语言模型的发布,学者们开始将其应用到文本自动分类研究中,如罗鹏程等[49]通过构建基于BERT和ERNIE的文献学科分类模型,实现中国社会科学引文索引文献的教育部一级学科分类;张智雄等[50]利用BERT模型并基于自动分类引擎的逻辑框架,构建26个自动分类器,实现了科技文献的自动分类;胡昊天等[51]则是将SikuBERT和SikuRoBERTa预训练语言模型运用于典籍分类模型的构建,在《四库全书》子部的自动分类中,正确率高达95.30%,构建的分类工具为高效自动化典籍分类提供了新途径。
概而言之,自然语言处理技术的日趋发展总是不断推动其在文本自动分类研究领域中的深入。2020年随着大语言模型的正式发布,自然语言处理领域正式开创大语言模型时代,已有部分学者开始将目光转向利用大语言模型实现文本的自动分类[52-53]。但是鲜有研究将大语言模型应用于中国传统古籍的自动分类研究中。鉴于此,本研究以《四库全书》所录典籍作为数据来源,以荀子古籍大语言模型作为研究工具,探讨其在古籍自动分类中的表现,以期能够达到古籍的自动分类,实现“即类求书,因书究学”的目的。
03
数据与方法
本研究旨在利用《四库全书》开源语料,探究荀子古籍大语言模型用于中国古籍自动分类效能。研究选取Qwen-7B、Baichuan2-7B、ChatGLM3-6B-Base三组基座模型,以及与其相对应的荀子系列模型Xunzi-Qwen-7B、Xunzi-Glm3-6B、Xunzi-Baichuan2-7B三类大语言模型开展古籍自动分类研究,分析其在古籍文本自动分类领域中的优劣势,从而评估荀子古籍大语言模型的分类能力。本部分将从数据来源、模型参数配置以及评估策略三个方面开展讨论。
3.1 数据来源
本研究的数据为通过网络爬虫所获得的繁体字版本的文渊阁《四库全书》(图1)全文数据,共计8亿多字。该数据未经句读,文本内容包括标题、目录、编纂人信息、藏本类型、小序、呈文、正文、注释等。部分语料如表1所示。
图1 清乾隆《四库全书》抄本(书影)
表1 《四库全书》部分语料
本研究按四部四十四类六十六属分类方法为基准。清代以降,《四库全书总目》所确定的经、史、子、集“四部分类法”是截至目前使用最为便捷,也最适合微调的古籍分类法之一[54]。“此种办法之优点,即故能不需处处学习特别之分类法,故能有整齐统一之效,而亦可省翻阅之劳。我国用分类法目录如许之久,而不觉其缺点者,习惯亦其一因。”[55]其分类体系如表2所示。
表2 《四库全书》分类类别
3.2 模型使用与配置
本研究选取6B-7B参数量级的大语言模型作为古籍文本分类任务微调的基座模型,包括Xunzi-Baichuan2-7B、Xunzi-Qwen-7B、Xunzi-Glm3-6B以及其对应通用领域基座模型Baichuan2-7B-Base、Qwen-7B、ChatGLM3-6B-Base。其中通义千问(Qwen)、百川(Baichuan)、ChatGLM三组模型为荀子系列模型中的基座模型。Qwen模型是由阿里云自主研发的大语言模型,该模型是在Transformer的基础上进行改进,其模型架构与LLaMA2等模型相似,性能优于其他规模相近的开源模型[56]。Baichuan模型是百川智能推出的同样基于Transformer架构打造的开源模型,使用1.2万亿tokens进行训练,在C-Eval、AGIEval和Gaokao中英文测评基准上取得了最佳效果[57]。ChatGLM是由清华大学开发的基于ChatGPT设计思路的大语言模型,通过监督微调、人类反馈强化学习等技术实现与人类对齐[16]。Xunzi-Baichuan2-7B、Xunzi-Qwen-7B、Xunzi-Glm3-6B三类大语言模型是基于各自的基座模型,通过整合古籍指令微调数据、互联网开源的古文指令数据集、GPT3.5生成的古文指令数据集等形成混合对话数据集,并且按照因果语言模型预训练、多任务指令微调、人类反馈的强化学习等多形式进行预训练得到。
本研究所使用的语料来自于《四库全书》史部和经部中共计25个古籍类型的数据,为探讨大语言模型在不同体量数据下Lora微调后的性能表现,本研究分别从各类型中选择了50、100、200和500条数据构建指令微调数据集,并按照8∶2的比例划分了训练集和测试集。同时,为使不同体量数据下训练所得模型的评测对比更加客观、准确,本研究在测试过程中,统一使用每个类型500条的测试数据集进行预测并计算指标。经过领域训练的荀子古籍大语言模型与其基座模型对比,在文本识别和细分上具有更强的古籍知识背景。
为确保荀子古籍大语言模型能够在分类任务中有出色的表现,激发其在古籍自动分类领域的能力,本研究使用10000条语料作为标准的输入和输出数据,并在此基础上对荀子古籍大语言模型及其基座模型采用Lora方法[58]进行基于指令的监督微调。随后在保证类型均衡的基础上选取2500条《四库全书》数据作为测试集,通过提示学习方法、使用与微调数据集中相同的指令信息,引导荀子古籍大语言模型根据输入的古籍内容输入特定的古籍类别。与此同时,对于对照组的其他模型,本研究采用同样的古籍内容及微调数据作为训练数据集,并采用同一测试集,从而更好地对比和厘清基于相同规模数据,不同大语言模型的分类效果。大语言模型微调数据示例如表3所示。
表3 大语言模型指令微调数据示例
通过多次预实验确定各模型的最优实验参数如表4所示,每批次训练数据大小是模型在训练过程中进行一次参数更新所使用的数据量,较高的批次大小可以更快完成模型训练,但也需要更高的GPU显存。学习率决定了模型进行参数更新的效率,但过高的学习率可能会导致模型训练出现过拟合现象,过低的学习率可能会导致模型参数更新效果不佳,无法胜任下游任务。训练轮次则是模型在同样数据上进行多次训练的次数,经过多轮次训练能够让模型更加熟悉训练数据,但轮次过高不利于模型表现出泛化能力。Lora_alpha和Lora_rank是决定模型在Lora训练中提取低秩矩阵的超参数。因此在进行超参数的设置时,利用上述的超参数值,使得模型在各项指标上获得均衡。
表4 大语言模型微调主要超参数设置
3.3 评价指标
古籍自动分类任务中,对于各种类型的古籍分类性能,采用精确率(P)、召回率(R)、F1(调和平均值)指标进行评价。其中精确率是表示大语言模型对古籍类别自动分类正确的样本数占分类器分出的样本总数的比例,召回率则表示大语言模型对古籍类别自动分类正确的样本数占真实样本的比例,F1值是结合精确率和召回率得出的调和平均值。对于各模型的总体分类性能,采用加权平均精确率(Weighted_P)、加权平均召回率(Weighted_R)和加权平均F值(Weighted_F)作为评价指标,各项指标具体的计算公式如下所示。
公式(1)(2)(3)中,TP(True Posi-tive)表示模型预测与标准答案相同且均为正样本,FP(False Positive)与FN(False Nega-tive)分别表示模型预测为正(负)而标准答案为负(正),公式(4)(5)(6)中的来表示对模型总体性能的评价,并且为了更为清晰地对比不同模型的实验结构,本研究以百分比形式表示实验指标,指标保留两位小数。
04
古籍大语言模型分类性能
4.1 古籍大语言模型分类性能对比
荀子古籍大语言模型Xunzi-Baichuan2-7B与其他五种大语言模型在进行试验时,均是使用《四库全书》中抽取的10000条语料进行训练或者微调,采用相同体量的数据测试集进行整体性能评估。
表5中展示了不同模型的分类效果和最终指标得分。结果显示,在加权平均值方面,Xunzi-Qwen-7B模型在各体量数据下均取得最高的精确率,且当训练数据量为每类别500条时,精确率达到99.17%,表现优越;Xunzi-Baichuan2-7B与Xunzi-Glm3-6B模型分别取得50—200条数据以及500条数据体量下的召回率最优值;在调和平均值方面,Xunzi-Baichuan2-7B模型在50、100条数据体量下表现最优,Xunzi-Glm3-6B模型在200条数据体量下表现最优,而Qwen-7B模型在500条数据体量下表现最优。针对宏平均值来看,当训练数据量较小时,Xunzi-Baichuan2-7B模型在各指标上表现出最优的性能;而当数据量较大时,chatglm3-6b-base模型在各指标上表现出最优的性能。值得注意的是,Xunzi-Qwen-7B与Qwen-7B模型的宏平均值远低于其他模型,Qwen-7B模型尤其明显,由此可见,Qwen模型在经过微调后,仍会生成一部分不符合规范的结果,严重影响了指标的计算。总体来看,在经过指令数据微调,尤其是少样本数据微调的情况下,荀子系列模型在古籍文本分类任务上的表现明显优于通用领域模型。这也就意味着在特定领域中特定的大语言模型在下游任务中的表现有独特的优越性,从侧面也体现了研发基于垂直领域专用大语言模型的重要价值。
需要指出的是,四库分类法诚然是对古籍较为合理的分类方法,但是要想将囊括古今、品种繁复的古籍,部部书都做到“求归至当”也绝非易事。有学者们已经考证出四库分类法存在的问题和分类的错误之处[59],因此,基于错误的分类进行预训练,得出的结果也必然会出现偏差,这也是荀子古籍大语言模型分类性能进行提升的桎梏所在。
表5 各模型整体分类性能
4.2 不同规模数据下的大语言模型分类性能探究
上述实验表明,在给定10000条总训练数据的情况下,大语言模型Xunzi-Baichuan2-7B能在细粒度自动分类任务中取得超越基座模型的优异表现。为进一步探究Xunzi-Baichuan2-7B大语言模型的分类性能,分析样本数量大小对大模型分类效果的影响,本研究采用控制变量法,设计了不同规模训练数据的对照试验。具体而言,对语料涉及的25个古籍分类,实验依次给定每个类别数量为40、80、160和400条数据作为微调样本,随后在相同的实验环境及参数配置下分别对大模型进行微调,并在与试验相同的测试集上验证模型效果,结果如图2所示。
实验结果表明,在使用2000条数据对Xunzi-Baichuan2-7B大语言模型进行微调的情况下,其在25个类别的分类任务中F1值超过86.00%。当训练数据量达到4000条时,指令微调后模型的性能进一步提升已经不太明显,而当数据量从1000上升至4000条时,模型性能有着非常明显的进步。此外,只使用4000条数据,大语言模型就能表现出90.00%—95.00%的分类性能,说明大语言模型有着更加强大的拟合能力,尤其是垂直领域的大语言模型能够在很大程度上减小下游任务对大规模训练数据的依赖,可为低资源场景下的任务实现提供极大的便利。
同时,对比表5的实验结果可以发现,Xunzi-Baichuan2-7B大语言模型使用4000条的训练数据就能达到与Baichuan2-7B基座模型10000条训练数据基本相当的效果,这证明本文基于Xunzi-Baichuan2-7B大语言模型构建的古籍自动分类模型的高效性。因此,在古籍自动分类任务涉及工程层面的运用时,如果需要考虑投入样本带来的效益,则可以在可接受误差的范围内确定最佳数量的标注样本数,降低由于过多样本量带来的成本投入。
值得注意的是,大语言模型的输出具有随机性,因此,对于大语言模型的输出观察也是衡量大语言模型性能优劣的重要组成部分。在初始给定每类40条预训练样本时,各类大语言模型都输出了部分不规范的分类,如出现了“史钞类もち”“孝传孝”“四书类开荒”等,当每类给定400条预训练样本时,大语言模型输出类别均为古籍类别,但是也存在输出个别不属于给定标签类别的问题,如生成了并不属于四库分类的类别“地理地”和“杂史类得天”等,这类问题在Qwen-7B大语言模型中尤为明显。鉴于此,更加突出Xunzi-Baichuan2-7B大语言模型的分类性能。
图2 Xunzi-Baichuan2-7B在不同规模数据下的分类性能
05
荀子古籍大语言模型各类别分类性能
荀子古籍大语言模型Xunzi-Baichuan2-7B在古籍自动分类实验中表现最优,其在各个类别上的分类结果如表6所示。
根据实验数据显示,经过垂直领域数据训练和微调的Xunzi-Baichuan2-7B大语言模型在“五经总义类”“别史类”“政书类”“时令类”“易类”“编年类”等六种类别古籍的自动分类中展出超强的分类性能,其F1值均达到100%。其原因可能在于该6类的编写体例、著录方式以及内容特征较为容易识别。例如,“五经总义类”主要收录五经的综述、考证、义疏、笔记等文献,其内容关键信息主要涉及页码、补遗、考异等,较为容易识别。“政书类”收录范围限定在“国政朝章六官所职者”的职责范围内[60],且其书写内容涉及与“奏报”“守备”“颁诏”类似的关键信息比较明显具体,故分类性能优越。“时令类”主要收录为《四时气候集解》《养余月令》《月令通考》《节序同风录》《时令汇纪》等11种典籍,其内容主要记载“观象授时”“五行图式”“天人关系”等,内容较为明确。“易类”主要是收录除《易经》之外的484部“诂《易经》之说”[61],目的在于“因卜筮以寓教”,其与卜筮相关的内容也较为明确。“编年类”其编纂形式以纵向性特征为主,编年体本身就具有与其他典籍不同的特点。
然而在“史评类”和“史钞类”的分类表现相对较差,其中尤以“史钞类”的分类性能最低,其分类F1值仅有88.42%,位于最低水平。可能的原因在于“史评类”记载内容以收录历史评论或者历史考证类著作为主,是对其他类目著作的再加工,如此便与其他类目典籍产生了密切联系。与此类似,“史钞类”内容也不是原创性的史学著作,或是“专钞一史者”,或是“合钞众史者”,或是“离析而编纂之”,或是“简汰而刊削之”,或是“采摭文句而存之”,或是“割裂词藻而次之”[62],通过裁剪旧史,以更小的篇幅和灵活的编纂方式,“取其要者为一书,以便观览。”[63]诚然,这样的编纂方式具有极强的灵活性,但是史钞编纂所做的分类抵牾之处甚多[64],这就导致了使用古籍大语言模型进行自动分类时的性能不佳。
表6 Xunzi-Baichuan2-7B各类别分类性能
06
总结与展望
本研究基于荀子古籍大语言模型构建了细粒度古籍自动分类模型,该模型以《四库全书》中的典籍内容作为输入来完成对古籍类别的自动分类。通过实验结果,本研究可以得出以下结论:
(1)与目前已经开源的大语言模型相比,荀子古籍大语言模型Xunzi-Baichuan2-7B在古籍自动分类上具有较为明显的优势,其分类效果相较于其基座模型,差距最大时有超过7%的提升,相较于其他大语言模型,最优的性能提升超过83%。
(2)荀子古籍大语言模型Xunzi-Qwen-7B、Xunzi-Glm3-6B、Xunzi-Baichuan2-7B的分类指标分别达到96.19%、96.88%以及96.90%,绝大部分情况下优于其基座模型Qwen-7B、chatglm3-6b-base、Baichuan2-7B的分类指标。说明在垂直领域当中,经过专业训练的大语言模型在特定领域的使用中具有更好的性能和价值。
(3)通过调整大语言模型的微调数据规模发现,荀子古籍大语言模型Xunzi-Baichuan2-7B仅需较少的数据量就能够达到与其他模型相当的分类效果,这为细粒度、低标注数据场景下的古籍分类提供了有效的解决方法,可为低资源场景下的任务实现提供极大的便利。
概而述之,本研究提出的利用领域数据训练的古籍大语言模型实现古籍自动分类的方法,是对古籍自动分类领域的有益尝试,可为古籍自动分类研究提供一定的参考。在后续的模型训练中,将进一步使用指令数据对荀子古籍大语言模型Xunzi-Baichuan2-7B进行训练和微调,以不断提升其在古籍自动分类的性能表现,早日将其应用到古籍自动分类领域的其他下游任务中。
参考文献
作者简介
*原文载于《信息资源管理学报》2024年第5期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
左亮,赵志枭,王东波.基于大语言模型的《四库全书》自动分类研究[J].信息资源管理学报,2024,14(5):23-35.
往期 · 推荐
制版编辑 | 周凡倩
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊