当期荐读 2024年第5期 | 大语言模型下古籍智能信息处理:构成要素、框架体系与实践路径研究

学术   2024-10-30 16:30   湖北  

图源 | Internet


张 海1,2 赵 雪3 王东波2,3

1.嘉兴南湖学院商贸管理学院,嘉兴,314001;

2.人文与社会计算江苏省高校哲学社会科学重点研究基地,南京,210095;

3.南京农业大学信息管理学院,南京,210095



摘 要

为实现大语言模型与古籍智能信息处理领域的深度融合,丰富信息资源管理学科在古籍智能信息处理领域的理论体系和技术体系,本研究借鉴编码解构的思路,通过对28位领域用户的访谈数据进行编码分析,凝练出大语言模型下古籍智能信息处理的构成要素,进而总结出“政策-技术-古籍-用户”四位一体的框架体系,并以此为基础,结合信息资源管理学科特色,提出了具体实践路径。研究结果显示,政策因素、技术因素、古籍因素和用户因素是大语言模型与古籍智能信息处理领域深度融合的关键要素,最后结合大语言模型技术和古籍智能信息处理领域的发展实际,从理论路径体系、技术路径体系和用户服务体系三个方面详细阐释了实践路径和可行策略。

关键词


大语言模型 生成式人工智能 技术韧性 古籍智能信息处理 框架体系 实践路径


引用格式

张海,赵雪,王东波.大语言模型下古籍智能信息处理:构成要素、框架体系与实践路径研究[J].信息资源管理学报,2024,14(5):36-44.



01

  引言

党的二十大报告指出“增强中华文明传播力影响力”“推进文化自信自强,铸就社会主义文化新辉煌”[1]。古籍文献是中国传统文化的重要载体,开展古籍文献工作已成为弘扬中国传统文化、提升文化传播力和影响力的关键途径。为了充分发挥古籍文献的价值,2022年4月,中共中央办公厅和国务院办公厅联合发布了《关于推进新时代古籍工作的意见》[2];同年10月,全国古籍整理出版规划领导小组印发了《2021—2035年国家古籍工作规划》,规划中明确提出应“统筹古籍数字化建设”“实施国家古籍数字化工程,优化古籍数字化工作布局”[3]。意见和规划的出台在业界和学界引起强烈的反响,古籍数字化研究掀起了新一轮热潮。

  以ChatGPT为代表的生成式人工智能技术的快速发展,为社会经济发展和学术研究带来了新的机遇和契机。在大语言模型的推动下,古籍文献的知识标注、知识组织等传统信息资源管理学科的研究范畴焕发了新的动力和生机[4],产生了一批有影响力的成果。例如,张智雄等[5]呼吁古籍智能信息处理研究需要密切关注大语言模型、生成式人工智能等信息技术的发展动向,以技术赋能的形式促进古籍智能信息处理的发展;张君冬等[6]基于Ziya-LLaMA-13B-V1 开源模型,构建中医药古籍文献领域版的“ChatGPT”,实现大型语言模型与中医药古籍文献的深度融合,为该领域探索提供了新的方向;刘江峰等[7]专注于古诗词领域,以《四库全书》无标点语料为基础,利用预训练模型探索了SikuGPT在古诗词自动生成方面的潜力,这一研究为古诗词领域的发展开辟了新的可能性;王东波教授团队[8]研发了国内首个古籍大模型,该模型具备自然语言理解、自动翻译、自动标引等功能。以上研究表明,大语言模型正成为国内古籍研究的热点,而生成式技术为古籍大语言模型的发展提供了强大的支持和动力。

  然而,现有研究多针对中医药、古诗词等特定领域展开,偏重于具体领域的应用研究,对于大语言模型下古籍智能信息处理的理论指导意义有限。因此,本研究围绕着大语言模型下古籍智能信息处理这一研究主题,从构成要素、框架体系和实践路径三个维度分别论述大语言模型下古籍智能信息处理的发展脉络和特征规律,为丰富信息资源管理学科的理论体系,促进大语言模型与古籍智能信息处理的深度融合提供必要借鉴。



02

数据来源与数据分析

2.1 数据来源

本研究属于理论探究性研究,属于质性研究范畴。质性研究大多通过深度访谈、走访调研的形式获取原始研究数据[9]。结合本次研究主题,大语言模型下古籍智能信息处理属于新兴的研究事物,通过访谈的形式更能够直观、细粒度地揭示研究主题的本质和规律。考虑到研究主题的特殊性,在访谈对象的选取上,课题组制定了如下遴选标准:第一,从事相关领域研究,围绕着古籍智能信息处理和大语言模型等相近主题在信息资源管理领域的CSSCI期刊至少发表2篇文章;第二,对古籍智能信息处理和大语言模型有深刻理解,能够阐述自身对生成式大语言模型在古籍智能信息处理中的定位及诉求,并且能够在访谈过程中准确、清楚地阐述自己的观点和看法;第三,受访对象一般具有博士学位(含博士研究生)。根据上述标准,课题组遴选出符合条件的受访对象32人,其中男性22人、女性10人,具有高级职称占比达到65%以上,约有75%的受访对象来自高校(含图书馆员)。

  在正式访谈开始之前,课题组随机选取5名受访者进行预调研。根据受访对象的回答和意见反馈对访谈提纲进行修改完善,形成正式访谈大纲。正式访谈开始之前,课题组将访谈大纲提供给正式访谈对象进行内容熟悉。正式访谈采取线上和线下相结合、一对一的形式进行,以约定好的时间、地点以及访谈形式开始正式访谈。整个访谈过程基本围绕着访谈提纲展开,在具体内容上,课题组会根据受访对象的回答和访谈状态就某一具体问题进行深入交流。访谈提纲主要包含对大语言模型、生成式人工智能、古籍智能信息处理等具体内容的理解和看法。单个访谈时间基本控制在35分钟左右,整个访谈过程在征得受访对象的同意下进行录音和录像。历时30天,共完成28人的访谈,另外4人因个人原因放弃访谈。随后课题组将音频数据进行“转译”,形成文本信息,在转译过程中,课题组随时与受访对象进行讨论和校对,保证原始文本数据的客观性和准确性。

2.2 数据分析

为了准确、客观地刻画大语言模型下古籍智能信息处理的构成因素与框架体系,需要对原始文本数据进行加工和处理。课题组借鉴扎根理论编码解构的思想,主要采取开放式编码和主轴编码两种形式对原始文本数据进行编码解读,以发现大语言模型下古籍智能信息处理的构成要素与运行规律。为了保证编码结果的准确性和客观性,课题组成立了两个编码小组,分别由经验丰富的高校教师带领进行编码解构。编码小组每完成编码任务的1/3时,小组成员会根据编码内容进行讨论分析以确定编码标准,只有两个编码小组的编码结果相似程度达到90%以上,同时另外三名专家教师认可编码结果时,开放式编码才算结束[10]

  开放式编码主要是将原始文本数据进行打散、分解,以提炼初始概念。在开放式编码阶段,课题组随机选取其中的20份访谈数据作为原始数据,并根据原始数据的特点,采用原文编码和概念性编码的方式对原始文本数据进行层层解码[11]。譬如,针对原始文本数据“古籍数字化进展缓慢,古籍文献与现代文献相比,晦涩难懂,普通用户利用困难”,编码小组主要采取原文编码方式,提炼文本信息的关键点,提出“古籍数字化”“古籍数据质量”等初始概念;而针对侧重于概念描述的原始数据,如“着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展”,编码小组主要进行概念化编码,提炼原始数据中的关键内容与社会现象,形成“政策意见”等初始概念。与此同时,对于多处原始文本数据中都提到的内容和描述,只进行一次编码。由于开放式编码形成的初始概念编码体系过于庞大,课题组将一些与研究主题关联度不大、表述内容相近或相似以及出现频次过少的无效和冗余初始概念剔除后,得到初始概念体系,为主轴编码分析奠定基础。开放式编码阶段共得到有效初始概念64个,具体信息如表1所示。随后,编码小组在初始概念体系的基础上,借鉴主轴编码思想对初始概念和范畴进行关联和归类,提炼出相近初始概念的共同特征,形成独立范畴和特征维度,进而提炼出大语言模型下古籍智能信息处理的构成要素。

表1 编码分析结果(部分)

2.3 理论饱和度检验

理论饱和度检验是衡量编码分析结果可靠性和完整性的重要环节。为了确保编码分析环节的科学性和严谨性,课题组采取“定性+定量”的方式验证编码分析结果。在定性验证方面,将余下的8份原始文本数据进行编码分析,经过专家确认没有新的概念和范畴出现后,又随机选取3名领域专家进行访谈,补充访谈的编码分析结果中也没有出现新的概念和范畴,由此可以推断本研究的理论饱和度符合要求[12]。在定量验证方面,课题组计算了初始概念和独立范畴的相关系数。数据结果显示 Cohen's kappa 系数是0.917,P<0.01,编码分析结果在可靠性和一致性方面达到要求。经过上述验证,可以看出大语言模型下古籍智能信息处理的编码分析体系较为科学和完整。



03

大语言模型与古籍智能信息处理
深度融合框架体系构建

课题组以编码解构为基础,形成大语言模型下古籍智能信息处理的构成要素。研究结果显示,政策因素、技术因素、古籍因素和用户因素是构建大语言模型下古籍智能信息处理的重要维度和范畴。在考虑信息资源管理学科特色及社会发展实际、统筹上述要素和范畴的基础上,课题组基于“政策-技术-古籍-用户”四个维度构建大语言模型与古籍智能信息处理深度融合研究框架体系,具体信息如图1所示。

图1 大语言模型与古籍智能信息处理深度融合框架体系

3.1 政策维度是大语言模型与古籍智能信息处理深度融合的驱动力

大语言模型赋能古籍智能信息处理与国家政策高度契合。具体而言,政策因素可以细分为古籍政策、技术政策以及国家战略三个维度。在古籍政策维度,古籍作为中国传统文化的重要载体一直受到国家的重视。超过2/3的受访者提及2022年先后出台的有关古籍保护和古籍工作的意见和工作规划,相关政策对于古籍智能信息处理工作具有重要的指导意义。其中《2021—2035年国家古籍工作规划》不仅将古籍数字化列为古籍工作的重点研究方向,还将古籍数字化进一步细化和落地,驱动以大语言模型为代表的信息技术与古籍工作的深度融合。在技术政策维度,约有1/3的受访者提及习近平总书记的重要指示,尤其是在中国人民大学考察调研时强调:“要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念和道德规范,推动中华优秀传统文化创造性转化、创新性发展。”[13]此外,也有受访者提及,政府相关部门鼓励生成式人工智能在各行业和各领域创新应用,倡导构建应用生态体系。上述利好政策为大语言模型在古籍智能信息处理领域的深耕奠定了坚实基础。在国家战略维度,公共文化数字化战略是受访者提及最多的战略,《关于推进实施国家文化数字化战略的意见》[14]明确指出,数字化工作原则是“科技支撑,创新驱动”,即“促进文化和科技深度融合,集成运用先进适用技术,增强文化的传播力、吸引力、感染力。”有受访者提出,公共文化数字化战略对于夯实技术基础设施、实现古籍数据的共建共享具有重要的意义;也有受访者认为,大语言模型的发展离不开高质量的海量数据,国家文化数字化战略搭建数据市场,对于古籍数据的共建共享,提升古籍领域大语言模型的性能具有重要的意义。

3.2 技术维度是大语言模型与古籍智能信息处理深度融合的关键

技术驱动是古籍智能信息处理领域实现创新发展的关键动力之一。研究结果显示,与技术相关的指标主要包括技术韧性、技术拟人性和技术伦理。其中技术韧性和技术拟人性反映了大语言模型及生成式人工智能的技术优势与技术特色。约1/3的受访者表示,生成式人工智能是一把双刃剑,在提高知识效率的同时,也可能产生不容忽视的负面效应,因此需要关注生成式人工智能技术的社会适应力和韧性力。在古籍智能信息处理与大语言模型深度融合的过程中,需要及时关注生成式人工智能技术的自我修改和适应社会发展的能力,也要围绕着古籍智能信息处理领域的特点与要求,融入高质量的古籍文献数据和古籍领域知识,对大语言模型进行微调和改造,提升大语言模型技术在古籍智能信息处理这一垂直领域的技术韧性和技术适应性。技术拟人性指的是大语言模型技术融入人类反馈机制,输出符合人类语言特点的信息,在交流方式上采取多轮交互式的人机对话,符合用户语言交流习惯的能力。部分受访者认为,技术拟人性是大语言模型的技术优势之一,但是就古籍智能信息处理领域而言,由于古籍文献数据的特殊性,技术拟人性很可能会误导用户的判断,为虚假信息的传播扩散提供空间和可能。技术伦理指的是大语言模型及生成式人工智能在人机交互过程中的技术伦理体系。不少受访者也提出,需要结合古籍智能信息处理领域的特点,做负责任的人工智能。根据生成式人工智能的发展特点,技术伦理问题很可能会出现在以下三个方面:第一,算法“黑箱”和运行机制不透明导致的沟通不顺畅;第二,大语言模型出现知识幻觉导致的知识服务不可靠;第三,以概率预测为核心的信息输出模式,缺乏价值观念约束导致的信息内容不可靠等。围绕着人机交互的良性互动关系的技术伦理体系是大语言模型与古籍智能信息处理深度融合的重要保证。

3.3 古籍维度是大语言模型与古籍智能信息处理深度融合的痛点

古籍数字化是古籍文献领域的未来发展方向,当前的古籍数字化虽然建立了一系列数据库和知识库,但是与社会需求及完成传承和弘扬中国传统文化、实现文化自信的历史使命还存在较大差距。研究结果显示,古籍智能信息处理在古籍数字化、古籍数据质量和古籍平台质量三个方面存在难点和痛点,这为大语言模型技术提供了应用场景。在古籍数字化方面,不少受访者认为,古籍数字化是古籍文献活化利用的必经之路,但当前的古籍数字化层次还偏低、体系不完善。古籍数字化基本局限在古籍文献的扫描整理以及知识库的构建等范畴,基本停留在简单的数理统计和数据挖掘阶段,技术驱动明显不足,距离藏用结合的目标还存在较大差距。在数字人文研究的推动下,古籍数字化逐渐成为信息资源管理领域研究的热点和焦点。在蓬勃发展的同时,也要清醒地认识到古籍数字化研究存在的局限和不足,其中最典型的问题就是缺少整体规划,古籍数字化研究基础设施建设薄弱。

  就古籍数据质量和古籍平台质量而言,现有的数字化成果还不能够完全满足公众需要,已有的古籍平台提供的知识服务,多数是题录检索及内容影像,支持字符检索及深度知识挖掘的服务平台较少。古籍文献数字化数据缺乏统一标准,古籍文献知识库和知识平台的共建共享服务不足,各研究机构的数据集合难以真正流通和共享,出现“信息孤岛”现象。如《关于推进实施国家文化数字化战略的意见》指出的“加快文化数字化建设标准研究制定,健全文化资源数据分享动力机制”,是实现信息资源管理领域古籍数字化研究进一步发展的关键。

3.4 用户维度是大语言模型与古籍智能信息处理深度融合的导向

研究结果显示,古籍用户更关注服务平台的有用程度和潜在风险,超过2/3的受访者认为,大语言模型、生成式人工智能能够有效降低古籍智能信息处理的难度,提高用户的使用体验。受访者看好大语言模型的发展前景,认为大语言模型和生成式人工智能技术是未来的发展趋势,也想了解和掌握相关技术,提高自身的信息素养。也有一些受访者表示,大语言模型和生成式人工智能属于自己的知识盲区,很担心技术方面引发的数据风险和隐私泄露风险以及可能产生的社会风险。因此,在大语言模型与古籍智能信息处理深度融合的过程中,需要充分调研用户的需求,以用户的有用感知为导向,进行古籍智能知识服务和知识库建设。在建设过程中需要及时研判建设风险点和技术风险点,做好技术风控和风险规避预案,切实将大语言模型与古籍智能信息处理深度融合过程中可能产生的风险降到可控范围之内。与此同时,还可以鼓励和支持用户积极参与大语言模型与古籍智能信息组织处理深度融合进程,以深度融合为契机,引导用户理解和使用大语言模型[15],提升用户对大语言模型的认同感,以大语言模型和生成式人工智能技术为基础,有意识培养用户在大语言模型情境下信息需求表达、信息检索以及技术使用等信息能力和信息素养,将用户的信息素养教育融入大语言模型与古籍智能信息处理的实践进程。



04

大语言模型与古籍智能信息处理
深度融合实践路径分析

本研究以大语言模型下古籍智能信息处理的构成要素为依据,从政策维度、技术维度、古籍维度和用户维度四个方面构建了大语言模型与古籍智能信息处理深度融合的框架体系。为了将大语言模型与古籍智能信息处理深度融合落到实处,切实发挥信息资源管理学科的特色,本研究围绕着大语言模型与古籍智能信息处理的发展实际,结合信息资源管理学科的研究特色与研究内容,从理论体系、技术体系和用户服务体系三个视角详细阐释大语言模型赋能古籍智能信息处理的实践路径。

4.1 理论路径:大语言模型下古籍智能信息处理理论体系构建

大语言模型技术的出现,对于重塑古籍智能信息处理的研究逻辑与信息资源管理学科的学术体系具有重要的意义[16]。自从信息资源管理学科更名以来,其研究外延不断优化。古籍数字化研究质量问题已成为信息资源管理领域的重要组成部分。然而,古籍数字化的基础理论研究仍相对薄弱,重实践应用、轻理论基础的现象在信息资源管理领域的古籍数字化研究中依然较为突出。上述研究结果显示,要想实现大语言模型与古籍智能信息处理的深度融合,需要深入研读相关古籍政策与技术政策,以国家政策与现实需求为导向,根据古籍数字化与传承和弘扬中国传统文化的实际进程,构建大语言模型下古籍智能信息处理理论体系,具体包括政策理论体系、数据理论体系和评价理论体系等。

  在政策理论体系方面,需要统筹与生成式人工智能、古籍数字化等主题相关的政策文件与文化战略,为大语言模型与古籍智能信息处理的深度融合奠定理论基础。以《2021-2035国家古籍工作规划》为例,需要在规划的指导下,重点实现古籍专题知识库构建研究。古籍专题知识库可以分专题、分领域,最终完成集成性古籍知识库的建设。按照学科分类,可以打造科技典籍专题数据库、中医药古籍专题数据库、历史灾害智能服务平台等,通过专题数字资源库的建设,实现古籍数字化的纵深发展和面向专业领域的垂直发展。在做大做强古籍综合数据库、不断扩大古籍数字化横向面积的同时,配合专题数据库的纵深发展,最终实现古籍数字资源基础设施的全面发展。

  在数据理论体系方面,首先需要加强顶层设计,古籍智能信息处理应以保护和传承中华优秀传统文化为核心,以大语言模型技术为手段,实现数字化古籍到高质量古籍数据的转变,涵盖古籍数据转化、整理、存储与流通共享等。围绕数据的流通与共享,打造古籍数字化基础设施;在数据资源基础设施建设过程中可以充分考虑和借鉴指导性文件,制定一系列的古籍数字化标准和学术规范,促进古籍数据的共建共享和相关机构与相关学科的交流融合。未来的研究应重视古籍数据建设质量,包括古籍数据标注和古籍文本结构化质量,切实解决古籍数字化研究中的数据质量问题。

  此外,与之相适应的评价理论体系是确保大语言模型下古籍智能信息处理高质量发展的关键保障,其评价内容应涵盖古籍数据化标准、元数据的规范性与完整性、数据资源的有效整合、知识标注的准确性、数据共享的便捷性及数字化推广的广泛性与影响力等多个方面。例如,在古籍数据资源的有效整合方面,评价应关注数据的完整性、一致性和可用性,避免重复性资源建设。

4.2 技术路径:符合古籍数字化发展需求的技术体系构建

大语言模型和生成式人工智能是实现古籍智能信息处理高质量的重要驱动力[17],尤其是在技术韧性和技术拟人性两个技术维度的优势尤为明显。本研究还发现,以人机交互为核心的技术伦理体系建设是确保大语言模型与古籍智能信息处理深度融合的前提和重要保证。因此,围绕古籍数字化与生成式人工智能的发展规律,构建与之匹配的技术体系是当前技术发展的当务之急[18]。技术体系构建首先要构建技术伦理规则,技术伦理规则在确保大语言模型与古籍智能信息处理和谐有序发展的前提下,应当以求真、求善和求美为共同价值取向。大语言模型技术本质上是以海量语料为基础进行的概率预测分析,受到语料质量的影响,很可能会输出一些虚假劣质信息,因此,一味地追求技术拟人性,过度迎合用户的需求,不利于大语言模型技术的深度发展。在古籍智能信息处理过程中,需要融入真善美的价值观,确保向善、向美的传统价值观贯穿于大语言模型与古籍智能信息处理深度融合的全过程。此外,技术体系构建还应包括古籍智能数字化平台建设,现有的古籍数字化平台虽然能够满足用户基本的古籍查询和检索需求,然而古籍数字化建设体系庞大,涉及到情报学、文献学、计算机科学等众多学科,现有平台在个性化服务和精准利用等方面与智能化及用户期望还存在较大差距,未来的研究与实践需要以大语言模型为基座,着力提升古籍数字化平台的智能化水平,为用户提供个性化智慧服务。

4.3 人文路径:构建具有信息资源管理学科特色的古籍数字化服务体系

从学科属性来看,信息资源管理学科隶属于人文社会科学,应当将人文关怀和人文精神贯穿于学术研究的全过程。古籍数字化服务不仅促进了人文学科与信息技术的深度融合,还为学科建设提供了新的研究视角与实践平台,推动了学科的创新发展与跨学科合作。信息资源管理二级学科的调整,正是在此背景下的体现。古籍数字化服务体系立足于古籍保护与文献学的基础之上,将人文的理念与数字技术、方法相结合,以实现对古籍资源的全面整合与有效利用,为古籍保护和传承开辟新的路径。具体来说,信息资源管理学科的古籍智能信息处理研究要结合传承和弘扬中国传统文化的时代背景,深度解读古籍文献并深入挖掘背后的人文精神,凸显古籍文献的时代意义。这一学科服务体系可以将古籍文献中蕴含的人文内涵、知识价值等提取出来,服务于新质生产力的建设,采取基于知识服务、知识消费的数字化建设,探索一条从学术走向实践的数字人文发展之路。因而,需要优化现有信息资源管理课程体系、学科体系,强化古籍基本知识的培养,提升信息资源管理领域科研人员的古籍知识和古籍意识。伴随着古籍数字化研究的逐渐深入和纵深化发展,厘清古籍整理和古籍工作的本质和规律愈发重要,以用户为导向能够切实提升信息资源管理领域研究在古籍数字化整理、知识组织与智能化处理的能力与效果。如本次研究结果所示,用户因素是实现大语言模型与古籍智能信息处理深度融合的重要一环。然而,现有研究在古籍数字化用户行为和需求分析方面存在短板,因此后续研究要以用户为中心,调研古籍数字化用户,深入分析古籍数字化用户的需求。信息时代,尤其是在以市场经济为主体的当今时代,用户的需求和体验在一定程度上决定着信息系统和应用程序的生死,从ChatGPT 的爆火可以看出,用户渴求高质量的数据资源和人性化的信息系统。信息资源管理领域的学者应该充分发挥研究专长,重视分析和判断古籍数字化用户的需求和难点。在有序传承古籍文献和传统文化的基础上,以用户为中心,以市场为导向,积极研发和生产符合用户需求和市场要求的数据资源和数据库,积极推动古籍数字化朝着市场化方向发展。



05

结语

在追求古籍文献活化利用的关键时期,充分利用生成式人工智能等新质生产力,真正实现大语言模型赋能古籍智能信息处理质的飞跃,真正突破古籍数字化领域当前的发展瓶颈,是当前数字人文领域关注的重点和难点问题。本研究通过编码解构访谈文本,深入探讨大语言模型下古籍智能信息处理的构成要素、框架体系,进而提出具体的实践路径。研究结果显示,政策因素、技术因素、古籍因素和用户因素是当前大语言模型赋能古籍智能信息处理的关键要素。以此为基础,提出“政策-技术-古籍-用户”四位一体的大语言模型与古籍智能信息处理深度融合框架体系,详细阐释了各框架要素的作用和功能。最后,结合技术发展实际和古籍智能信息处理存在的现实问题,提出构建理论体系、技术体系和用户服务体系等具有信息资源管理学科特色的实践路径,为大语言模型与古籍智能信息处理的深度融合、切实提升信息资源管理学科在古籍文献智能处理领域的学术话语权提供了参考借鉴。

  本研究还存在以下不足:第一,虽然搜集和整理了相关文献数据,但是原始数据基本以访谈数据为主体,数据规模偏小,数据来源也较为单一,后续的研究需要继续扩大样本数量,融合用户评论、客观数据等更具代表性的二手数据,提升数据规模和扩大数据来源,提高研究结果的可信度和代表性;第二,从研究范式分析,本研究属于质性研究,在数据搜集和数据整理阶段虽然符合质性研究规范,但是研究过程难免会受到知识结构、先验经验等主观因素的影响,未来的研究需要引入量化研究范式,对提出的关键要素和框架体系进行实证检验,提高研究结果的科学性和客观性。



参考文献

[1] 习近平.为实现党的二十大确定的目标任务而团结奋斗[J].求是,2023(1):4-14.(Xi J P.Unite and struggle to achieve the goals and tasks set by the 20th National Congress of the Communist Party of China[J].Qiushi,2023(1):4-14.)

[2] 中共中央办公厅 国务院办公厅印发《关于推进新时代古籍工作的意见》[EB/OL].[2024-03-22].https://www.gov.cn/gongbao/content/2022/content_5687500.htm.(The General Office of the Central Committee of the CPC and the General Office of the State Council print and issue the opinions on advancing the work of ancient classics in the new era[EB/OL].[2024-03-22].https://www.gov.cn/gongbao/content/2022/content_5687500.htm.)

[3] 2021-2035年国家古籍工作规划[EB/OL].[2024-03-22]. https://www.nppa.gov.cn/nppa/upload/files/2022/10/4efbd7cf503c081e.pdf.(The national plan for preservation and publication of ancient books(2021-2035)[EB/OL].[2024-03-22].https://www.nppa.gov.cn/nppa/upload/files/2022/10/4efbd7cf503c081e. pdf.)

[4] 赖茂生.学科转型,我们准备好了吗?[J].情报资料工作,2023,44(1):15-16.(Lai M S.Discipline transformation,are we ready?[J].Information and Documentation Services,2023,44(1):15-16.)

[5] 张智雄,曾建勋,夏翠娟,等.回应AIGC的信息资源管理学人思考 [J].农业图书情报学报,2023,35 (1):4-28.(Zhang Z X,Zeng J X,Xia C J,et al.Information resource management researchers' thinking about the opportunities and challenges of AIGC[J].Journal of Library and Information Science in Agriculture,2023,35(1):4-28.)

[6] 张君冬,杨松桦,刘江峰,等.AIGC赋能中医古籍活化:Huang-Di大模型的构建[J/OL].图书馆论坛.[2024-03-03].http://kns.cnki.net/kcms/detail/44.1306.G2.20240124.1341.002.html.(Zhang J D,Yang S H,Liu J F,et al.AIGC empowering the revitalization of traditional Chinese medicine ancient books:A study on the construction of the Huang-Di large language model[J/OL].Library Tribune.[2024-03-03].http://kns.cnki.net/kcms/detail/44.1306.G2.20240124.1341.002.html.)

[7] 刘江峰,刘雏菲,齐月,等.AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究[J].情报理论与实践,2023,46(5):23-31.(Liu J F,Liu C F,Qi Y,et al.A practical exploration of AIGC-powered digital humanities research:A SikuGPT driven research of ancient poetry generation[J].Information Studies:Theory & Application,2023,46(5):23-31.)

[8] 李晨.与“荀子” 对话:古籍版ChatGPT发布[N].中国科学报,2023-12-15(004).(Li C.A dialogue with Xunzi: An ancient text version of ChatGPT released[N].China Science Daily,2023-12-15(004).)

[9] 张海,陈宇轩,王东波.信息资源管理领域数字人文研究特征、研究体系及构建路径[J].情报理论与实践,2024,47(2):70-76.(Zhang H,Chen Y X,Wang D B.Digital humanities in information resource management research characteristics,research system,and construction paths[J].Information Studies:Theory & Application,2024,47(2):70-76.)

[10]张海,刘畅,王东波,等.ChatGPT用户使用意愿影响因素研究[J].情报理论与实践,2023,46(4):15-22.(Zhang H,Liu C,Wang D B,et al.Research on the influencing factors of ChatGPT users' intention[J].Information Studies:Theory & Application,2023,46(4):15-22.)

[11]谢靖,张海,王东波.信息资源管理学科融合新质生产力:构成要素、研究体系及推进路径[J].图书馆工作与研究,2024(4):5-12,60.(Xie J,Zhang H,Wang D B.Integration of new quality productivity in the discipline of information resource management:Constituent elements,research system,and promotion path[J].Library Work and Study,2024(4):5-12,60.)

[12]乐承毅,朱欣雅.在线品牌社区用户参与价值共创的互动行为转换机制——基于扎根理论的研究[J].信息资源管理学报,2023,13(3):124-139.(Le C Y,Zhu X Y.Online brand community users' interaction behavior transformation mechanism for value co-creation:Based on grounded theory[J].Journal of Information Resources Management,2023,13(3):124-139.)

[13]康岩.把古籍典藏保护好、利用好[N].人民日报,2022-05-16(005).(Kang Y.Protect and utilize ancient book collections well[N].People's Daily,2022-05-16(005).)

[14]中共中央办公厅国务院办公厅印发《关于推进实施国家文化数字化战略的意见》[EB/OL].[2024-05-16].https://www.gov.cn/xinwen/2022-05/22/content_5691759.htm.(The Central Committee Office and the State Council Office have jointly issued the opinions on promoting the implementation of the national strategy for cultural digitization[EB/OL].[2024-05-16].https://www.gov.cn/xinwen/2022-05/22/content_5691759.htm.)

[15]赵瑞雪,黄永文,马玮璐,等.ChatGPT对图书馆智能知识服务的启示与思考[J].农业图书情报学报,2023(1):29-38.(Zhao R X,Huang Y W,Ma W L,et al.Insights and reflections of the impact of ChatGPT on intelligent knowledge services in libraries[J].Journal of Library and Information Science in Agriculture,2023(1):29-38.)

[16]刘琼,刘桂锋,卢章平,等.谋求与突破:ChatGPT对信息资源管理学科的影响与启示[J].信息资源管理学报,2023,13(5):73-78.(Liu Q,Liu G F,Lu Z P,et al.Seeking and breaking through:ChatGPT illuminating the way ahead for the discipline of information resource management[J].Journal of Information Resources Management,2023,13(5):73-78.)

[17]朱丹浩,赵志枭,吴娜,等.基于领域大语言模型的古籍分词研究[J].科技情报研究,2024(2):11-20.(Zhu D H,Zhao Z X,Wu N,et al.Research on word segmentation of ancient books based on domain large language model[J].Scientific Information Research,2024(2):11-20.)

[18]陆伟,杨金庆.数智赋能的情报学学科发展趋势探析[J].信息资源管理学报,2022,12(2):4-12.(Lu W,Yang J Q.Exploration on the development trend of information science in the era of data intelligence empowerment[J].Journal of Information Resources Management,2022,12(2):4-12.)


作者简介

张海,副教授,博士研究生,研究方向为数字人文、用户信息行为;

赵雪,博士研究生,研究方向为数字人文;

王东波(通讯作者),教授,博士,博士生导师,研究方向为数字人文、智能信息组织,Email:db.wang@njau.edu.cn。

*原文载于《信息资源管理学报》2024年第5期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

张海,赵雪,王东波.大语言模型下古籍智能信息处理:构成要素、框架体系与实践路径研究[J].信息资源管理学报,2024,14(5):36-44.


往期 · 推荐

当期目录 | 2024年第5期

当期荐读 2024年第5期 | “大语言模型下的古籍智能信息处理”专题前言

当期荐读 2024年第5期 | 基于大语言模型的《四库全书》自动分类研究

当期荐读 2024年第5期·观点论文 | 数据生产:概念、场景、技术与审思

当期荐读 2024年第5期·特约稿 | 三大数据资产化路径探析



制版编辑 | 周凡倩

审核 | 于   媛



长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb


分享在看点赞

只要你点,我们就是朋友😊


信息资源管理学报
《信息资源管理学报》是武汉大学主办、武汉大学信息管理学院和武汉大学信息资源研究中心承办的学术类期刊。双月刊,CSSCI来源期刊、中国人文社会科学核心期刊、人大复印报刊资料重要转载来源期刊。
 最新文章