当期荐读 2024年第5期 | “大语言模型下的古籍智能信息处理”专题前言

学术   2024-10-29 16:00   湖北  

 图源 | Internet


  中国古代典籍作为中华优秀传统文化的宝贵结晶,不仅承载着深厚的历史记忆与文化精髓,更在构筑文化自信、推动文化繁荣的征途中发挥着不可估量的作用。《2021-2035国家古籍工作规划》明确提出,加强新技术在古籍数字化工作中的推广应用。党的二十届三中全会进一步指出,加快适应信息技术迅猛发展新形势。随着自然语言处理快速发展,大语言模型成为当前信息技术发展的前沿和趋势,大语言模型与古籍智能处理深度融合具有重要的文化价值,符合国家对新时代古籍工作的要求和战略定位。大语言模型技术能够显著提高古籍整理和研究的效率,推动古籍信息处理的智能化进程。这不仅能为古籍的数字化和现代化提供强有力的技术支持,还会为传承和弘扬中华优秀文化做出重要贡献。本专题以国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)为依托,基于团队自研的荀子古籍大语言系列模型,探讨大语言模型下的古籍智能信息处理理论创新与技术应用。

  首先,专题聚焦荀子古籍大语言模型在细粒度分类和低标注数据场景下的应用价值。结合古籍活化利用的时代需求,选取了《四库全书》部分语料,探究荀子古籍大语言系列模型在古籍自动分类上的表现。与通义千问、百川等通用领域大语言模型相比,荀子古籍大语言模型在古籍分类方面性能更为优异,尤其是Xunzi-Baichuan2-7B大语言模型在细粒度自动分类任务中取得超越基座模型的出色表现。荀子古籍大语言模型(Xunzi-Baichuan2-7B)在古籍自动分类上优势明显,说明垂直领域内经过专业训练的模型具有更优性能和价值,仅依靠少量标注数据即可实现与其他模型相当的分类效果,为细粒度、低资源环境下的古籍分类提供了高效的解决方案。

  再次,专题构建“政策-技术-古籍-用户”四位一体的框架体系,该体系能够为大语言模型下的古籍智能信息处理研究提供全方位指导。结合国家的政策方针,以及以ChatGPT为代表的生成式人工智能技术的快速发展的社会实际,探究大语言模型下古籍智能信息处理的框架体系与实现路径。在探究大语言模型与古籍智能信息处理领域的深度融合之路的过程中,结合信息资源管理学科特色总结出“政策-技术-古籍-用户”四位一体的框架体系,进而从理论路径、技术路径和人文路径三个方面详细阐释了实现路径和可行策略。

  最后,专题构建古籍领域评测任务,为古籍领域模型测评提供了参考标准,填补了古籍处理领域大语言模型性能评测的空白,推动大语言模型在古籍领域的准确性和实用性提升。在“领域大语言模型测评体系日趋成熟,但面向垂直领域的大语言模型测评进展缓慢”的背景下,研究基于多类别的古籍文本数据,从语言运用能力和知识储备两个维度构建了一批古籍领域评测任务,并评估了13个在各大榜单上表现优异的通用领域大语言模型。结果显示,GPT-4模型在古籍语言处理能力维度表现良好,ERNIE-Bot在古籍知识维度表现突出,而开源模型中的ChatGLM系列则表现最为出色。这项针对古籍领域的测评研究不仅为古籍领域大语言模型性能测评提供必要借鉴,也为未来的测评研究建立了可参考的标准。


王东波

2024年9月


*原文载于《信息资源管理学报》2024年第5期,欢迎个人转发,公众号转载请联系后台。


* 引用格式

王东波.“大语言模型下的古籍智能信息处理”专题前言[J]. 信息资源管理学报, 2024, 14(5): 22-22.


往期 · 推荐

当期目录 | 2024年第5期

当期荐读 2024年第5期·观点论文 | 数据生产:概念、场景、技术与审思

当期荐读 2024年第5期·特约稿 | 三大数据资产化路径探析

往期荐读 2024年第4期 | 数字产品适老化研究综述:需求挖掘、障碍分析与优化设计

往期荐读 2024年第4期 | 知识关联视角下标准文档的多粒度知识组织方法研究




制版编辑 | 周凡倩

审核 | 于



长按识别二维码关注我们

信息资源管理学报

微信号

xxzyglxb


分享在看点赞

只要你点,我们就是朋友😊


信息资源管理学报
《信息资源管理学报》是武汉大学主办、武汉大学信息管理学院和武汉大学信息资源研究中心承办的学术类期刊。双月刊,CSSCI来源期刊、中国人文社会科学核心期刊、人大复印报刊资料重要转载来源期刊。
 最新文章