语言学 | 积极推进汉字字料库建设与研究

学术   2024-09-11 11:39   北京  
创新是学术的生命,学术发展离不开新理论、新方法、新技术的运用。近年来,数字技术在汉语言文字学研究领域大放异彩,产生了很多令人耳目一新的理论与实践成果,中文信息处理业已成为汉语汉字研究的一大核心领域。当前,整个社会的数字化发展进程不断加速,而语言文字是数字化的重要载体,语言文字的数字化是社会数字化的基础,利用数字技术对汉语汉字进行系统、全面、深入的研究具有必要性。不过,同已趋于成熟的汉语语料库和汉语语料库语言学相比,利用数字技术来整理和研究汉字的工作,整体上仍落后于汉字整理规范与汉字学研究工作的客观要求。要想改变这种状况,可以在推进汉字字料库建设的同时,建立一门新的汉字学分支学科——字料库汉字学,指导汉字整理研究与规范应用的实践工作。

李国英和周晓文认为,字料库是指“以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础”。之所以要建设汉字字料库,是因为汉语语料库无法有效解决汉字本体研究所面临的诸多问题。汉字字料库通过数据库方式将零散、碎片化的汉字形体资料整合起来,可以为当前的汉字整理研究提供大量真实可靠的资料,是学者从事汉字学及相关学科研究工作值得依赖的一种新工具。大规模的汉字字料库集聚了大量保存着原始字形的文字信息,利用汉字字料库不仅可以进行某一种文献或多种文献用字情况的研究,也可以从共时平面上考察某一时期汉字的使用情况,还可以从历时平面考察跨时代和全景式的汉字发展演变状况。汉字字料库建设与研究是全汉字数字化的必要前提,是今后汉字学研究与全汉字整理工作的一个战略重点,也是保存和传承汉字资源、推动人工智能发展、提升国家文化软实力的基础性工作,值得学术界认真思考并积极推进。具体来说,汉字字料库建设与研究的重要意义主要表现在以下五个方面。

一是促进汉字学研究取得突破。工欲善其事,必先利其器。要想推动数字化时代汉字学研究快速、健康地发展,必须把汉字字料库建设好。汉字字料库是驱动和引领汉字学研究创新发展的原动力,是新时代汉字学研究取得突破的重要基础与基本手段。汉字字料库能够满足学术界对于高质量、大规模的汉字资料日益增长的需求,能够为汉字学、文献学等学科提供大规模、系统化、可检索、可视化的汉字研究资源,学者可以借助汉字字料库开展汉字发展、构形演变、字际关系、字量分析、字频统计、正字规范等方面的深入研究。这种基于字料库、以定量定性相结合为鲜明特征的研究,将推动汉字学及相关学科的共同发展。有理由相信,未来的汉字学研究将越来越依赖汉字字料库。

二是推动数字技术创新与人工智能发展。人工智能、大数据等技术的发展为汉字字料库建设提供了新的机遇和挑战。汉字字料库建设涉及大量的汉字数据处理和数字技术应用,反过来又可以推动计算机科学、人工智能等领域的科技创新,如文字识别、知识图谱构建等,提高人工智能模型的准确性和泛化能力。我们可以从汉字字料库中提取字料数据,构建关于汉字本体及应用的人工智能知识图谱,使它成为汉字研究与学习的辅助工具,从而更直观地展示汉字发展演变的脉络。随着数字技术与人工智能的不断进步,汉字字料库将成为推动数字技术创新与人工智能发展的重要基础资源。

三是有助于挖掘与发现汉字知识。汉字字料库的建设可以将分散的汉字资源进行整合,形成一个规模化、结构化、系统化、标准化的大型数据库,这是推动汉字知识挖掘和发现的关键性资源。而针对汉字字料库的大数据分析和聚类算法,又有助于发现汉字发展和使用的新现象与新规律,为汉字学理论提供数理实证支持。在数字化时代,数据量的大小直接影响到知识挖掘结果的广度和深度以及相关结论的信度和效度。汉字字料库中所收录的字料是来自真实文本中的海量文字材料,其真实性和丰富性有助于挖掘更加真实可信的汉字发生演变规律,并在已有理论基础上建立更加符合汉字发生发展实际的汉字知识框架。

四是为汉字的社会应用提供基础资源。汉字字料库的建设与研究有利于促进汉字资源保护与开发工作的科学化、规模化、普及化。汉字字料库可以应用于汉字教育、字典编纂、文献校勘、信息检索、规范标准制定等多个领域,为社会提供现代化的数据服务和产品,提高教学质量和工作效率,社会应用前景非常广阔。以汉字教育为例,汉字字料库为汉字教育提供了丰富的专业化资源,包括而不限于汉字构形信息、汉字音义信息、汉字字际关系信息、汉字书写(书法)信息、汉字字频信息等。教师可以利用汉字字料库来提取和分析汉字的构形特征、字际关系类型、字体书写属性、字形使用频率等信息,科学认识汉字形体及其变化,从而设计出更有效的教材和课程。这些内容适用于各学段的教学需求,对汉字知识的教育与普及大有裨益。

五是提升在汉字整理研究领域的国际话语权。汉字是中华文明的重要标志,也是传承中华文明的重要载体。汉字是中国的,也是世界的,但归根到底还是中国的。系统整理、研究汉字,并将包括汉字文明在内的中华文明发扬光大,是中国学者必须承担的历史责任。汉字字料库的建设与研究,不能满足于简单以数字化形式保存和传承汉字资源,更重要的是要基于汉字字料库产出更多具有重大国际影响力的原创性研究成果。这有助于展示汉字的文化魅力和汉字整理研究的学术成就,巩固和提升中国汉字整理研究工作在世界范围内的主导地位,增强中国形象、中国文化和中国价值的全球影响力和引领力,为建设具有中国特色、中国风格、中国气派的当代汉字学学科体系、学术体系、话语体系贡献力量。同时,汉字字料库的建设与研究也能够吸引更多的国际学者参与到汉字整理研究中来,构建汉字整理研究的国际学术网络,促进国际间的学术交流和文化对话,推动汉字整理研究的国际化水平,进一步提升中华文明的国际地位和国际影响力。此外,汉字字料库建设在支持国家文化战略、增强国家文化软实力、弘扬民族文化、增强文化自信、规范和引导汉字使用等方面同样也具有重要意义。

数字化时代的汉字整理实践与汉字学理论研究,具有新的特征和新的要求,必须对“如何借助数字技术提升汉字整理与研究的整体水平”这一问题进行战略性、前瞻性研究。汉字字料库的建设与研究是汉字学研究与现代科技发展有机结合的必然趋势,汉字整理规范工作以及汉字信息处理应以科学完备的汉字字料库为支撑。期待汉字字料库能够在汉字学及相关学科研究中创造更大价值,进而为数字化时代汉字学研究范式转型提供可能。

(本文系国家社科基金重点项目“字料库字料属性标注规范研究”(20AYY018)阶段性成果)
(作者系辽宁大学文学院教授)





中国社会科学报
从这里走进中国社会科学。
 最新文章