杨尔弘等：大语言模型的中文文本简化能力研究

学术 2024-09-11 18:12 北京

2024年第5期

专题研究一

大语言模型

作者简介

杨尔弘

北京语言大学教授，主要研究方向为语言信息处理、语言资源建设。

朱君辉

北京语言大学在读博士研究生，主要研究方向为语言资源学。

朱浩楠

北京语言大学在读硕士研究生，主要研究方向为语言学及应用语言学。

宗绪泉

北京语言大学在读硕士生，主要研究方向为自然语言处理。

杨麟儿

北京语言大学副教授，主要研究方向为人工智能、自然语言处理、智能教育。

大语言模型的中文文本简化能力研究

杨尔弘，朱君辉，朱浩楠，宗绪泉，杨麟儿

（北京语言大学　国家语言资源监测与研究平面媒体中心/信息科学学院　北京　100083）

提要 大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力，本研究构建了中文篇章级文本简化数据集，对其中的平行文本对进行了特征分析；在此基础上，设计大语言模型自动文本简化实验，采用零样本、少样本、少样本+词表和少样本+规则这4种提示策略，综合已有的和本研究特有的语言特征评估指标，测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现，少样本提示策略在文本特征上表现最佳，显著提高了信息保存度；在提示中加入外部词表，有助于大语言模型使用相对简单的词语；在提示中融入简化规则，能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限，但在语篇衔接与连贯和段落划分上与人类专家存在明显差距，且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集，多角度诱导语言大模型的文本简化能力。

关键词 中文文本简化；大语言模型；语言特征分析

一、引　言

文本简化（Text Simplification，TS）是指将文本中复杂的语言表达改写得容易理解的过程（Crossley et al. 2012）。出于不同目的，中文文本简化广泛用于多个场景之中，如国际中文教材编写、政府行政公文发布、信息无障碍建设及语言应急服务等。无论是国际中文教师为语言水平有限的留学生准备“读得懂”的阅读素材，还是政府或媒体通过有一定中文基础的外籍来华人士向世界“讲好中国故事、传播好中国声音”，对中文文本简化都有着较大的需求（郭凯，金檀，陆小飞2018；熊文新2021；张莉2023）。但同时，对篇幅较大的文本进行简化是一项非常复杂的任务，很难准确地描述出简化的规则及方法，即使对于教学经验丰富的国际中文教师来说，也极具挑战性，往往只能凭借抽象的教学经验或个人直觉，工作量大，时间成本高。近年来，尽管诸多学者强调了建设简化文本库的必要性（汲传波，李宇明2020），探索了简化应当考虑的因素和具体方法（张莉2023），但规模化的中文文本简化仍然难以令人满意。

面对这一现实需求，自动文本简化（Automatic Text Simplification，ATS）成为重要的研究任务。自动文本简化属于文本生成（Text Generation，TG）范畴，其技术核心是训练模型学习人类专家简化文本的方法，这些方法主要蕴含于一定规模的简化数据集——简化前后的平行文本对。因而，在自动文本简化的研究中，建构简化数据集、开发训练计算模型、评估简化效果是3个关键问题。高质量大规模的简化数据集是模型开发的基础资源，它相当于给简化规定了目标，同时也是支撑技术发展的物质基础。然而，当前的中文简化数据集十分匮乏。如何在人类专家建构的小规模简化数据集上提升自动简化技术，是中文自动简化研究的一个核心问题。大语言模型（Large Language Models，LLMs，以下简称大模型）在文本生成上取得了突破性的进展，其特点之一是通过接受小样本的提示诱导后，便可以定向提升性能，因而，大模型为自动文本简化带来新的研究视角。对于简化效果评估，当前主要借用机器翻译、文本摘要、文本可读性等领域的指标，这些指标还无法全面准确地反映自动简化的质量。

使用大模型进行文本简化，需要解决3个问题。（1）选择什么大模型进行文本简化？这需要对不同的大模型进行简化能力测试。（2）如何诱导、激发出大模型的文本简化能力？这需要根据包括简化数据集在内的资源设计提示、引导策略。（3）如何评价大模型的文本简化效果？这需要有合适的测试数据集与评估指标、评估方案。

本研究旨在探究不同大模型在不同提示、引导策略下的篇章级文本简化能力。研究内容包括：构建中文篇章级简化数据集；选取国内外表现优异、使用广泛的6种不同大模型，通过提示、引导进行文本简化实验；依据数据集提出了一种新的评估方案，以全面评估大模型简化文本的面貌。

二、研究现状

对应自动文本简化的3个关键问题，本研究使用大模型引导其文本简化能力，因而不涉及研发大模型的研究，仅阐述与简化数据集、简化结果评估相关的研究。

（一）文本简化数据集

Petersen & Ostendorf（2007）最早应用自动文本简化技术准备英语作为外语教学的学习文本，构建了首个平行英语简化语料库，但规模较小。现阶段大多数研究主要关注句子级别的简化，经典的基于简单维基百科的句子级数据集PWKP（Zhu et al. 2010）、SEW（Coster & Kauchak 2011）是简化研究中的常用数据集。多数文本简化应用需求聚焦在篇章级，Newsela（Xu et al. 2016）是公认较为经典且公开的篇章级英文新闻数据集。

中文简化研究起步晚，简化数据集较少，主要集中于句子层面的研究，如句子简化数据集MCTS（Chong et al. 2024）。篇章层面尚未形成专用于文本简化任务的数据集。

（二）文本简化任务的评估

简化的文本应该实现易读、流畅、语法正确，包含原文的大多数信息，同时不丢失原文的趣味性（张莉2023）。这些原则也是评估自动简化技术的基本原则。对自动文本简化效果的评估，主要包括3个维度的评分：（1）语法正确性，考察模型产生的句子出现的语法或语义错误；（2）意义保留度，考察模型简化过程中丢失的信息量；（3）简单性，考察模型对文本难度的敏感性。

自动简化的传统评价方式有两种。一是人工评估，专家对单个维度进行打分，存在耗时长、成本高的问题，往往只能对较小规模的简化数据进行评估。二是通过指标计算。最常用的BLEU（bilingual evaluation understudy，Papineni et al. 2001）、SARI（Xu et al. 2016）等指标借自机器翻译领域，主要计算生成文本与标准答案之间的一致性。由于这些指标主要考虑文本中可以匹配的字符串，很难从意义的层面衡量文本质量。有研究者利用以上指标测试了大模型在英文上的句子简化能力，指出少样本学习场景能够比零样本学习产生更简单的文本，与人类简化的水平相当（Feng et al. 2023；Kew et al. 2023）。但有不少学者指出，现有评价指标无法充分体现语言模型实际的简化效果，并非评估文本简化质量的理想指标（Woodsend & Lapata 2011；Wubben et al. 2012）。

简单性是文本简化任务的核心需求，挖掘简单文本的本质特征是有效评估简化效果的努力方向。之前的研究大多借助可读性自动评估领域的Flesch-Kincaid等级（Flesch 1948）等传统可读性公式来计算简单性（Martin et al. 2022）。这些公式的计算方式较为扁平，围绕表层的、易于测量的语法单位开展（如句长和词长），在篇章级的简化评估中容易产生误判。实际上，文本的可理解性特征还包括句法特征以及深层特征，如文本的衔接与连贯等文本凝聚性特征。对于篇章的阅读难度来说，这些特征甚至起到了比表层特征更为重要的作用，需要被考虑在内（Benjamin 2012）。

“语言特征分析”是一种全面的文本分析方法，即借助自然语言处理工具，挖掘、发现相似文本共同拥有的语言特征，这些特征便代表了这组相似文本区别于其他文本的主要标志，进而可以识别在特征表现上相似的文本（Montemagni 2013）。已有英文简化研究使用该方法探究了简化前后文本中各类语言特征的区别，发现简化后的文本包含高比例的可理解性特征，如具有较高的衔接度（例如词汇共指和语义重叠）和较低的词汇复杂度（例如词频和词义熟悉度）（Crossley et al. 2012；Brunato et al. 2022）。现阶段，中文文本简化研究刚刚起步，中文的语言特征与文本可读性评估任务的结合更加紧密，在文本简化的评估研究中鲜有涉及，尚未有针对大模型在篇章级文本简化能力方面的系统性评估。

简单的语言表述并没有唯一的标准，仅从字面上衡量二者的相似性得出的结果未必能够真实反映简单与否。从简化的需求来看，当一篇简化后的文本包含更多的可理解性特征时，即便与标准答案的一致性不高，仍可视为达到了简化任务的目标。而文本特征分析作为一种有效的对比手段，可以通过对应“繁‒简”或“难‒易”文本的特征分布情况，评估模型在简化任务上的完成度，从而对其进行更有针对性的调整或训练。

三、中文新闻文本简化数据集

目前中文尚无公开的直接用于篇章级别的简化数据集，本研究尝试通过广泛调研、收集，并通过语言特征计算分析、评价平行文本对，建构简化数据集。

（一）数据集构建

文本简化广泛应用于第二语言基础阶段教学的阅读材料中。为了适应汉语二语学习者的阅读水平，目前出版的一些汉语二语教材课文对原文进行了简化（吴成年2011）。经过广泛调研，我们观察到《新编读报纸学中文》系列的5套教材的课文选自各大报刊的登文，部分课文对原文进行了一定程度的简化，为便于叙述，将其称为专家简化文本（简化版）。本研究选取该套教材，根据课文标注的原文出处，收集到50篇具有明显简化痕迹的课文及其对应的原文，形成包含50对平行文本的简化数据集，基本信息见表1。

（二）文本特征分析

为评价上述简化数据集中两类文本的区分度与质量，挖掘简化的规律，也为评价自动简化效果做准备，本研究从分析文本特征入手，选取与文本难度和理解程度相关的30个特征，包括与表层变量（例如字词的数量）、语言难度（例如词汇难度和句法复杂性）和语篇衔接（例如关联词、词汇重复率）相关的语言特征，利用中文文本分析平台（Chinese Text Analysis Platform，CTAP）对特征进行自动提取与计算（Cui et al. 2022）。同时，还使用BLCU Parser^[1]工具对文本进行句式结构自动标注，将标注结果中7种主要句法成分也作为特征。分别在原文、简化版两类文本中计算这37个特征值及其在50篇文本中的平均值。

[1]　句式结构分析的主要成分包括主语、谓语、宾语、定语、状语、补语。BLCU Parser网址：https://parser.blcuicall.org/。

为了判定原文与简化文本之间的统计数值是否存在显著性差异，我们对两组样本间的各项指标进行威尔逊检验（Wilcoxon）。若威尔逊检验显示组间差异显著（p < 0.05），则可认为该指标属于原文与简化版的区别性特征。简化后的差值较原文增减的幅度在“增幅”一列中呈现。下面讨论原文与简化版文本在语言特征上的差异。

1.表层计量特征

表层计量特征即统计各种语言单位的数量，从不同层面来反映文本长度。文本长度与文本包含的命题数量相关，文本的命题数量越多，给工作记忆带来的压力越大，则文本的理解难度越高（Kintsch & Keenan 1973）。

简化前后文本的表层计量特征如表2所示（差异不显著的以*号在数字后方注明，下表同）。可以直观地看到，简化后的文本篇幅压缩，字数、词数、句数及段落数均大幅减少，文本中句子的长度、段落的长度变短。虽平均词长也变短，但两组样本间不存在显著差异。

2.与词汇难度相关的文本特征

词汇的难度表现在两个方面。一是词汇的熟悉度，一个词越常见或对读者越熟悉，就越容易理解；反之，一现词（在整篇文本中仅出现一次的词）使用越多，整体阅读难度越高。二是词汇丰富度，用词越丰富，需要读者掌握的词汇量越大，则阅读难度越高。

词频对数（Logarithmic Word Frequency，LF）基于二语教材语料库与现代汉语语料库计算得出，反映了常用词的使用情况。平均词频对数^[2]越高，用词越常见。词汇丰富度一般使用型例比（type-token ratio，TTR）计算，为抵消文本长度的影响，选择Root TTR的计算方式。此外，由于教材课文面向汉语二语学习者，我们还参照《国际中文教育中文水平等级标准》中的“词汇等级大纲”，计算简单词（1～3级词）占比与平均词汇难度。

[2]　词频对数LF = log10 ( FREQCOUNT + 1)，平均词频对数= sum of LFs / num of Wordtypes。

简化前后特征对比如表3所示。简化过程增加了高频词、等级更低的汉字和词，删除或替换了一现字词，词汇丰富度也随之降低。可见，简化后文本整体的词汇难度明显降低。

3.句法结构特征

文本的短语结构、句式结构分布，以及依存句法树高度可以反映文本的句法复杂度。名词短语的连用是造成文本复杂的主要因素之一，名词短语数越多、短语长度越长，句法复杂性越高。最大依存距离与句法树高则反映了句法信息解码的难度，数值越大句子越难。在中文上，句法成分也影响文本的可理解性，如长定语给阅读带来困难，定语的减少是简化的典型标志。简化前后句法结构特征如表4所示。相较原文，简化版的句均名词短语、介词短语与并列短语的数量减少，句法树高、平均依存距离降低。几种句法成分中，定语占比明显降低，小句、主语及补语占比呈升高趋势。

4.语篇衔接特征

语篇衔接特征是用来衡量文本的连贯性。提高文本的连贯性、显化文本的信息结构能够促进逻辑推理过程，可以加快文本处理速度（Sanders & Noordman 2000），更好地理解文本。词语重复率越高、关联词与代词密度越高，代表语篇衔接性越好，文本越简单。

表5给出了原文与简化版语篇衔接特征的统计结果，简化版中全文实词、名词、动词的重复率都显著升高，名词重复率增幅高于动词；人称代词密度和关联词密度均升高。

总体而言，在简化过程中，文本的长度与词汇难度降低，语篇衔接性增强，指标变化整体符合易于理解的趋势。上述特征分析同时也表明，50对平行文本可以作为大模型自动简化能力的诱导数据，也可以作为测评简化效果的数据集。为叙述方便，下文称该数据集为CNS（Chinese news simplification）。

四、大模型自动简化能力测评方法

通用的大模型经过诱导，都可以具备文本简化能力，“提示工程”是最常用的诱导方法。经过提示诱导之后大模型的简化能力如何？哪种提示诱导的策略更加有效？哪个大模型的简化能力更好一些？这些问题需要通过实验测评。

（一）选择测评的大模型

为了测评不同大模型在中文文本简化上的性能表现，本研究选取了多个国内外知名的长文本大模型进行分析，测评的大模型包括国内阿里的通义千问（Qwen）、深度求索的DeepSeek、智谱AI的智谱清言、月之暗面的Kimi，国外OpenAI的ChatGPT、GPT-4o。^[3]实验通过应用程序编程接口（API）请求的方式发送实验参数和提示词给不同的模型，其中参数设置遵循了官方推荐的默认配置，实验在同一时间段内^[4]进行。

[3]　大模型具体版本为：通义千问qwen-plus、DeepSeek v2、智谱清言GLM-4、Kimi-v1-128k、ChatGPT-3.5、ChatGPT-4o。

[4]　对于提示策略，我们进行了多次尝试，以便探测大模型的优化效果与稳定性。本研究呈现的所有结果的实验时间为2024年6月26日8:00～24:00。

（二）诱导大模型的简化能力

“提示工程”是一种专门针对语言模型进行优化的方法，它通过设计和调整输入的提示词，来引导这些模型生成更准确、更有针对性的输出文本（Zhao et al. 2024）。为了研究不同的提示词对大模型表现的影响，本研究使用4种不同类型的提示策略对大模型进行诱导，分别是零样本、少样本、少样本+词表和少样本+规则。

专家知识包含了与文本简化相关的难度信息、规范示例或者具体细节，可以被视为大模型本身尚未包含的外部知识。引入专家知识作为额外的输入，有助于弥补大模型因知识不足而产生的“幻觉”，从而提高生成的简化文本的准确性。具体而言，主要包括两方面内容：一方面是基于外部词表的提示词构造方法，通过将《国际中文教育汉语水平等级标准》“词汇等级大纲”中的1～3级词作为“简单词表”提供给大模型，以尝试解决大模型对语言的难度信息不敏感的问题（Rooein 2023）；另一方面是基于语言特征规则的提示词构造方法，针对简化后文本语言的特点，总结上文专家简化的文本中差异显著的语言特征及增幅，将其作为规则引导大模型输出。共包括10条规则，^[5]如表6所示。结合前人研究及多次尝试，本实验根据以上4种不同提示策略撰写了提示词，具体内容如表7所示。

[5]　增减的幅度据前文人工简化规律得出。因大模型对数字不够敏感，规则中都设计了类似“减少”“增加”等方向性词语，但仍然保留了文本分析获得的具体增减数字。从经验上来说，方向性词语起主要作用，但数字是否起作用，还无法验证。

（三）测评大模型的简化效果

本研究利用CNS对大模型的简化效果进行测评，对应每一个大模型，生成的50个简化文本整体作为该模型的评价对象。采用传统评价和文本语言特征分析两种方式评估简化效果，传统评价方式包括自动指标与人工评估，自动指标采用SARI、BLEU，人工评估旨在区分不同大模型的表现。文本语言特征分析是从文本字、词、句、段各个层面细粒度地计算简化文本的特征分布。多角度进行评估试图呈现不同的提示策略下各个大模型在文本简化任务上的表现。

五、测评结果分析

（一）传统评价方式

1.自动指标

自动文本简化质量的评估往往通过SARI、BLEU等计算对文本改动多少的指标来衡量。虽然BLEU被证实与简单性没有显著相关（Xu et al. 2016），但为了便于与前人工作对比，我们同时计算了SARI与BLEU得分。在性能对比上，主要参考SARI分数。

如表8显示，结果表明，在几种大模型的纵向对比上，GPT-4o性能总体表现优于其他大模型，其次为DeepSeek。在提示语中包含少样本与词表时，DeepSeek的表现超过了GPT-4o。单独观察各个模型，在提示策略的横向对比中，GPT-4o、Kimi与智谱清言均在少样本学习时表现最佳，ChatGPT与通义千问在少样本学习且提示语包含规则时表现最佳，而DeepSeek在少样本学习且提示语包含词表时得分最好。

2.人工评价

大模型在语法的正确与流畅方面的能力得到广泛认可。不足之处在于，观察发现部分模型产生的文本可能删减掉保持连贯性的背景信息，或出现将篇章的简化视为“句子简化后再拼接”的迹象，导致篇章的语义理解不连贯。如例（1），将（1）a中的“反应慢和听力减弱直接相关”删减，导致（1）b的可理解性下降，以及随之而来的，大模型在修改、重新组织原文本的过程中，有可能并产生虚假信息，造成幻觉问题。

（1） a年老了听力减弱，他注意到老年人反应慢和听力减弱直接相关，于是很早就开始使用助听器，观察他一直没有反应迟钝的表现。（原文）

b他还很早就使用助听器，预防反应变慢。（智谱清言‒简化版）

因此，我们分别针对简单性、意义保留度、连贯性和幻觉问题4个方面，以1～5级利克特量表（Likert scale）进行人工评估。为探究几种大模型简化能力的“天花板”，本研究择其传统指标得分最高的一组输出文本进行横向比较评分，由语言学专业的一名博士生、两名硕士生共同完成评分，对最终得分计算平均数。各个维度评分结果的均值如表9所示。

结果显示，在几种模型中，GPT-4o的总体表现较为出色。Kimi生成的文本观感最简单，但对原文的信息保留较少，GPT-4o则相反。值得注意的是，在传统指标评价中SARI值超越GPT-4o的DeepSeek，在简化时更倾向于做尽可能少的修改，沿袭原文的大多数内容，因此意义保留度与连贯性得分较高，但简单性却明显不足，并未达到简化任务的目标。Kimi与智谱清言在意义保留度上均得分不高，但在连贯性上Kimi得分更好。观察实例可发现，智谱清言倾向于视简化任务为文本摘要，大幅度删改、提炼原文内容，以分点或总结的形式输出；Kimi则尽可能保留原文的结构，删除的大多为数字信息。

幻觉现象出现较多的是智谱清言，如例（2）所示。结合语境来看，“逃离北（京）上（海）广（州）”中的“北上广”作为具有指代含义的构式，实质上仅指“北京”一处，而大模型误将其理解为并列成分，输出为“离开北京、上海和广州”。

（2） a从北京某高校编辑出版学专业毕业后，小邓在北京辗转于几家媒体工作，却在不断攀升的房价和各种压力下失去了对这座城市的归属感。几个月前，他最终选择了逃离北（京）上（海）广（州）。（原文）

　　b他在北京读完编辑出版学专业，工作了一段时间，但因房价高和压力大，他失去了归属感。几个月前，他决定离开北京、上海和广州。（智谱清言‒简化版）

（二）文本特征分析

自动指标与人工评分显示，GPT-4o表现最优。然而自动指标的评分显示，不同提示策略下GPT-4o的表现相差不大。那么事实是否如此？自动指标得分较低的提示策略是否也在某些方面具备优势？为进一步探究以上问题，本研究以GPT-4o为例，通过文本特征分析捕捉不同提示策略下大模型输出文本的细微差别。下表中，以专家简化文本的语言表现为参照，最具有简单倾向的以加粗标识，与人类专家简化文本的增幅最接近的以斜体下划线显示。

1.表层计量特征

表10显示了GPT-4o在不同提示下简化文本的表层计量特征指标对比。可以看出，零样本提示情况下，大模型对字数、词数、句数删减严重；少样本提示或加规则提示都能让大模型学到缩减篇幅的程度，即段长变短。然而，词表提示情况下，平均句长与平均词长更接近人类；零样本提示、少样本提示和规则提示下，平均词长较人类更长。另外，无论哪种提示策略下，大模型都存在把握不好句长、过度分段甚至“指句为段”的问题，在段落的处理上仍有明显不足。

2.与词汇难度相关的文本特征

词汇难度相关的文本特征对比结果如表11所示。零样本提示虽然能够使高频词、简单词占比更高，但代价是大量删减词汇、词汇丰富度骤降；少样本提示则在降低低频字、词出现概率的情况下，维持词汇丰富度与人类简化版相似。而在少样本提示的基础上增加外部词表的方式可以使模型使用更多的

简单词，降低词汇总体难度。

3.语法与句式特征

表12呈现了句法结构特征指标对比结果。零样本学习由于删减大量篇幅、长句变短句，导致最大依存距离与核心动词前的最大词数都明显下降，但实际上，句均名词短语数与介词短语数都没有显著变化，名词短语平均长度没有变化，句均并列短语数增加，实质上并没有降低文本的理解难度。反之，与表层计量特征的表现一致，加入词表提示的方法在句法长度上与专家表现最相似，同时控制了名词短语和介词短语的使用，使句子更容易理解。

再观察句法成分占比可知，与专家简化文本类似，少样本学习下大模型也提高了小句与主语的占比，减少了定语的使用。整体来看，少样本学习与加入词表提示均能使大模型在句法结构上表现接近人类。而加入规则的提示使大模型的输出比专家具有更简单的特征表现，包含更多可理解性的语言特征。然而，在所有提示策略下，大模型都不会有意减少并列短语的使用。

4.语篇衔接特征

语篇衔接特征指标对比如表13所示。零样本学习场景下，全文词语、名词及动词的重复率增幅剧烈，随之而来的句间词语、名词及动词的重复率也出现反向增加，说明大模型进行了“过度简化”。少样本学习在词语重复率特征的表现上与专家更接近，且提高了人称代词密度，同时包含较多的可理解性特征。而词表提示与规则提示的全文词语、名词及动词重复率均出现了降低趋势，简化后的文本连贯性可能存在问题。

此外，关联词密度均未出现衔接性增强的表现，甚至有不同程度的降低使得衔接性变差。词表提示增加了关联词密度，但较专家简化文本仍有距离。

（三）讨论与分析

总体而言，实验结果表明，由大模型简化的文本也能显示出与人类简化结果相似的指标值变化：更短的文本、使用更常见的单词、使用更常见的语法结构，但不同的提示策略下相似程度不同。零样本提示场景下模型会删减大量篇幅，产出的大多是短句，相比于人类专家进行了“过度简化”，简化过程中降低了篇章的凝聚力。少样本提示则让大模型学到了缩减篇幅的程度，大多数特征的表现与人类相似。在少样本的基础上加入词表提示，能够使模型简化文本的平均词长更接近人类，使用更多的简单词或高频词。加入规则的提示使大模型的输出比专家具有更简单的特征表现，包含更多可理解性的语言特征。

但无论在哪种提示策略下，大模型都存在过度分段甚至“指句为段”的问题，对段落的处理仍有明显不足。几种提示下大模型的简化均未出现显化衔接的表现，甚至有不同程度的语篇衔接性变差。加入词表提示，虽然提升了关联词密度，但较专家的简化仍有距离。

此外，值得思考的是，提示语本身的难度也会对大模型的表现造成影响。与句子简化任务不同，篇章级别的简化使得提示语本身较长，而在少样本融合词表提示的策略中，提示语的长度甚至达到了9369字符。显然，这种情况下，提示语本身的理解难度就已经较大，同时还要求大模型记住其中的词汇部分。这要求大模型首先具备很强的长文本理解能力。尽管本研究选取的均为长文本任务表现优异的大模型，但提示语难度对其篇章简化的表现仍会有一定的影响。

六、总　结

本研究检验大模型在中文文本简化任务上的应用潜力，以期在文本简化任务上能够辅助人类提高效率。

本研究聚焦两个主题：（1）探索一种测评与应用大模型特定能力的路径，采用了两种创新的提示方法——基于词表的提示与融入专家简化文本语言特征规则的提示，在零样本和少样本的测试场景下进行了验证；（2）充分挖掘、综合利用语篇中区别原文与简化文本的语言特征，并利用专家简化文本进行了验证，结合传统的评价方式，对大模型的文本简化能力给出有效评估。实验结果表明，尽管大模型在篇章级文本简化任务中表现出一定的潜力，其简单性和可靠性仍有待提高。

本研究的局限性主要体现在3个方面。（1）由于简化数据集资源匮乏，研究中所使用的样本尚不充分，提示中的样例类型较为有限。（2）只在新闻简化数据集上进行了实验。我们尝试分析了《简明汉语》数据，与新闻简化数据集特点不同，具体的实验和分析还有待进一步研究。（3）如何在语言特征上增加文本内容方面的评价元素，还需要进一步研究。

文本简化的需求是不同的，对于自动文本简化而言，这些需求将从不同类型、不同语体、不同风格等多个维度体现在简化数据集上；同时，对简化结果的评价，可以考虑更多维度的语言特征、文本的内容特征，未来的研究将多角度探索诱导大模型在篇章级文本简化任务中的潜力，让大模型更好地辅助文本简化以满足不同用户群体的需求。

*国家语委重大科研项目“大语言模型的评测技术和方法研究”（ZDA145‒17）。

该文发表于《语言战略研究》2024年第5期，引用请以期刊版为准，转发请注明来源。

编排：韩畅

审稿：王飙余桂林