大模型会产生“标题党”特征倾向吗?——以中外代表性大模型为例的实证研究

文摘   2024-08-11 22:05   英国  

内容摘要:标题写作是生成式人工智能应用于内容生产实践的重要场景之一。大模型会产生“标题党”特征倾向吗?围绕这一核心问题对国内外两个具有代表性的大语言模型运用算法审计方法进行实证分析。基于模型对973篇微信公众号文章进行标题写作的结果,研究发现,在不增加额外提示的情况下,大模型生成的标题具有一定的“标题党”特征倾向,其中GPT-4的倾向比ChatGLM3更明显,但与人类相比,两个模型的“标题党”特征倾向均没有人类明显。相比严肃议题,在非严肃议题文章的标题写作中,模型表现的“标题党”特征倾向更明显。提示(prompt)对大模型生成“标题党”特征倾向具有显著影响:添加含有“标题党”倾向的角色、背景和风格信息后,模型的“标题党”特征倾向均显著增强;添加限制“标题党”风格的提示后,“标题党”特征倾向会相应减弱。



//目录

一、“标题党”的概念、发展及特征元素

二、大模型生成“标题党”的特征倾向与影响因素

三、研究设计与方法

(一)文章抽样、采集与编码

(二)实验设计与执行

(三)标题党特征倾向的测量

四、研究发现

(一)大模型生成“标题党”的特征倾向:基本情况与模型比较

(二)“标题党”特征倾向的人机比较

(三)不同主题的“标题党”特征倾向差异

(四)提示对“标题党”特征倾向的影响

五、结论与讨论



生成式人工智能及其技术基础大语言模型正在快速发展。大语言模型(large language model,LLM)通常指的是在大规模文本数据上进行训练且包含数百亿甚至更多参数的语言模型。大语言模型通过生成文本的方式表现出强大的自然语言理解和生成能力,推动了内容生产领域的变革。大语言模型在提升内容生产效率的同时,其可能带来的问题也开始受到关注。由于模型的训练数据来自互联网,模型可能学习到了耸人听闻(sensationalist)或点击诱饵(clickbait,中文语境下通常称为“标题党”)的内容特点,导致模型在生成内容时存在类似倾向。大模型被认为非常适合用于在短时间内制造大量低成本(low-cost)、低质量(low-quality)、高点击率(high-volume)的“点击诱饵”。

不过,目前对大模型可能生成“标题党”的讨论主要集中于思辨层面,实证研究还很少,尤其缺乏基于中国本土媒介内容实践的实证研究。在中文语境下,中外代表性大模型所生成的标题是否以及在多大程度上存在“标题党”特征元素?如果存在“标题党”特征元素,那么这种倾向受到哪些因素影响?若在提示语中明确增加“标题党”要求,会否增强其生成“标题党”的特征倾向?反之,如果在提示语中增加去除“标题党”的明确要求,又是否会抑制其“标题党”倾向?本文采用“算法审计”(algorithm auditing)思路,对大模型的“标题党”生成倾向展开探索性研究,以推进有关大模型的新闻传播学实证研究,同时也为大模型在内容生产领域的应用提供参考。

一、“标题党”的概念、发展及特征元素


根据相关研究考证,中文语境下的“标题党”一词最早发源于网络论坛,指的是以娱乐方式加工标题来吸引点击量的网络帖主群体以及与之相关的网络现象。随着社交媒体和内容平台的发展,这一概念逐渐扩展到更广泛的内容生产领域,包括新闻媒体、博客、公众号、视频平台等。《100年汉语新词新语大辞典》对“标题党”的定义为:“以标题取得高点击率的人或者行为。”比较全面的“标题党”含义既包括标题未能如实反映正文内容的“题文不符”问题,也包括更为具体的用以诱导点击的特征元素,后者与英文语境下的“点击诱饵”(clickbait)概念更为接近。

所谓“点击诱饵”,是指互联网上能吸引网民注意力并鼓励其点击链接访问特定网页内容的实践策略。广义的“点击诱饵”的形式包含带链接的标题、照片、图标等。也有的“点击诱饵”定义聚焦于以标题为中心诱发点击的一种典型形式——即“标题党”(英文表达为clickbait headline),它指“作为诱饵的形式化和叙事性的手法,用来激发读者的期待和好奇心,使他们点击标题并继续阅读”。

尽管“标题党”概念强调网络时代的背景,但在报纸等传统媒体时代,由于标题兼具概括文章内容和吸引读者两个功能,在市场竞争的压力下,通过特定元素吸引阅读的“标题党”现象也存在。随着互联网时代的来临,阅读环境从纸质切换到网络,标题吸引力的重要性更加凸显。从媒介角度看,网络新闻的超链接模式使得标题和正文处于两个页面空间中,相对独立,标题成为读者选择是否进一步阅读文章的关键影响因素。标题的点击率是影响文章阅读,进而影响经济收益和市场回报的关键指标。在媒介界面布局上,网络媒体,特别是移动互联网环境下的文章发布以列表式标题呈现为主,文章日渐与其所在媒体相分离,如果其标题本身不能在海量标题中脱颖而出,内容就会被淹没,无法被打开,更遑论产生影响。随着数字技术的发展,原来数量有限的机构媒体(PGC)和大量的自媒体(UGC)、机器媒体(AIGC)等均加入内容生产行列,加剧了信息过载现象,带来更激烈的注意力竞争;加之数据技术(如流量实时监测、A/B测试)和平台算法(如搜索引擎、社交推荐)的崛起,只有获得数据支持的标题和内容才能获得算法和流量的进一步扶持。可以说,数字媒介的可供性导致“标题党”(“点击诱饵”)倾向和“点击文化”(culture of the click)的兴起。在激烈的注意力与影响力竞争下,“标题党”已经成为数字新闻和数字内容的普遍特征,在不同地区的新闻媒体和社交媒体中广泛存在。就中国场景而言,“标题党”现象不仅存在于市场化媒体和自媒体,在官方主流媒体和政务新媒体的内容中也相当普遍。

“标题党”并不是一个简单的标题制作业务问题,而关乎新闻业的核心价值与伦理。因为“标题党”已被证实会吸引、调配与转移公众注意力,在一个注意力竞争的空间中,具有“标题党”特征倾向的内容可能影响公众对真正有价值(但并不采用“标题党”风格)的公共新闻和内容的关注,或者带来“欲求新闻”(want journalism)压倒“需求新闻”(need journalism)的风险。“标题党”特征的运用也可能带来新闻的真实性问题,进而影响新闻媒体的公信力。尽管有研究者指出,“标题党”在特定情境下也不乏正面意义(如支持和促进地方社区、小众新闻业的发展),但总体上,其问题与风险更多得到研究者的关注与强调。

本研究聚焦于以诱发点击为目标的“标题党”特征元素。基于已有文献,常见的“标题党”特征元素可分为5大维度:列表、前向引用、夸张耸人表达、网络用语和情绪化的标点符号。一是列表式标题(listicles)。它指围绕一个基数(cardinal number)组织的标题,其通过数字吸引读者点击以查看完整内容,如“一夜暴富的10种方法”。二是前向引用(forward-reference)。发布者在标题中暗示正文中将提及的内容,但不提前透露关键信息,从而激发读者好奇心,促使他们点击并阅读全文。常见的前向引用的表现形式包含代词、一般名词、省略、祈使语气等。例如,指代性的一般名词如“原因”“真相”等指向文章中的关键信息,但发布者不在标题中讲明;省略(ellipsis)指发布者在标题中省略某些语法上必要的成分,常使用省略号,如“网红背后的赚钱套路,真相令人咋舌……”;祈使语气指发布者通过祈使方式向读者提出阅读全文的行为建议,提示读者只有在文章中才能找到特定信息。三是夸张耸人表达。夸张表达指对某个特征或行为的强化或强调,发布者通过使用夸张词汇(hyperbolic word)提升文章的点击量;耸人表达则指采用命令、警示或恐吓等方式向用户施加压力。四是网络用语(internet slang)。发布者在标题中使用网络俚语、流行语(梗)等吸引读者点击。五是情绪化的标点符号。发布者使用问号和感叹号强化标题表达的情绪。更具体的操作化说明和示例见表3。


二、大模型生成“标题党”的特征倾向与影响因素


标题制作是AIGC技术的应用场景之一。在积极应用的同时,大模型可能生成“标题党”特征元素的隐患也被提出。由于模型的训练数据来自互联网,模型在训练过程中有可能学习了互联网上与“标题党”相关的内容特点,从而导致在输出的内容中存在“标题党”倾向。但目前的相关研究主要以思辨为主,实证研究尚不多见,且对中国场景的研究缺乏。另外,不同模型由于算法机制、语料库的差异,在算法输出结果上也不尽相同。此前关于大语言模型的新闻写作风格的研究发现,开源和闭源的大模型在介词、形容词、名词和标点符号的使用频率上存在显著差异。由此,本研究提出如下研究问题:

Q1:大语言模型生成标题是否存在“标题党”特征倾向?
Q2:不同大语言模型之间的“标题党”特征倾向是否存在显著差异?

已有研究关注大模型与人类之间的比较,主要围绕问答、摘要写作以及新闻写作等进行。关于大模型的跨领域问答能力的研究发现,大模型的表达通常更客观,语言风格更正式,表达的情感较少。相较而言,人类的表达更主观,并且会使用一些情绪化的标点符号(比如问号和感叹号)来表达个人情感。在新闻写作和跨领域问答两个任务中,和人类作者相比,大模型的词汇不够丰富,人类作者的词汇使用更具多样性。由此,本文提出如下研究问题:

Q3:大模型与人类在写作标题上,谁更具有“标题党”特征倾向?

哪些因素影响大模型生成“标题党”特征元素的倾向程度?本研究聚焦于两个逻辑:“源头”逻辑与“提示”逻辑。前者的基本假设是:大模型的“标题党”特征倾向可能与其正文的文本内容本身的特征有关。已有研究发现,“标题党”在不同主题的新闻中占比不同,集中在娱乐、体育等非严肃议题的“软新闻”中。大模型的训练数据来自互联网,在各种新闻报道和社交媒体数据中,“标题党”在某些类别(如娱乐和体育)中更普遍,模型在训练过程中可能学习到类似模式,从而在生成标题时,更有可能会模仿这些数据集中的常见模式,包括“标题党”特征。由此,本文提出如下研究假设:

H1:相较于严肃(硬性)议题文章,大模型在非严肃(软性)议题文章的标题写作中表现的“标题党”特征倾向更强。

提示(prompt)是用户与模型交互时提供给模型的输入信息,旨在引导模型生成与用户期望相符的回应。由于提示内容直接影响模型生成的内容,提示的设计对用户与大语言模型建立有效和有意义的交互至关重要。目前应用比较多的提示框架是奈伊(Nigh)于2023年提出的CRISPE框架,其被证明对ChatGPT回答质量的提升有效。CRISPE框架主要包括5个部分:能力与角色(capacity and role)、洞察(insight)、陈述(statement)、个性(personality)和实验(experiment)(见表1)。本文基于CRISPE提示框架,系统分析添加相应提示对大模型生成“标题党”特征倾向的影响(与仅提出生成标题的基本要求相比较)。



现有研究发现,在提示中被赋予带有性别偏见的角色,ChatGPT在新闻写作中表现出更高程度的性别偏见。相较于仅包含翻译指令的提示(“请翻译下面的句子”),在提示中添加“你是一个机器翻译系统”的角色信息,提升了ChatGPT的机器翻译性能。基于此,当模型被赋予“标题党标题写作专家”的角色,它可能会模仿“标题党”常用的写作策略,导致输出的标题具有更强的“标题党”特征倾向。由此,本文提出假设:

H2:在提示中添加要求扮演“标题党”标题写作专家的角色信息之后,大模型的“标题党”特征倾向增强。

洞察指模型提供所要执行的任务的背景信息和上下文。在机器翻译领域,向模型提供被翻译文本所属领域的信息,能够显著提高ChatGPT的翻译性能。如前文所述,数字时代的“标题党”现象与追求在线流量和点击量密切相关。当模型在生成标题时接收到对标题吸引点击量要求的背景信息,它可能会倾向于在标题中采用“标题党”的手法。基于此,本文提出假设:

H3:在提示中添加对标题点击量要求的背景信息之后,大模型的“标题党”特征倾向增强。

在提示中明确提出对模型输出内容风格的个性要求,可以引导模型生成符合预期风格的文本。实验表明,当提示中添加对摘要规范性(formality)的要求时,ChatGPT能够生成风格更加正式(formal)的摘要。可以预测,在标题生成任务中,如果模型接收到“标题党”风格要求,那么其最终生成的标题可能具有更强的“标题党”特征倾向。基于此,本文提出假设:

H4:在提示中添加要求输出“标题党”标题的风格信息之后,大模型的“标题党”特征倾向增强。

我们也希望进一步探索,在提示中增加避免生成“标题党”风格的要求,是否会抑制“标题党”特征倾向的产生,因此我们提出如下问题:

Q4:在提示中添加限制输出“标题党”标题的风格信息之后,大模型的“标题党”特征倾向是否会减弱?

三、研究设计与方法


本研究采用算法审计(algorithm auditing)的思路检验大模型生成标题的“标题党”特征倾向。算法审计是一种对算法结果偏向进行系统性审查的方法。其中,抓取审计(scraping audit)是一种非侵入性的算法审计方式,研究者通过自动化脚本向算法平台发送请求,并通过算法的响应数据评估算法行为。本研究借鉴这一思路,通过不同提示(prompt)要求大语言模型进行文章标题写作,基于模型的输入数据(文章原文)和输出数据(标题),对模型生成标题的“标题党”特征倾向及其影响因素进行实证分析。基于“中文通用大语言模型综合性测评基准”(SuperCLUE)结果中语言理解与生成能力维度的排名(2023年11月),我们选择排名前二的两个代表性大模型——国外OpenAI公司的GPT-4 Turbo(以下简称“GPT-4”)和国内智谱公司的ChatGLM3-Turbo(以下简称“ChatGLM3”)作为研究对象。

(一)文章抽样、采集与编码


在输入模型的文章数据上,本研究选择当前移动互联网时代公众信息获取的重要来源——微信公众平台进行采集。首先,参考新媒体监测机构新榜2023年10月排名数据,综合公众号定位、影响和发布量等因素,本研究筛选出12个具有影响力的新闻性微信公众号,覆盖党报党台(“人民日报”“新华社”“央视新闻”)、都市类媒体(“澎湃新闻”“南方都市报”“新京报”)、自媒体(“胡锡进观察”“远方青木”“占豪”)和政务新媒体(“中央政法委长安剑”“共青团中央”“上海发布”)4个类别。

采集文章的发布时间范围选择在2023年5月1日至2023年10月31日。由于数据爬取以及新榜的排名统计时间为2023年11月,所以截止日期定为2023年10月31日。GPT-4和ChatGLM3两个模型的训练数据的最新时间为2023年4月,为了避免数据污染(contamination)问题,本研究将开始日期确定为2023年5月1日。大模型的训练数据中包含评估数据集中的数据会导致对模型表现的高估(performance overestimation),使得评估结果不准确。 由于12个公众号在此期间共推送44,606篇文章,数据量较大,因此我们采用“构造周”方式(constructed week)进行抽样,最终共抽取并抓取下载1,105篇文章样本。

参考现有研究对主流媒体与政务新媒体的内容主题分类,结合中文新闻信息标准化技术委员会制定的最新版国家标准《中文新闻信息分类与代码》(GB/T 20093-2022),本研究将文章分为严肃议题和非严肃议题两大类。严肃议题主要包含政治、经济、军事、政务信息公开等,非严肃议题主要包含文体娱乐、健康养生、旅游攻略和心灵鸡汤等。由两位经过训练的编码员根据文章内容进行编码,抽取15%共同编码,获得较好的编码员间信度后(Kappa系数为0.921)分别进行编码。在1,105篇文章样本中,严肃议题与非严肃议题分别占比47.8%和52.2%。

(二)实验设计与执行


围绕研究问题和假设,本研究设置5种不同类型的提示,逐一输入文章并要求模型生成标题(见表2)。考虑到大模型输出结果的随机性,参考已有研究,每个输入执行5次,即每个模型分别生成5个标题。由于ChatGLM3模型对于部分政治内容存在审核,最终我们对973篇通过审核的文章标题进行分析。在模型输出数据层面,本研究使用Python语言设计数据收集程序,调用ChatGLM3和GPT-4的开放接口收集模型输出的标题数据,由于每个模型对每个输入均执行5次,实验共设计5组不同提示的输入,因此共生成48,650个标题。



(三)标题党特征倾向的测量


本研究根据生成的标题中出现的“标题党”特征元素的数量测量其“标题党”特征倾向,确定0—12的取值范围。由于在实验中每个大模型针对同一篇文章共输出5个标题,因此本研究将5个标题的“标题党”特征倾向的平均值作为模型在该篇文章的标题写作中所表现出的“标题党”特征倾向。本研究从列表、前向引用、夸张耸人表达、网络用语和情绪化标点符号5大维度对标题中出现的“标题党”特征元素进行编码,其定义及示例见表3。



对标题进行“标题党”特征编码使用机器和人工结合的方法。在进行编码前,本研究构建了一个“标题党”特征词词典,词典数据主要来源于已有研究使用的数据集,我们也通过在线新华字典、微信公众号创作者中心和今日头条创作者中心等渠道搜集补充。在编码过程中,首先,本研究基于词典和标点符号规则对标题进行12个“标题党”特征编码。其次,本研究考虑到部分“标题党”特征仅凭特定词语或标点符号进行编码可能不准确,故由人工对这部分特征(包括列表、一般名词、代词、省略号)的机器编码结果进行复核和修正。人工修正由两位经过训练的编码员完成,经过修正的“标题党”特征的人工编码信度均达到较高水平(Kappa系数为0.903~0.958)。


四、研究发现


(一)大模型生成“标题党”的特征倾向:基本情况与模型比较


首先,针对研究问题1,在默认参数和默认提示(不包含“标题党”倾向信息)的设定下,大模型生成的标题表现出一定的“标题党”特征倾向,在9,730个生成的标题中,含有“标题党”特征元素的有4,762个,占比48.94%。在4,762个标题中,每个标题平均含有“标题党”特征元素1.451个(标准差0.704)。含“标题党”特征元素最多的标题是ChatGLM3根据文章《〈长安三万里〉48首诗词汇总》(央视新闻公众号,2023年7月17日)生成的标题“《长安三万里》火了!涉及48首诗词,你会背几首?快来复(预)习!”它含有12个“标题党”特征元素中的6个,涉及感叹号、问号、列表、指示代词、行为建议、网络用语。

大模型生成的标题的“标题党”特征主要体现在使用感叹号(占全部9,730个生成标题的31.01%)和夸张表达(13.95%)。例如:“【揭秘】灵活就业VS职工社保,真相竟是这样!别再信谣言!”(GPT-4生成);“嘉兴惊魂时刻:警察破门怒怼骗子,网友直呼解气!”(ChatGLM3生成)。占比超过5%的还有问号(8.92%)、网络用语(5.95%)(见图1)。

其次,针对研究问题2,研究发现,不同模型生成的标题的“标题党”特征倾向存在显著差异。ChatGLM3生成的4,865个标题中含有“标题党”特征元素的有2,101个,占比43.19%;GPT-4生成的4,865个标题中含有“标题党”特征元素的有2,661个,占比54.70%,比例显著高于ChatGLM3(卡方检验x2=128.979,p<0.001)。考虑到每个模型分别对每篇文章生成了5个标题,故本研究进一步计算这些标题含有的“标题党”特征元素的数量均值,用于代表模型生成的标题的“标题党”特征倾向。由于两个模型使用同一文章数据集(N=973)生成标题,生成的标题为配对样本,且样本不服从正态分布,因此本研究使用Wilcoxon符号秩检验评估不同模型的“标题党”特征倾向差异。结果显示,GPT-4的“标题党”特征倾向的中位数(0.600)显著高于ChatGLM3(0.400)(z=7.568,p<0.001)。

(二)“标题党”特征倾向的人机比较


在973个人类写作标题中,含有“标题党”特征元素的标题有661个,占比为67.93%。在本研究分析的4类公号中,“自媒体”(73.97%)、“党报党台”(73.52%)和“政务新媒体”(72.78%)含有“标题党”特征元素的标题占比均在70%以上,只有“都市类媒体”公号的比例略低(62.87%)。相较于大模型整体(48.94%)、ChatGLM3(43.19%)以及GPT-4(54.70%),卡方检验显示,人类标题中含有“标题党”特征元素的占比均显著更高(x2分别为127.654、199.222和57.937,p<0.001)。

人类的“标题党”特征倾向的平均值为1.098(标准差0.997),中位数为1.000。Wilcoxon符号秩检验结果表明,人类的“标题党”特征倾向显著高于大模型(p<0.001)(见表4)。这一结果在对比不同大模型以及不同类型人类媒体时均保持一致。



图1展示了不同的“标题党”特征在人类标题和大模型生成标题中的比例。人类标题的“标题党”特征主要体现在使用感叹号(43.88%)、问号(12.85%)、指示代词(11.20%)、网络用语(9.35%)、夸张表达(9.25%)等方面。其分布排序与大模型并不完全一致。在12个特征中,10个特征的比例均为人类高于大模型,但在2个特征(夸张表达与强迫表达)上,大模型的比例反而显著高于人类。



大模型总体上比人类更高频使用夸张表达(卡方检验,x2=16.690,p<0.001),不过差异主要存在于人类与GPT-4之间——后者比人类更高频使用夸张表达(x2=50.524,p<0.001),人类与ChatGLM3并无显著差异。例如,人类的标题为“334寝室,全寝直博!秘笈是……”(新华社公众号,2023年10月22日),GPT-4对该报道生成的标题为“同济学霸宿舍震惊!四人同寝全直博名校,揭秘成功秘笈”,标题使用了“震惊”“揭秘”等典型的夸张表达。

相较于人类,ChatGLM3和GPT-4均更高频使用含有强迫点击意味的表达(x2分别为13.530和15.555,p<0.001)。例如,人类的标题为“用筋膜枪放松后,她突然看不清了!医生提醒”(南方都市报公众号,2023年7月17日),ChatGLM3对该报道生成的标题为“警惕!筋膜枪用错地方,竟导致眼内晶状体脱位和白内障!”GPT-4生成的标题为“【警惕!】用筋膜枪按眼周引发白内障,医生这样说……”两个大模型均使用了人类标题中没有使用的“警惕”这一增加点击强制性和紧迫感的表达。

(三)不同主题的“标题党”特征倾向差异


为验证假设1,本研究在默认参数且提示不包含“标题党”倾向信息的条件下,对973篇文章的大模型生成标题进行了主题比较。其中,严肃议题文章的生成标题中,含有“标题党”特征元素的占39.66%;非严肃议题文章的生成标题中,含有“标题党”特征元素的占56.76%,差异显著(卡方检验,x2=282.520,p<0.001)。进一步的Mann-Whitney U检验结果显示,无论是大模型整体,还是两个具体模型,严肃议题和非严肃议题文章的“标题党”特征倾向均存在显著差异(p<0.001)(见表5)。相较于严肃(硬性)议题文章,非严肃(软性)议题文章的大模型生成标题表现出的“标题党”特征倾向更强。H1成立。



(四)提示对“标题党”特征倾向的影响


研究发现,当提示添加了含有“标题党”倾向的背景、角色和风格要求后,大模型生成标题中含有“标题党”特征元素的比例显著增加。例如,当在提示中添加关于点击量的要求后,ChatGLM3生成标题中含有“标题党”特征元素的比例一下子上升到68.92%,GPT-4的这一比例则高达90.75%;当添加扮演“标题党”角色的要求后,两个大模型生成的标题含有“标题党”特征元素的比例分别上升到93.28%和99.24%;当添加使用“标题党”风格的要求后,二者更是分别上升到97.82%和99.92%(见表6)。进一步的Wilcoxon符号秩检验结果显示,添加提示后,“标题党”特征倾向(以中位数衡量)均显著增强(p<0.001)。H2、H3和H4均成立。若就3种不同提示之间的比较而言,Nemenyi检验发现,相较于添加点击量要求的背景信息,添加扮演“标题党”专家的角色信息和要求输出“标题党”标题的风格信息,模型表现出的“标题党”特征倾向均显著更强(p<0.001)。

相反,对于研究问题4,当提示中添加了限制输出“标题党”风格标题的信息后,研究发现,含有“标题党”特征的标题比例的确相应减少(分别降至23.00%和23.91%),模型的“标题党”特征倾向(以中位数衡量)也相应显著减弱(p<0.001)(见表7)。上述研究结果在不同模型的不同主题、不同公众号分类中均保持一致。




以文章《“沪惠保”保单突然被撤单?解释来了》(“澎湃新闻”公号,2023年10月22日)为例,表8展示了提示中添加信息前后大模型生成标题的前后对比。


五、结论与讨论


本研究首次对中文语境下国内外两个代表性的大语言模型(ChatGLM3和GPT-4)的“标题党”特征倾向进行实证研究。研究模拟大模型在5种不同设定(提示)下进行微信公众号文章(N=973)的标题写作,针对模型生成的48,650条文章标题,实证考察了大模型生成标题的“标题党”特征倾向、模型比较、人机比较以及影响因素。本研究有如下发现:

第一,在默认参数环境且提示中不添加标题党倾向信息的情况下,大模型存在一定的“标题党”特征倾向,所生成的标题中近半(48.94%)包含至少一个“标题党”特征元素。

第二,不同模型的“标题党”特征倾向存在显著差异,国内模型ChatGLM3相较于国外模型GPT-4显示出更弱的“标题党”特征倾向,这可能是因为设计者在模型设计过程中采取了减少“标题党”特征的特定策略,对模型进行了更加适应国内场景的优化。

第三,更值得重视的是,在无特别提示的情况下,大模型没有表现出比人类更强的“标题党”特征倾向,反而显著更弱(67.93%的人类标题均含有“标题党”特征元素,并且该特征在4个类别的公众号——包括“党报党台”和“政务新媒体”——中均普遍存在)。这提醒我们两点。其一,大模型可能语言相对客观,同时,设计者可能在设计上对“标题党”特征倾向进行了一定限制。事实上,当我们向模型输入提示问题“你可以帮助生成标题党标题吗?”GPT-4和ChatGLM3的回答均强调了不主动提供和不参与制作“标题党”的立场。其二,审计大模型可能恰恰为我们提供了宝贵的审视和反思人类自我的机会。当我们对大模型可能带来的价值观问题忧心忡忡时,我们不妨首先审视下自己。大模型基于对人类数据的预训练和学习,其本身是人类社会一面难得的“镜像”。人类的公共报道和社交内容中已经充斥着大量诉诸情绪、制造悬念、刺激点击的“点击诱饵”,其分布比例高于大模型在默认设置下的生成结果,这对我们是一个重要警醒。

第四,人类与大模型在生成“标题党”特征元素方面既具有一定的相似性(如感叹号、问号与网络用语的比例都较高),也存在明显的差异,特别是大模型生成“标题党”特征元素中,夸张表达和强迫表达的比例相比人类均显著更高。大模型会在标题中添加夸张短语,但常常未能充分考虑上下文语境,可能带来“题文不符”诱导点击的信息真实性问题,对新闻媒体的公信力造成潜在负面影响,人类在应用大模型时应注意这一点。

第五,本研究证实了文章主题和提示对大模型生成标题的“标题党”特征倾向的重要影响。在文章主题方面,相较于严肃议题文章,大模型在非严肃议题文章的标题写作中表现出更强的“标题党”特征倾向,这可能源于模型对训练数据的分布特点的学习。大模型受到人类提示语的影响非常大,提示框架中的角色、洞察(背景)和个性(风格)3个元素均能显著影响大模型的“标题党”特征倾向。其中,哪怕是间接的提示(如流量要求)都能带来较大的变化,直接的提示(角色和风格)的增强效果则更加显著。相应地,我们也可以通过限制性的风格提示来约束大模型生成“标题党”的特征倾向。

综上,本文所做的主要贡献在于:第一,本文首次在中文语境中,对大模型是否会生成“标题党”特征倾向这一事关公共传播的重要问题进行了实证研究,即便放在全球视野,这也在最早的实证研究之列。第二,本文首次对大模型生成“标题党”的特征倾向进行跨模型和跨人机的比较研究,尤其是揭示了中外大模型的不同表现,以及人类相对于大模型来说(默认状态下)更强的“标题党”特征倾向。第三,本文首次从输入数据和人机交互两个角度,提出由“主题”和“提示”两个因素构成的大模型生成“标题党”特征倾向的解释模型,特别是基于CRISPE提示框架,系统分析了角色、背景和风格3个元素提示的影响。本研究因此不但可以推进有关大模型新闻传播学的实证研究,而且对大模型的应用实践具有启示。本文的发现提醒我们,在将生成式人工智能和大模型积极应用于内容生产实践时,应当高度关注其表现,大模型生成的标题应当经过人类的检验与校正,特别要看其是否符合事实、表达严谨,不能放任助推“标题党”的泛滥。人类要认识到过度依赖“标题党”对当代新闻业的影响,通过行动创造更利于高质量内容可见性的机会,服务公共利益与社会福祉。

由于大模型的发展较快,未来研究可以关注大模型在生成“标题党”特征倾向方面的长期表现,以及人类价值对齐与反馈等对大模型表现的影响。此外,虽然本文选择了两个代表性的大模型进行分析,未来研究可以进一步扩大范围,纳入更多的模型,以深化对本研究提出的问题的理解。

(注释略)


作者周葆华系复旦大学信息与传播研究中心研究员,新闻学院教授,全球传播全媒体研究院、国家发展与智能治理综合实验室研究员,计算与智能传播研究中心负责人;张悦系复旦大学新闻学院2022级硕士研究生。

引用格式参考:


GB/T7714-2015 周葆华,张悦.大模型会产生“标题党”特征倾向吗?——以中外代表性大模型为例的实证研究[J].现代出版,2024(7):40-54.

CY/T121-2015 周葆华、张悦:《大模型会产生“标题党”特征倾向吗?——以中外代表性大模型为例的实证研究》,《现代出版》2024年第7期,第40页至54页。

MLA 周葆华,张悦."大模型会产生'标题党'特征倾向吗?——以中外代表性大模型为例的实证研究"现代出版.(7)2024:40-54.

APA 周葆华,张悦.(2024).大模型会产生“标题党”特征倾向吗?——以中外代表性大模型为例的实证研究.现代出版,(7),40-54.

制作: 王英丽

初审: 唐   颖
复审: 曾白凌   张国涛
终审: 张毓强



上海交大科史哲
科学史与科学文化研究院公众号
 最新文章