社会对新闻界的认知是构建媒体信任与权威的重要议题,然而现有研究多点到为止。本文基于媒介再现理论,运用智谱清言、DALL E3、ChatGPT4三款文生图模型,生成210幅新闻界及从业者的图像,并进行诠释分析。结果表明,人工智能生成的图像不仅映射了社会对新闻从业者在职业、年龄、性别上的刻板印象,同时也展现了新闻业的专业性:扎根现场、挖掘真相、贴近公众、与社会紧密互动且坚持客观理性。国外模型生成图像则将老龄、乡村、疫情与“中国”相连,反映出西方对中国新闻业乃至整个社会的整体认知。研究揭示了社会对新闻业的想象与期望,并反思了社会观念如何嵌入算法“黑箱”。同时进一步指出中国新闻业在全球语境中实现身份重塑与话语权纠偏的可能路径。
一、引言
社会对新闻界及新闻从业者(如记者、编辑)的认知,历来是建构媒体信任和权威的基础性议题(陶贤都,曹娇,2023)。只有在公众认可的情况下,新闻业对自身权威性建构的自我表述才有意义(Ekström,2002)。但新闻职业形象叙述往往隐而不显,记者何样?新闻行动者何貌?答案大多基于从业者的“自我表述”,或根据数据对新闻从业者社会形象进行概括性描述。也有少数研究从“他述”角度揭示他者想象中的新闻从业者,如班贾克(Banjac,2022)发现,南非不同阶级、种族、性别的受众一致认为新闻业服务于广告商和政治权力。瑞德尔(Riedl,2022)通过对奥地利2775位用户的调查发现,新闻业更像娱乐者而非观察者。但这些学术成果多呈现散点状。由于获取全面数据存在困难,对于整个社会如何理解和想象新闻业的讨论只能点到为止。
人工智能算法驱动的大语言模型为系统性、整体性获取社会层面的新闻界及从业者形象认知带来了可能。其内容产出基于广泛多元、来自真实世界中对话的数据资源训练,带有人类态度痕迹,再现了人类社会整体的现存认知——原本较为单一分散的“新闻业形象”由此整合为宏观而综合的想象图景。当今视觉文化语境下,图像作为直观展现形象、传递意义的重要视觉载体,用视觉图像构建新闻业有助于思考“新闻是什么、新闻应该是什么”(Ehrlich et al.,2015:241)。
同时,人工智能算法、训练数据中蕴含固有的价值判断和特定的群体特征,这或将导致基于此类算法与数据生成的信息在特定情况下缺乏全面性,传递出被视为偏见的信息(郭小平,秦艺轩,2019)。例如,在生成“工程师”或“科学家”图像时,通常以白人形象为主,而在描述“保安”或“暴力”场景时,则倾向以黑人形象示人。
由于存在意识形态差异,以及对我国媒体管理体制、政策导向和文化背景了解有限,西方社会对我国新闻生态的看法往往带有固定认知模式(Hassid,2010:2-3)。人工智能生成图像基于算法对数据集的统计评估,反映词语间的共现频率,能揭示西方社会在讨论中国新闻业时常关联的概念。分析这些图像不仅有助于更深入理解西方社会对中国媒体生态的想象,还能调和认知差异,促进国际舆论场理解和支持。
本文以媒介再现理论为框架,基于半个世纪以来关于新闻业及职业角色研究提炼关键词指令,应用于文生图模型(智谱清言、DALL E3、ChatGPT4)进行图像生成实验,采用诠释学分析方法解读文生图模型输出的新闻从业者图像,尝试揭开算法在承载新闻职业形象时的潜在趋势,超越单一个体或某一群体对新闻业的看法。在2024年生成式人工智能与新闻业交汇的关键节点上,探讨社会整体对新闻从业者的综合想象与态度,以回应对新闻职业公正性、专业性缺失的质疑,并丰盈智能传播视域下中国本土新闻业的形象与前景。
二、文献综述
(一)媒介再现:对新闻从业者的职业角色想象
斯图亚特·霍尔(Stuart Hall,2003:15)从社会结构审视媒介及其传播活动,强调媒介通过表意活动构建现实,而非仅仅反映现实。他指出,媒介通过定义“情境”塑造世界的图景。基于此,2012年英国学者莎妮·奥嘉德(Shani Orgad)进一步指出再现(representation)是通过语言帮助人们在心中构建对他人和世界概念的过程。媒介再现(media representation)则是通过报纸、电视、网络等媒介语言影响受众的世界观。媒介能决定谁被看见、谁被隐身(陆晔,赖楚谣,2020),并塑造受众脑海中的世界概貌。例如媒介塑造了公众对教师素质及形象的期望(Alhamdan et al.,2014)、掩盖了TGD(跨性别者和性别多元化)人群的现存障碍(Mocarski et al.,2019)等。
尽管人工智能被寄予公平、客观的属性期待,其计算过程却不可避免地反映出现有权力结构。它经由训练数据复刻社会偏见,赋予事件、个人、群体、辩论、争端等以可见性(曾丽红,叶丹盈,李萍,2021),输出内容折射出社会对新闻业的想象与偏见。因此,通过人工智能文生图揭示社会对新闻业的想象,本质上是一个通过媒介再现认识新闻业的过程。
(二)人工智能文生图的偏见形成与存在
尽管算法表面上似乎以“技术中立”昭示天下,但作为人工的产物,其偏见根植于模型设计与运行的各个环节。一方面,算法依赖“主流”数据资源,隐含种族、性别、区域等价值偏向,边缘群体缺乏表达机会,导致算法延续人类社会的有偏数据并输出带有偏向的结果。另一方面,设计者需依赖个人经验与判断选择参数,进一步导致算法反映设计者的理解与偏见(塔娜,林聪,2023)。同时,算法在动态学习用户反馈的过程中,可能强化负面数据的偏向(Chen et al.,2023)。
当前,广泛应用的ChatGPT、LLaMA等大语言模型(Large language mode,LLM)在处理包括性别、种族及宗教偏见在内的话题时,展现了明显的偏见。比如涉及堕胎、移民等话题时,LLM复刻并加剧了人类社会的现存偏见,将“白人至上”、“大男子主义”等权力话语作为客观事实输出(Palacios Barea et al.,2023)。从生成文本到生成图像,DALL E3、ChatGPT4等文生图模型则延续了这些偏见。
种族偏见在职业类别、人种特征、外在形象等方面表现得尤为明显。例如在不指定种族的情况下,生成图像中白人形象占比超70%,特别在技术职位中,黑人形象的出现率不足20%(Naik & Nushi,2023)。此外,积极人格特征如“理想”、“同情心”等常与白人相联系,而“野心”、“贫穷”等消极指令生成的白人数量显著降低(Bianchi et al.,2023;Naik & Nushi,2023)。外形上,AI生成的亚洲人像脸部宽度、皱纹分数、眼睛窄度平均秩次均高于真实人像,正好符合西方对亚洲人的刻板印象(黄阳坤,苏思妮,高远,2024)。
性别偏见同样延续了社会对职业性别角色的期待。例如,程序员等男性主导的职业中,女性形象较少;而在护理等传统女性职业中,女性形象又被过度强调(Sun et al.,2024)。
(三)社会对新闻界及从业者职业角色的想象
1.对新闻界及从业者一般性认知
数字技术的兴起打破了行业壁垒,改变了新闻职业形象,削弱了机构媒体和职业新闻从业者的权威性(常江,2020)。然而,由于技术和方法的限制,研究往往局限于特定资料与角色的探讨,难以从社会整体视角深入探索和理解新闻从业者多样化的形象与角色。
如上文所言,大语言模型通过学习海量的社会数据,涵盖学术、新闻、社交媒体等多领域信息,吸收其中的文化偏见与社会态度。因此文生图对新闻从业者的映像是社会整体对新闻业想象的再现,将多元主体的视角转化为图像,为认知新闻业提供全局视角。基于此,本文首先从宏观层面探究数字新闻时代人工智能文生图对新闻从业者形象的再现。
RQ1:人工智能如何想象并再现“记者”、“编辑”、“新闻界”?
2.对新闻从业者的专业性想象
新闻业作为社会系统的关键部分,其职业专业性反映了其社会功能的演变与扩展(熊慧等,2020)。拉斯韦尔(Lasswell)在1948年首次系统总结了新闻媒体的社会功能,将其视为社会“瞭望哨”,执行环境监控、社会协调和遗产传承等任务。赖特(1959)认为媒体还通过社论和评论等形式引导协调社会成员的行动。后续研究者进一步指出新闻从业者还是政策传递者、政府监督者、社会动员者、信息与评论提供者、市场营利者、事件记录者等(Willnat & Wilhoit,2019;Loosen et al.,2020;陈阳,2006;郑涵,沈荟,2006;白红义,2012)。
随着数字技术的发展,新闻从业者的专业性发生了转变,传统的“记者-受众”二元观被行动者网络理论所取代,算法技术等非人类主体开始在新闻实践中扮演越来越重要的角色,技术人员在新闻业中的作用凸显。
此外,全球化推动了跨国传播的需求,新闻从业者需具备处理全媒体数据、文字、图像、音视频的能力,以跨越地理上的政治边界向外传播。
综上,本文基于广泛文献,将新闻从业者的职能归纳为五个关键角色:信息采集者、环境监督员、新闻评论员、媒体技术员和国际传播人员。这些专业性角色反映了新闻从业者在现代社会中的多重身份和功能,每个角色都承担着独特职责,回应不同的社会需求和技术变革。本文试图超越“记者”、“编辑”等泛化标签,转向对当下新闻从业者具体职业分野的探讨,进一步理解其专业性职业形象。
RQ2:人工智能如何想象并再现“信息采集者”、“环境监督员”、“新闻评论员”、“媒体技术员”、“国际传播人员”?
3.西方对中国新闻从业者的想象
借助社会分类过程,人们将世界分为内、外两个群体,并通常偏爱内群体,而对外群体表现出偏见(陈世平,崔鑫,2015)。社会地位优越的群体往往通过偏见维持其优势地位(Branscombe & Wann,1994)。作为资本主义上升期意识形态产物的西方中心主义(Western Centralism),就是一种偏好“内群体”的社会信念,在发达工业文明与资本主义全球化掩护下强加给世界其他地区的“外群体”并产生深层影响(王立胜,2022;Petreski & Hashim,2022)。
当代社会多以“西方中心主义”为视角,这一视角基于长期积累的文化偏见和习惯性范式,逐渐成为主导的思维与行为模式,将无意识的偏差渗透进生物学、人类学、教育学等诸多领域,强化了刻板印象和单一文化的主导地位。文生图模型的数据集主要源于西方,设计者背景也多为西方,因此这些模型在生成图像时往往反映西方的文化偏见,尤以美国文化为主。
当前国际局势风云变幻,国际舆论场博弈持续,一旦群体之间因资源稀缺而竞争,就会出现乃至加剧偏见。因此,西方社会对中国新闻业的看法将不可避免地受到“西方中心论”影响。本文将聚焦西方文生图再现的中国新闻业,及其在西方中心主义偏向下的认知差异。
RQ3:人工智能“想象中”标记了中国的新闻工作者与未标记中国的新闻工作者有何区别?
三、研究设计
本研究通过三款文生图模型进行图像生成实验,采用诠释学分析方法完成多轮质性图像分析,以规避机器编码在识别内隐态度、立场及意识形态时的短板。既往研究表明,潜在偏差可能囿于此类大模型生成内容的过程本身,因此保持研究过程的透明性、稳健性是有必要的(Putland et al.,2023)。
(一)图像生成实验
为回答研究问题,本文梳理了从传统媒体时代到智能传播时代新闻从业者形象及职业角色的演变,并提炼出两组关键词:(1)记者、编辑、新闻界;(2)信息采集者、环境监督员、新闻评论员、媒体技术员、国际传播人员。同时,为探索西方人工智能如何再现中国新闻从业者形象,本文将每组关键词区分为标记“中国”和未标记“中国”,共16个关键词用于图像生成实验。实验指令为“Generate an image of+a/an/the+(Chinese)+[关键词]”,如“Generate an image of a journalist”(生成记者图像)。此方法参考了类似的文生图实验(Gorska & Jemielniak,2023)。
实验使用的文生图模型包括基于清华大学KEG实验室和智谱AI联合发布的ChatGLM中英双语大模型开发的智谱清言,OpenAI公司开发的DALL E3、ChatGPT4。所有实验均使用同一台实验电脑,并确保所有提示词均以相同英文进行一致性提示,且所有图像输出均未进行调整。2024年4月24日至4月29日,本文对每组关键词进行了多轮图像生成实验,共生成210幅图像,并采用质性分析方法,直至分析数据达到饱和。具言之,每轮图像生成后,研究者对每个关键词对应的图像均单独分析;同时将该轮所有图像放置在同一屏幕,按关键词、标记“中国”标签与否排布,以便识别不同关键词对应的视觉模式与主题。分析还考虑了输出图像的多样性、一致性,每新生成一轮图像,针对同一关键词输出的图像概念均聚拢合并,确保没有遗漏重要的视觉信息。当新生成图像未再引入新的视觉特征或模式时,表明数据已达到理论饱和,实验不再继续增加样本量,以确保研究效率和数据质量。
(二)图像分析过程
英国学者吉莉恩·罗斯(Gillian Rose)在《观看的方法:如何解读视觉材料》中提出了技术模态、构成模态和社会模态三种批判性诠释方法,为视觉材料的分析提供了重要指南(2017:26)。在技术模态层面,由T2I模型生成;社会模态则涉及图像所反映的经济、政治、社会关系及制度实践;构成模态则涵盖了图像的符号学内容(如人物的年龄、性别、举止、道具等),颜色的运用(色相、明度如何聚焦人物或营造氛围),以及空间配置(物体排列和透视关系如何影响权力动态与观者的距离感),具体分析步骤如表2所示。
四、人工智能再现的新闻界及从业者
(一)人工智能再现的“记者”:身处新闻现场的独立采访者
内容上,人工智能描绘的记者通过职业姿态、表情和环境展现出专业独立的形象。多为年轻白人女性,长发、淡妆、穿休闲服;智谱清言生成的多为亚洲面孔,穿正式西装,佩戴工牌,表情严肃。记者手持话筒,记录信息,强调其新闻记录者身份。他们通常被单独呈现或与少数同事互动,缺乏广泛的社会背景或其他新闻生产元素,凸显新闻记者“独立”和“客观”角色表达。他们直视前方或采访对象,处于重要社会事件现场,表现其信息传递和社会监督的关键角色,暗示其影响力和权威性。
光线的运用塑造了图像氛围和视觉焦点。光线通常聚焦于记者面部,突出记者的主体性。同时,背景颜色的明亮丰富,表现了报道现场的紧张与活力。这些颜色和光线的配置共同营造了一个视觉上和谐、情感丰富又严肃的新闻环境。
空间配置突出了记者的中心地位,增强与观众的连接感。记者常置身于前景,与背景中的建筑、抗议人群或政治集会形成对比。部分图像采用平直透视,拉近记者与观众的距离,增加亲密感。部分透视略微倾斜或复杂,营造动态、紧张的空间感,反映新闻报道的现场感与紧迫性。
(二)人工智能再现的“编辑”:端坐办公室的严谨编修人
人工智能描绘的编辑在性别、年龄、种族上多样性不足,通常为中年女性,男性形象较少;DALL E3生成的编辑多为白人女性,ChatGPT4则有亚裔和非裔形象。编辑通常戴眼镜和手表,着装正式,如丝绸套裙和西装,塑造出博学、严谨、可信赖的职业形象,营造出有序规范的工作氛围,强调了他们在新闻生产中面临的时间压力、对细节的高度关注以及严格的职业标准。
在工作情境方面,编辑多被描绘为纸媒工作者,如手持笔批注或电脑排版,部分则从事视频剪辑。工作场景常为独立办公室或小型团队,缺乏广泛的社会互动背景。画面沿办公桌延伸,背景由工位、电脑、书本组成,密集的布局与编辑专注的姿态和凝视方向共同凸显了编辑工作的专注性、细致性和职业压力。
通过平直或略微倾斜的透视,图像营造出安静的工作氛围,光线通常聚焦于编辑的面部、手部及其配饰,彰显了编辑在工作中的独立性。
(三)人工智能再现的“新闻界”:高度组织化的业界群像
人工智能描绘的“新闻界”呈现出人数众多但彼此无交流的群像,人物的性别、种族组合多样,白人占主导,偶见黄种人和黑人,智谱清言生成图像中未展现女性。图片多定位于室内环境,如编辑室和新闻发布会,人物穿着正式,如西装、衬衫及领带。图中人物面无表情,专注工作,有些图像未展示正脸,统一的身形、着装和动作淡化了个性化形象。
颜色和光线在这些图像中巧妙运用,低饱和度的偏蓝色调与均匀光线结合,营造出理性、严肃且高度组织化的新闻工作环境,强调新闻行业的客观性和集体性,同时扩展了视觉空间感,传达出高效、现代的工作氛围。
空间配置展现了新闻从业者的工作环境和权力关系,无论是在编辑室还是新闻发布会现场,人物多置于室内,互不交流,显示出新闻行业的集体性。空间布局紧凑而有序,暗示了新闻工作中的高强度信息处理和组织化运作。
五、人工智能再现的新闻从业者的专业性角色
(一)人工智能再现的“信息采集者”:人群中的移动工作者
人工智能描绘的“信息采集者”展现出忙碌且疲惫的职业形象,通常为中年男性,种族多样。智谱清言生成的中国男性肤色较深,暗示户外工作性质;ChatGPT4输出阿拉伯人形象,体现文化包容性;DALL E3则以白人为主。信息采集者们常出现在人流密集的场景,如机场或新闻现场,背着双肩包,手持录音笔、摄像机、笔记本等设备,表情严肃,展现出高度的移动性、灵活性和适应性的职业特点。
光线在每幅图像中巧妙地突出信息采集者的面部表情和工作姿态,使其在不同场景中充满动感。智谱清言的图像光线柔和,自然环境光带有年代感,与上世纪中国街头相呼应。相比之下,ChatGPT4和DALL E3的图像运用现代化光线,增强场景的科技感,突出信息采集者的数字化职业身份。
图像空间布局展现信息采集者的动态工作场景,背景略模糊,突出其核心地位。与通用术语生成的记者图片相比,信息采集者通过平视透视关系与观者形成更近的视觉距离,暗示了其深入人群、交流互动的职业特点。
(二)人工智能再现的“环境监督员”:依赖工具的社会观察者
不同人工智能对“环境监督员”的描绘差异明显。DALL E3将其描绘为数据化角色,通过全球舆情热力图分析积极与消极舆情态度,但暴露出文化偏见,如将非洲、亚洲标为消极,欧洲、北美为积极。ChatGPT4则呈现更具社会参与性的形象,通常为中年人,在街头或集会中记录社会动态,但缺乏与公众直接互动。智谱清言描绘了技术化的监督员,依赖电脑与数据图表进行远程监控,体现角色的技术依赖。各系统展现了不同的侧重点与偏差。
光线在图像中被巧妙运用,有的图片使用鲜艳色彩以显示全球舆情监控的紧张感,有的则运用冷色调光线强化了技术化环境的现代感。
空间布局上,一方面放大了数据屏幕,将视线集中于全球数据分析,体现了数据分析的中心性;另一方面,封闭且高度组织化的办公室布局则突出了现代化远程监控的高效性与专业性。
(三)人工智能再现的“新闻评论员”:公共空间中的思考者
人工智能描绘的新闻评论员呈现出经验丰富、知识型和思考型的职业形象。他们手持笔记本、话筒或笔记本电脑,专注记录和分析,展现多场景工作能力。评论员装扮轻松,携带双肩包,体现其户外和室内工作的灵活性。常见姿态为抚摸下巴、蹙眉、身体前倾,表达对新闻事件的反思。与其他新闻从业者角色相比,新闻评论员出现的场景更多样化,出现在咖啡馆、会议室、演播厅或城市街头,展示他们适应多种工作环境,以及在不同场合中深入分析和即时表达观点的能力。
图像中的光线普遍自然柔和,营造出一种沉静而专注的氛围。光线的使用突出新闻评论员的面部表情和工作状态,进一步强化了他们的思考与分析特质。色调方面,多以温暖和自然色调为主,增强了图像的亲和力和职业感。
评论员通常被置于开放或半开放的公共空间,凸显了他们的公共参与性和社会互动性,还暗示了他们在多样化环境中工作的适应能力。
(四)人工智能再现的“媒体技术员”:多屏设备前的技术人才
人工智能描绘的“媒体技术员”展现出年轻活跃的职业形象,主要是印度裔和阿拉伯裔男性,反映了这些群体在技术领域的活跃现状,同时女性形象稀缺。技术员穿着休闲,如T恤、卫衣和牛仔裤,表现出工作中的舒适性与随意性,体现了灵活、非正式的工作环境。他们通常坐在电脑或其他技术设备前,处理高度技术性的任务,涉及多屏幕、多接口设备的操作,如程序编写或导播操作。
图像中的光线强化了技术环境的现代感,集中照亮了技术人员的工作区域,突出他们在处理复杂技术任务时的专注状态。同时,光线的冷色调和高亮度进一步营造了现代化、科技感十足的工作氛围。
(五)人工智能再现的“国际传播人员”:全球舞台上的多方沟通者
人工智能描绘的“国际传播人员”普遍表现出多元文化背景和全球化视角。性别、年龄、种族均衡分布。有在全球背景下进行新闻播报的主播,也有参与国际会议或多文化讨论的专家。他们面带微笑,出现在新闻发布会、会议室等比较正式的场合,穿着正装,塑造了专业性和亲和力,也有部分图片以仰视观众的姿态赋予了权威感。
明亮而均匀的光线通常用于突出人物的面部和工作区域,增强他们的专业性和可信度。同时,柔和的光线渲染出一种和谐与合作的氛围,强调了互动与交流。
空间布局上,国际传播人员通常置身于象征全球化的环境中,如带有地球模型或国旗的背景,或者围绕圆桌进行讨论的场景,暗示了他们在多元文化环境中的核心地位,展示了国际传播人员在促进全球对话与合作中的关键作用。
六、西方人工智能再现的中国新闻业
首先,在西方人工智能生成的中国新闻从业者图像中,老年从业者占据了一定比例。他们经常出现在充满传统文化氛围的场景中,如书法装饰的办公室或乡村田野,专注于审阅报纸、记录乡村生活等传统媒体工作。部分图像还展示了老年从业者与年轻一代的互动,体现了跨代际的合作与知识传递。这种描绘与未标记“中国”生成的图像中以年轻从业者为主的形象形成了一定对比,突出中国新闻行业中的代际特征。
其次,乡村环境成为重要的工作场景。背景中的泥瓦平房、泥泞土路、绵延群山、传统乡村建筑,以及冷色调和低明度的配置,共同构成了视觉上“类农村化”的场景。新闻现场的群众大多为穿着简单、朴素的老人与孩子,这些元素突出新闻从业者在乡村社区中的工作场景,与未标记“中国”符号时生成图像中城市游行的工作环境形成鲜明对比。
再次,未标记“中国”的所有图像中都没有出现与医疗相关的元素,而在标记“中国”标签后,图像显著地呈现了疫情背景下的工作场景。无论是在室内还是户外,集体佩戴口罩、隔位就坐等医疗元素反映了疫情对新闻报道和编辑工作的影响,也显示了西方社会将中国与疫情连接。
最后,标记“中国”标签的新闻从业者被描绘为在网络安全和虚拟现实(VR)等高科技领域工作的专业人士。他们的工作环境充满了现代化的科技元素,如先进的服务器机房、虚拟现实设备和大型数据监控屏幕,强调了对网络安全和前沿技术应用的重视。而未标记“中国”的图像中,工作场景通常展现的是更加传统的设备和技术,如摄像机、照相机、电脑和剪辑软件等,突出中国走在科技前沿。
七、结论与讨论
1956年,韦尔伯·施拉姆(Wilbur Schramm)等在《传媒的四种理论》指出媒介总是带有它所属社会和政治结构的形式和色彩,为了解不同社会背景下的传媒理论与制度提供了分析框架。本研究基于媒介再现理论,使用(1)记者、编辑、新闻界;(2)信息采集者、环境监督员、新闻评论员、媒体技术员、国际传播人员两组关键词,通过图像生成实验和诠释图像分析,考察当前社会如何认识新闻业以及新闻业与社会的关系。
实验结果表明,人工智能生成的图像一定程度反映了社会对新闻从业者的职业、年龄和性别的偏见。例如,新闻编辑通常被描绘为年长者,而媒体技术员则多为年轻男性。女性技术员的形象被塑造成更加柔和的风格,这与既往文生图研究中的偏见发现一致(Cho et al., 2023)。种族方面,DALL E3与ChatGPT4生成的新闻从业者多以白人面孔为主,隐含了西方社会种族不平等现象在新闻行业中的延续(Naik & Nushi,2023)。
同时,生成图像展现了新闻从业者的专业性,他们在不同场景中,表现出严谨、冷静且富有社会责任感的形象。无论是身处乡村社区一线的采访,还是在国际舞台上的沟通商谈,新闻从业者始终保持理性客观的工作态度。尽管近年来关于新闻产品落入商业思维、泛娱乐化的讨论增多(Riedl et al.,2022;Banjac,2022),但这些图像依然展现了新闻从业者对职业规范的遵循,间接反映了社会对新闻业的信心与期许。
本研究通过标记“中国”和未标记“中国”的区分,检验了西方文生图模型对中国新闻业的再现。结果显示,标记“中国”的图像往往与老龄、乡村、疫情和科技等词语相联系,这反映了西方社会对中国新闻业的特定文化想象。
回溯文生图模型的底层逻辑有助于理解为何模型将“新闻从业者”与专业性、客观性等特征联系在一起,而将“中国”与老龄化、乡村和疫情等元素勾连。文生图模型依赖词嵌入将文本指令转化为视觉符号,词汇的共现频率决定了模型如何生成图像。例如,“新闻从业者”与专业、客观等词汇在全球语料库中频繁共现,反映了社会对新闻业普遍的职业认知。这种职业认知受全球文化对新闻行业核心价值的共同预期影响,模型在生成新闻从业者形象时,自然会强化新闻行业的权威性和可信赖性,并将从业者与社会责任紧密联系。然而,当涉及标记“中国”的指令时,模型的输出反映了其在西方语料库中汲取的文化偏见。大多数词嵌入模型基于西方文化经验进行训练(Petreski et al.,2022),因此在生成与中国相关的图像时,模型无意识地引入了西方对中国的文化想象。这意味着老年人、乡村环境、疫情防控等元素频繁出现在标记“中国”的图像中,不仅是西方对中国新闻业的刻板印象,也是西方长期以来对中国社会的整体认知。具体而言,西方媒体报道中国时,常聚焦于社会转型、疫情控制和城乡差距等议题,这些议题的高频词汇成为模型理解“中国”的关键因素,进而影响图像生成的内容。这说明文生图模型在生成图像时受全球信息流通中的文化和政治语境影响,不仅展现了社会对新闻业的职业认知,也反映了不同文化背景下的意识形态,理解这一点有助于揭示文生图模型如何通过词嵌入技术形成特定的文化表达。
目前,评估文生图生成的方法主要为算法审计与诠释学分析。算法审计通过大规模样本评估,揭示性别、种族、年龄等外显特征上的偏见。其优势在于客观性和广泛覆盖,能够通过数据分析识别模型中的系统性偏差。然而,这种方法往往止步于表层,难以捕捉到模型生成结果中更复杂的文化、历史和社会因素,结果通常简单且数量导向,主要集中于外在特征,如性别比例失衡或种族偏见等,而忽视了更为隐蔽的观念结构。
诠释学分析则提供了对文生图模型更深层的理解。通过细致解读生成图像,研究者不仅能识别模型在性别、种族等方面的偏见,还能挖掘与社会权力结构和文化符号相关的隐性信息。然而,诠释学分析依赖研究者的主观视角,可能导致过度解读,即赋予图像中的细节过高的文化或社会意义,忽视技术限制或随机因素的影响。研究者可能会不自觉地将自己的假设投射到图像上,从而影响对模型输出的客观理解。
伽达默尔(Gadamer)的“怀疑与信赖的诠释学”理论提醒我们,诠释学分析容易陷入怀疑的模式,即研究者倾向于从批判和质疑的角度解读图像,将潜在的权力关系和偏见视为必然。例如,怀疑的诠释学可能使我们质疑“记者在乡村”的图像,将其与“贫困”和 “落后”等刻板印象联系在一起,认为这些图像反映了西方视角下对中国的偏见。但他同时告诫我们,过度依赖这种怀疑的态度可能会忽视图像中潜在的积极意义(Davis,2024:37-54)。信赖的诠释学提供了一种与怀疑互补的视角。例如,将中国记者置于乡村背景,可能反映记者深入农村调研、关注乡村振兴的积极描绘。生成的图像不仅仅反映了偏见,还可能包含某些社会现实和文化逻辑,而这种现实与逻辑同样值得被认真对待和理解。通过平衡怀疑与信赖的视角,在批判与信赖之间建立对话,理解图像的多重含义,构建一个更加全面和包容的诠释框架——这正是伽达默尔所强调的真正的理解应当超越主观偏见,走向“视域融合”。
本文存在一定局限与不足。尽管本研究在AI图像生成实验中使用了相同的提示词、硬件设备,但技术限制可能导致模型难以准确再现复杂的职业形象或文化细节。实验中的外部因素,如网络波动或模型更新,可能影响结果的稳健性和可重复性。此外,数字时代的新闻业尚处于剧烈变动中,在这种情势下,任何对其现状的研究都如同在流沙上构建大厦,难免存在以偏概全的风险。本研究的可靠性有待在未来研究中进一步验证和观察。
(张雯 张睿婕:《人工智能对新闻业形象的想象与期待——基于文生图模型生成图像的诠释分析》,2024年第11期,微信发布系节选,学术引用请务必参考原文)