谢崇桥、谭漪淇|人工智能代替人进行审美评估的可能性探究

文摘   2024-09-23 15:02   北京  


作者

谢崇桥 谭漪淇   首都师范大学美术学院

原文刊于《艺术学研究》2024年第4期


摘要

人类在探索利用AI进行审美评估的过程中,先后尝试了偏重专家意见、偏重大众意见和偏重用户个人喜好等多种途径,但至今未能确立一个被广泛认可的评价标准。人脑结构与机能的复杂性、社会文化的多样、人类处于不同场域中的情感落差、数据采集过程中的偏差问题,以及AI“审美逻辑”流程化和过分追求准确结果等,均会导致AI模型在识别、理解与模拟人的审美时困难重重。未来,即便AI技术能够快速进步,人类也会因风险管控等原因不得不限制AI在主观能动性方面的性能。

引言


“美和审美”从古至今都是哲学和艺术中的重要课题,然而关于美在主客观问题上的争论,一直制约着审美判断理论的进一步发展。例如,休谟认为美是主观的,是个体情感和情绪的表达或激发,艺术作品的价值在于引起观者内心的情感共鸣。与此相反,亚里士多德认为,美是客观的存在,可以通过分析其结构和布局等多种属性,客观地分析和评判艺术作品的美。

随着计算机技术的发展,人类的数据搜集和计算能力得到了飞跃性的提升,在人工智能(AI)技术走向成熟之后,利用AI进行审美评估也就顺理成章地成为一种构建审美判断体系的新方案。然而,由于审美的主观因素众多且复杂,导致模型并不容易获取、识别和分析与艺术相关的数据,AI在审美评估的准确性与可靠性方面表现仍不尽如人意。目前,已经有许多研究者尝试从不同渠道采集与用户主观感受更为贴近的数据,使AI模型能更真实地模拟和学习人类的主观审美判断,以期得出更精确的审美评估结果。

未来,AI是否能拥有与人类相似的审美能力,甚至代替人完成审美评估?

一、AI代替人进行审美评估的多种尝试


(一)依赖专家的专业性审美

深度学习技术的突破与图像处理算法的进步,使各种基于AI的设计辅助工具不断被开发和应用。早期,AI主要依据领域专家提出的理论或制定的规则为“标准”参与审美评估,根据“结晶平衡”或“强调”等理论原则来评估某个版式设计是否具有视觉吸引力。

虽然专家提供的标准让AI参与审美评估“有法可依”,能增强评估结果的权威性,但同时也有其局限性。依据抽象的理论对具体对象进行审美评估时,往往会忽略很多超出理论解释范围的细节问题。再者,不同领域专家因自身的主观性,对同一审美标准的定义也存在差异,而且专家对“美”的解读与普通人对“美”的理解还常存在错位,导致AI无法作出相对准确的审美决策。

(二)重视大众意见的群体性审美

互联网与社交媒体的兴起,为AI能更广泛地收集大众对艺术作品的评判提供了便利。例如,从在线图片和视频分享平台Flickr的1075幅倍受大众喜爱的平面设计作品中,AI可以知晓更受大众喜爱的视觉元素,从而理解大众的审美偏好。

然而,大众意见也不一定完全真实,因为大众意见容易受到“意见领袖”的影响。保罗·拉扎斯菲尔德(Paul Lazarsfeld)和伊莱休·卡茨(Elihu Katz)在20世纪40至50年代提出两级传播理论(Two Step Flow of Communication),“信息首先通过大众媒体传递给意见领袖,然后这些意见领袖再将信息传递给他们的追随者。意见领袖在信息传播过程中起到过滤和解释的作用,显著影响大众的意见和行为”。德国政治学家伊丽莎白·诺埃勒-诺依曼(Elisabeth Noelle-Neumann)提出的“沉默螺旋理论”则表明,很多人出于害怕被孤立或与主流意见不符的原因而选择沉默,但这并不代表他们没有自己的意见。因此,即使AI广泛收集大量的大众意见,也难以真实反映大众的审美观。

(三)收集用户个人意见的个性化审美

随着深度学习技术和人工神经网络的发展,生成对抗网络(Generative Adversarial Network,简称GAN)和卷积神经网络(Convolutional Neural Network,简称CNN)在艺术与设计领域逐渐得到广泛应用,研究者在此基础上尝试让AI模型深入学习用户个人的个性化审美偏好,以期实现更智能的审美评估。例如,在线获取用户的审美反馈信息,并结合不同的主观特征和图像的视觉特征来学习用户的个性化审美,这似乎能让AI在审美评估方面有所突破。然而,直到当前,这类探究仍然未能取得实质性进步,因为人的复杂性和人类审美的高度主观性(甚至有很大随机性),让AI准确理解和模拟用户个人独特、复杂的审美偏好并不容易。这也导致了目前还未达到“通用人工智能”(Artificial General Intelligence,简称AGI)阶段的AI,尚显力不从心。

可见,人类试图让AI拥有与人相同的审美能力,从借助专家观点,到通过收集海量数据学习大众审美意见,及至进一步获取用户个人相关的审美偏好信息进行审美评估,其进步是显而易见的。但时至今日,AI完全代替人进行审美评估仍然困难重重,人的复杂性似乎令AI很难走完这段征程。

二、人类复杂性的表现


(一)人脑结构与机能的复杂性

审美判断来源于人脑的活动,而人类仅仅认识大脑这一控制人的行动、情感的生理系统就经历了漫长的历史过程。大脑的生理结构和神经元之间的连接方式、化学物质在神经系统中的作用,以及感知、思维和情感等运作过程,至今仍未完全解明。20世纪的科学界曾将布罗德曼(Brodmann)于1909年提出的“大脑皮层分区学说”作为理解人类大脑作用机制的重要原则,该学说将人类大脑皮层分为52个区域。但21世纪以来的脑科学研究表明,大脑在处理信息时并非简单地通过“固定分区”对身体各部位实施行为控制,而是涉及整个神经网络的动态交互,甚至具有某种程度上的“可塑性”。也正是由于大脑处理信息具有“可塑性”,人类才能够执行高级和复杂的认知任务,包括审美评估这一复杂的认知过程。

尽管目前的脑转录组学(研究基因在大脑中的表达)和连接组学(研究神经元之间的连接)技术已经取得很多突破性进展,可以在完整的脑组织中获取数百万个神经元的信息,但是电信号的记录仍然受到限制,只能映射到数千个神经元。这意味着目前的脑机接口技术虽然可以了解人类大脑的基本结构和连接方式,但对大脑神经元如何协同工作,以及这种工作如何控制特定的行为或认知功能等相关问题,仍未建立起较为严谨的理论。

人类至今仍未彻底弄清大脑的运作机制,让AI模型了解影响其主观审美的复杂神经活动更加困难,模仿人类对艺术作品的审美体验就更是难上加难。因此,尽管AI在某些方面展示了潜力,但在全面和准确地模仿人类审美评估方面仍有很长的路要走。

(二)社会文化的多样性

人的审美不仅仅是个体对审美对象的生理和心理反应,更是个体身心与复杂多样的社会文化互动的过程,这种带有变化的过程进一步增加了AI识别、理解和模拟人类审美的难度。

社会环境、文化背景等多种因素会潜移默化地塑造人的审美观,而且这些因素通常是相互交织的,受此影响,不同社群的人对同一事物的审美判断也会产生差异。例如,一些研究通过收集不同国籍的人对同一汽车广告(图1)的理解来探索跨文化在理解广告隐喻中造成的差异,使用UAM语料库工具处理与分析数据,得出以下结论:中国人倾向于将速度表的形象解读为数字的缺失,他们认为这是为了凸显汽车的“无限可能性”,是一种开放和不受限制的象征;西班牙人通过速度表的形象联想到汽车的亲和力,因为他们将这种汽车视为“友好”的汽车,速度表看起来更像一双微笑的眼睛;英国人的关注点侧重于汽车的燃油效率和经济性,认为速度表代表驾驶者不必担心燃油消耗。这项研究凸显了文化差异对人的审美理解所产生的影响,以及证明了同一元素在不同文化中会出现多样解读。

图1  奥迪广告分析实验所使用的汽车广告图片。

人类的伦理认知差异也是社会文化多样性的重要体现,这种差异导致AI更难识别、理解与模拟人类的审美。已有研究发现,广告会因为其内容所传递的价值观而受到推崇或批评。因为审美主体不仅关注审美对象外在的形式,还关注审美内容所传达的伦理立场和社会意义等深层次的价值观。而且,大众会受到自身的价值观、道德标准以及文化认同等多方面因素的影响。这些因素也是造成人与人之间在伦理认知方面形成差异的重要原因。更麻烦的是,人类的伦理认知并非固定不变,而是会伴随社会文化的变迁而改变。

人的复杂性还表现在个体之间的明显差异上,这种差异会比社会文化造成的差异更为多样而且令人难以捉摸。以语言的使用和解读为例,语言是人类审美表达与共享的主要媒介,美国社会学家哈罗德·加芬克尔(Harold Garfinkel)通过对日常生活中语言实践的详细研究和微观分析,揭示了人与人之间形成的“共享语境和默契假设”。加芬克尔将其解释为一种索引性表达,强调个体在实际生活中形成的一种理性而灵活的互动方式。然而,这种互动方式也会使得个体对相同的语句产生多种解读,从而形成理解差异。因为个体的语言选择、表达方式及交互模式会受到其自身独特的观点、感知与认知模式等多种因素影响,甚至被当下的情感状态、突发事件所左右,从而形成一种“个人化”“即时性”的语言交流模式。此外,个体表现出微观的语言特征,如音调、语速、强调等细微变化,以及肢体动作、面部微表情等非语言元素也会影响听者对语言行为的解读。

这些微妙的个体差异数据对于AI模型来说,并不容易获取与识别,想要学习和模仿就更加困难。

(三)情感落差

个体在不同的情景中和不同时刻有不同的情感反应,这种反应可能是明显的,也可能是隐含的、微妙的,表现为“情感落差”。而且这种落差还具有随机性、动态性的特点,不仅受到内在心理变化和自我调节的影响,同时还受到与外界互动的影响。外界因素包括周围的物理环境和社会环境,个体因素包括内在心理活动及调节和管理情绪与行为的能力,这些因素会共同影响着个体的情感感知与变化,形成“情感落差”,从而造成同一个体在不同时间段有不同的审美判断。已有研究证明,人在欣赏抽象艺术作品时,如果突然联想到与死亡有关的事物,会降低对“无意义”的作品的喜好程度。对于注重逻辑、秩序的人来说,这一点会表现得更加明显。但当提供关于作品的合理解释时,如作品说明或创作背景,这种影响会随之减弱。

已有研究尝试通过考察个体情感状态预测同一个体在一段时间内的情感变化。但影响情感变化的因素非常多,且以AI目前的计算资源和运算能力,想要长时间内深入观察并预测人的情感变化,进行动态性的审美评估,是极难完成的任务。事实证明,用AI采集文本如社交评论、图像标签等数据,甚至获取个人的社交群体和联系人列表等方式,均难以准确地预测人的情感微妙变化。因为情感落差的问题及采集到的文本还会受到社会文化、语言学上的影响,会造成一定程度的数据污染,从而影响审美评估的准确性。

总体而言,人类想要研究出一种使AI代替人进行审美评估的方法,就必须让AI识别、理解和模拟人的复杂性。理解大脑的工作模式和神经活动是最基本的,还需要用数据量化影响人类审美的多种因素。正如前文所述,当前的AI技术显然未能达到这一目标,而且目前AI在数据采集方面也存在着诸多挑战。

三、AI代替人进行审美评估的主要挑战


AI模拟人的审美,面临的主要障碍是“数据偏差”问题、“审美逻辑”流程化及追求“结果准确”的不合理目标三大难点,这三大难点分布在对审美对象和用户的数据采集、数据分析及输出结果等阶段性任务之中。

(一)数据采集中的“偏差”

人类审美具有高度主观性,因此基于人类审美活动而采集的数据存在不确定性,这会导致数据的注释存在“偏差”。以这类数据为基础建立的现有审美评估模型在进行审美评估时会出现评分交错和异常值。

为了解决上述问题,一些研究者尝试从多种不同渠道采集数据,获取来自不同背景和视角的样本,以增强数据的丰富性和代表性。最常用的收集渠道是从社交网络中采集大量与审美或情感有关的图像数据,或者进一步收集如人格特征等“主观性”更强且对人类审美影响更大的数据。一些研究者早前曾开发过个性化图像审美数据库(Personalized Image Aesthetics Database with Rich Attributes,简称PARA),并从实验室收集了438名受试者对31220张图像的主观审美数据注释,但对于“用AI进行审美评判”目标而言,这种规模的数据仍然远远不足以让经过训练的AI达到“接近大众认知”的水平。例如,在情感数据的注释方面,受试者仅能选择其中一个最能描述图像情感的类别。单一维度显然无法清晰阐释人类复杂的情感。面对经常变化的情绪状态,此类数据库更加无能为力。可见,现实操作中无法确保囊括所有与审美相关的数据,导致数据的种类和数量始终难以得到“质”的突破。因为影响主观审美的因素不仅有人格特征,还有文化背景、个人经历(体验)、认知能力、世界观、人生观、社会阶层、审美立场等。这些因素都涉及不同的、相互交织的维度和层面。

要收集那些最能直接反映人的情绪及其微妙变化的生理信号数据,比收集一般数据更为费时费力,难度大且成本高。其中,生理信号的采集需要佩戴相应的传感器进行测量,目前先进的AR技术能结合专用的传感器采集人类微妙的生理信号与运动数据。例如,七通道EMG(肌电图)、PPG(光学脉搏检测)、IMU(惯性测量单元),分别能够监测人类肌肉的收缩和松弛状态、皮肤表面的微小血管脉搏变化及人类运动和姿态等,其目的是更准确地理解情感的微妙变化。尽管如此,采集面部微表情数据目前仍存在挑战,因为面部微表情瞬时而微妙,往往在几秒钟内就会消失,需要高灵敏度的传感器才有可能准确地捕捉到。而且,对于有些人来说,面部表情能较充分地反映内心情感、情绪的变化,但对另一些人来说并非如此。

不仅收集海量数据会面临巨大困难,处理海量数据并将它们量化更难。由于数据采集过程中难免存在输入错误、传感器故障或其他异常情况,处理海量数据时,错误、重复项或无效数据也相应增加,需要手工或利用算法对大批量的数据进行清洗。一些数据还需要进行人工注释,因为注释由不同标注者完成——标注者既可能是外包的专业数据标注者,也可能是被邀请的特定行业专家,他们之间的审美差异也会影响到数据标记工作。此外,个体情感落差也可能会造成“数据污染”等问题,这些也同样会影响AI模仿人类进行审美的能力。

克服数据采集中的“偏差”问题,不仅需要解决不同时间、不同环境下会出现审美偏差的问题,还存在保护用户数据隐私等多种复杂的考量。例如,采集面部特征涉及肖像权等个人隐私信息和权利,需要经过严格的伦理审查和真实参与者的知情同意。一旦我们去收集用户的所有相关数据,那么全球用户的隐私都可能会受到严重侵犯,因为他们的个人信息将被完全暴露在公众视野之中,这显然是不被许可的。

(二)“审美逻辑”流程化的局限

AI模型的审美逻辑通常是基于特定的规则和数据集而建立的,人类的审美则大部分基于随机的主观感受。在构建AI模型时,研究者通常会经过收集数据、训练模型和调整参数等多个步骤,因此相关模型是遵循人类设定好的“审美逻辑”进行审美评估活动的,所得出的结果也将是流程化的产物。

尽管流程化的模型在某种程度上能够完成简单且易于识别的审美评估任务,但在面对一些复杂且抽象的任务时,其表现却不尽如人意。例如,一些抽象的艺术图像具有不规则的线条或形状、纹理等复杂的视觉元素,模型难以仅仅依靠“将明亮的颜色和平滑的线条划分为积极情感,将深色和混乱的纹理划分为消极情感”(图2)这类明确规则进行审美评估。这最终会导致模型得出与人类审美评估不一致的结果。此外,模型特定的审美逻辑还会带来“审美偏见”,因为训练数据的不均衡,模型会更倾向于将图像的审美评分落在某个特定范围内。当模型面对没学习过的数据时,其适应变化的能力较低,审美评估的准确性也明显下降。这表明,模型的“审美逻辑”是固定的,面对更为复杂的情境时,模型输出的结果与人的主观判断难以保持一致。

图2(左)抽象画作的原图,(右)AI情感分类的依据 (黄色为积极情绪,蓝色为消极情绪)。

相比图像,视频的AI审美评估会更为复杂与困难,因为视频不仅包含声音的音调、音量、节奏、字幕和弹幕等语言特征,还有眼神、面部表情、手势、姿势等非语言特征。这些特征使得AI模型需要对不同层面的信息进行综合分析和理解,其评估过程也显然比图像的审美评估更为复杂和具有挑战性。例如,解读视频中的文本信息需要模型理解语义的细微差异。因为文本本身就存在语言模糊、隐喻、引申等现象,而且互联网上的流行新词时刻在发生变化,如自创词、缩略语、互动词等,使得模型对文本信息和文本中传达的情感理解变得更为复杂。此外,视频中的图像内容复杂多变,从简单的静态画面转换到动态的场景,模型还需要识别理解多张不同图像中的细节信息。更麻烦的是,从视频中识别人的情感状态,还会遇到面部微表情相似性的问题,从而阻碍模型进行逻辑精确的审美评估。已有研究发现,模型会经常将“恐惧和快乐”这两种情感混淆。可见,语义理解、图像处理及情感识别的复杂性问题,共同影响着模型能否作出准确的审美评估。

(三)过于追求“结果准确”的不合理目标

AI模型在参与审美过程中,目标之一就是追求准确的结果,而人的审美是动态变化的。在过去的研究中,AI模型通常简单地将评估结果取平均值或将其归类为“好”或“坏”。一些研究者尝试采用审美评分分布图来取代传统的审美评分量化方式,通过收集不同用户对同一图像的审美评分,并将评分绘制成分布图来呈现。这种方法能够展现用户对图像进行审美的多样性和分歧,提供深入的审美分析。然而,这种方法仍只是追求一个准确的数字或更大可能性的概率,依然是基于固定的规则和规律进行计算和推理的。即使模型可能会被训练以适应不同的数据集或情境,它针对同一对象的审美结果在不同时间点上通常是一致的,除非人为更新模型或数据。相比之下,人的审美是动态变化的,个人的审美经验和偏好会随着时间、经历和环境的变化而变化,很难对其进行精确刻画。

人的审美还具有模糊性,不是任何情境下都非常清晰、确定或具有一致性的,这与AI模型追求准确的结果很不一样。人的审美涉及情绪、感知和认知等多个层面,还可能涉及无法言说的感受,难以用语言充分表达出来。有研究者为了让模型能够学习人类审美的模糊性,处理不精确和模糊的审美数据,引入模糊逻辑系统(Fuzzy Logic System),来推断用户的个性化审美偏好。尽管模糊逻辑(如艺术作品的“色彩丰富度”“情感表达力”等)在处理模糊性和不确定性方面表现出色,但将这种方法应用于审美判断工作时仍然有很强的局限性。例如模糊逻辑难以处理大量的、复杂的数据,面对多维度数色彩、构图、主题,难以有效地整合和权衡各个因素,尤其是在属性之间存在复杂相互作用的情况下。因此,当前的研究倾向于使用表现更为出色的神经网络。神经网络具有多层结构和大量参数,能够自动学习数据中的复杂模式,具有更强大的表达能力。

尽管人类试图用AI模型从不同角度识别、理解人的审美感知、理解和体验,但实际上还需要克服上述诸多难题。当然,AI技术的发展日新月异,模型继续“进化”完善的可能性很大。但关键是,人类会允许AI无限进化吗?

四、AI是否会代替人进行审美评估


当下,AI技术正以惊人的速度不断进步和发展,但在涉及人类主观意识和情感的领域,人类对发展AI技术的态度又变得极为谨慎。在探索AI代替人进行审美评估的路径上,这些技术限制构成了无法逾越的障碍。艾萨克·阿西莫夫(Isaac Asimov)提出的著名“机器人三大定律”,是以防止AI对人类产生伤害为目的而建立的。后来,研究者考虑到人机互动过程中的复杂问题,如语境的多义性、人类行为的复杂性及情感表达的变化等因素导致机器人难以准确理解人类的真实意图,而做出一些与人类伦理规范相违背的决策,对人类造成生理或物理伤害。于是,又补充了一些更详细的执行方案。

为进一步预防AI会超出人类预知,挣脱人类的控制,甚至带来无法预计的灾难性后果。许多防范性方法被陆续提出,如预测AI在多种不同的特定情境下可能产生的行为倾向,尤其是那些涉及权力、道德和伦理等复杂的情境。不仅研究者,多个国家的政府、地区性组织和联合国等国际组织也已经制定了明确规则,以防范AI可能给人类带来的危害。2023年12月8日,欧盟达成一项重要的政治协议,该协议覆盖了一系列议题,包括政府在生物识别监控中使用AI系统的规定,以及对ChatGPT等AI系统的监管。该协议规定:“必须对容易引发风险的基础模型进行系统风险评估、开展对抗性测试。重要事项应向欧盟委员会报告,确保网络安全并提供能源效率报告。”为了增强AI系统设计和应用的可靠性和透明性,减少系统发生意外或“错误”行为的可能性,以保障人类免受AI系统可能带来的伤害,2022年美国白宫科技政策办公室发布的《人工智能权利法案蓝图》Blueprint for an AI Bill of Right第一原则明确指出:“自动化系统的开发应广泛咨询各类社群、利益相关方和相关专家,以便弄清系统所牵涉的各种事项、风险及潜在影响。”中国、日本、加拿大、英国、新加坡等多个国家也已经或正在持续讨论制定AI技术的发展指导方针和监管规章制度。

可见,各国政府和国际组织的一系列提议及规定的一致底线是:AI的“进化”必须在人类的掌控范围内,而且必须往友好的方向发展。假如AI要代替人进行审美评估,那就意味着它要像人一样复杂多样甚至动态随机,但在这种情况下AI极有可能脱离人类的控制,而这超出了人类对AI发展的容忍底线。因为一旦超越了人类的掌控,AI就可能反过来控制人类甚至成为人类的敌人,比如欺骗与操纵关键人类决策者来获取经济资源,利用安全漏洞控制关键计算机系统,甚至威胁人类或自主使用生物武器,等等。这种风险极端危险,甚至可能导致人类灭绝或边缘化,这个后果无论如何都令人无法接受。

总体而言,人类不会为了让AI代替人进行审美评估而无限拓展其“智能化”的程度,无论从法规还是科学伦理上,人类都不允许AI无限靠近人类。因此,AI代替人进行审美评估即便能够保证一定的“客观性”,最多也只能停留在“辅助判断”这一层面。

本文作者谢崇桥

本文作者谭漪淇

责任编辑:赵东川

本文图片由作者提供

为阅读方便,略去引


相关阅读:

黄鸣奋|能动与受动:科幻电影评价的媒体性标准

刘方喜|文化第三场革命与脑工劳动解放:人工智能机器生产工艺学批判


点击以下链接即可阅读


《艺术学研究》稿约

“中国艺术概念与思想源流” 栏目征稿启事

“艺术现场” 新媒体专栏征稿启事

欢迎订阅2024年《艺术学研究》

《艺术学研究》2024年第3期文章荐读

《艺术学研究》2024年第2期文章荐读
《艺术学研究》2024年第1期文章荐读

《艺术学研究》2023年第6期文章荐读

《艺术学研究》2023年第5期文章荐读

《艺术学研究》2023年第4期文章荐读

《艺术学研究》2023年第3期文章荐读
《艺术学研究》2023年第2期文章荐读

《艺术学研究》2023年第1期文章荐读

点击左下角阅读原文即可购买往期杂志。

艺术学研究
《艺术学研究》是由中华人民共和国文化和旅游部主管、中国艺术研究院主办的专业学术期刊,2019年创刊(双月刊)。中国人文社会科学AMI综合评价核心期刊。入选中国人民大学复印报刊资料“艺术学学科期刊”高转载量、高转载率和高转载指数名录。
 最新文章