智能体数字孪生人的形象——行为相似性对用户体验的影响研究

创业   2024-10-06 17:00   北京  
星标才能经常看到我们哦~
后台回复加群加入现代广告圈


| 摘 要 | 数字孪生人技术能够实现人类生理特征的数字化呈现,但是在社会传播和营销领域因其意识和自主语言行为处理能力的欠缺而导致无法对用户体验的提升产生有效作用。以ChatGPT为代表的大语言模型(LLM)已被研究证明具有强大的应用价值,AIGC赋能的智能体能够与数字孪生人深度融合,形成具有个性化自我意识和行为的数字化身新形态——智能体数字孪生人。智能体数字孪生人在个性化模型建构和生成式AI的技术支撑下,其形象和行为与人类的相似性将发生重大提升,不仅拥有人类的一系列内外特征,而且能够在与用户沟通的过程中实现从感官、交互到情感全流程的用户体验优化,构建新型人与智能体社交关系。


| 关 键 词 | 智能体数字孪生人  形象相似性  行为相似性  用户体验


| Abstract | Human digital twin (HDT) technology can present human physiological characteristics in a digital form, but in the field of social communication and marketing, due to its lack of consciousness and autonomous linguistic and behavioral processing ability, it can not play an effective role in improving user experience. The Large language model (LLM) represented by ChatGPT has been proved to have strong applicational value. The agent enabled by AIGC can deeply integrate with digital twin to form a new form of digital avatar with personalized self-awareness and behavior - Agent human digital twin (AHDT). Under the technical support of personalized model construction and generative AI, the level of similarity in physical and behavioral condition of the Agent human digital twin with human beings will be significantly improved. It will not only have a series of internal and external characteristics of human beings, but also optimize of user experience in the whole process from sensory, interaction to emotion in the process of communication with users, and build a new social relationship between human and agent.


| Keywords | Agent human digital twin    Physical similarity    Behavioral similarity    User experience



01

研究问题缘起


当我们还在探讨数字孪生人的技术特征和应用价值的时候,AIGC(Artificial Intelligence Generated Content,人工智能生成内容)、认知计算和情感计算的出现和快速发展促使数字孪生人进化成为“智能体数字孪生人”。相比于实现了外在仿真和拟人形象的数字孪生人来说,智能体数字孪生人在内在思维和情感能力方面实现了重大飞跃。京东直播中,以刘强东为数字孪生原型的AI数字人——京东“1号采销”东哥不仅能够熟练介绍各种产品、指挥直播流程、引导网友刷评论,还能够即兴回复网友的评论内容,通过认知和思考能力与用户实现交互[1]。如今生成式人工智能(Generative Artificial Intelligence, GAI)具有创造性生成、控制和改进有价值的多元数据的能力,产生人工智能生成内容[2]。该技术与数字孪生人结合,已成为电商直播、智能助手等众多场景的最新解决方案。


过去的研究发现,化身代表(即实时控制的用户数字表示形式)可以影响用户与他人互动的方式,并影响沉浸式虚拟环境内外的行为[3]。智能体数字孪生人凭借其形象和行为的超越性拟人特征表现,或将在未来的智能体社交当中与物理意义上的人类实现深度交互,这种交互不仅体现在感官上,更体现在情感上。


随着以用户为中心理念的深入发展,用户体验在产品和服务策略运营中的重要地位已成为全社会的共识,成为测量产品或服务效用程度的重要指标。除此之外,提供更高质量的用户体验已成为差异化战略的一部分,能够帮助赢得新用户、增加产品或服务的市场份额以及缓解定价压力[4]。如今许多行业遇到了用户体验提升上的瓶颈,在人工提供服务方面,首先,为了努力与用户建立更顺畅的语言联系和情感联系,企业不得不提升对直播主播、人工助手等岗位的人工投入成本,相对压缩了企业的利润空间;其次,利用人工劳动所实现的用户体验具有不确定因素,包括生理限制服务时长、道德认知引发公关风险、形象管理难以实现标准化等问题,都大大影响着用户体验,进而影响客户满意度,甚至关乎整个企业的命运。对这些问题的解决催生了数字虚拟人和数字孪生人的入场,在数字虚拟人的应用上,由于行业规模的扩大和技术发展的不充分,数字虚拟人提供的用户体验标准日益僵化,同质化程度较严重,不利于企业和品牌的可持续发展;数字孪生人虽然可以部分实现感官体验的拟人化和个性化,但是在内在认知上仅限于数据库信息的输出和预设算法的程序化执行,凸显出了浓厚的工具属性色彩,限制了用户体验的进一步提升。明确地针对用户体验和相关终端用户价值主张进行差异化运营,需要对人们如何与技术交互有一个全面的理解[5]。智能体数字孪生人在突破真人生理瓶颈的基础上,形象和行为上的拟人相似性得到深度进化,情感计算和认知计算结合AIGC智能化生成交互内容,用户在与其交互的过程中将通过感官和情感等内外多模态途径得到与传统数字孪生人和数字虚拟人交互不同的体验感,或将对用户体验和产品服务满意度的提升产生重大影响。


02

文献回顾


2.1 数字孪生人


数字孪生(Digital Twin)是物理对象、过程或系统的虚拟复制品,是实时模拟物理对象的行为、性能和特征的计算机化模型[6]。许多国际著名企业已开始探索数字孪生技术在产品设计、制造和服务等方面的应用[7]。在医疗保健领域当中,由于众多相关研究将数字孪生技术与人体生理和心理进行结合应用探索[8],一种新概念“数字孪生人(Human Digital Twin, HDT)”逐渐被创造出来。他们普遍认为,数字孪生人能够实现医疗服务的个性化,是一项必要和具有前景的技术[9][10]。随着越来越多行业将数字孪生人作为弥补虚拟数字人现有缺陷的解决方案,数字孪生人的定义被丰富和完善。Wang和Zhou认为,数字孪生人是反映多维信息的人类的对应物,从而实现物理世界和网络世界之间的双向交互。它是人类的模型或数据库,能够利用关键信息数字化地描绘特定对象(例如物理模型和生理模型)[11]。Hafez认为数字孪生人的作用是提供整个人类—人工智能空间中各种交互的完整记录,并识别这些交互中出现的所有可能模式[12]。Wei将数字孪生人定义为现实世界中的真实人物在网络空间中的复制品或对应物[13]。众多文献从技术的角度,结合自身领域对其应用类别,对数字孪生人给出了专业化的定义,它可以是患者、医生、工人等角色,但是徐瑞萍等人给出了一个简便而又准确的定义,认为将数字孪生技术应用到现实中的人就是“数字孪生人”,能够对人实现身体上、心脑上、边界上的解放[14]。


2.2 智能体数字孪生人


随着人工智能发展的实体化,曾经停留于哲学思想当中的智能体(Agent)得到了形态和概念上的飞跃,在人工智能研究中,智能体被定义为显示智能行为并具有自主性、反应性、主动性和社交能力等素质的实体[15]。智能体旨在使计算机能理解用户的兴趣并自主地代表他们采取行动,它可指生物智能体,也可指具有一定认知能力的软硬件实体[16]。对智能体的认知分为抽象和具身两种层次[17],事实上智能体数字孪生人作为抽象的数字形态,希望能够达到的是对用户具身的感知和体验效果,大语言模型尤其是ChatGPT的广泛应用让人工智能领域研究者看到了其对智能体的价值并进行融合建构。基于大语言模型的智能体(LLM-based Agent)将大语言模型作为大脑或控制器的主要组成部分,通过多模态感知和工具利用等策略扩展其感知和行动空间,并借助思维链(CoT)和任务划分等技术来实现推理和计划能力[18]。智能体作为大脑般的信息枢纽,能够为数字孪生人的智能化提供源源不断的动力。


根据其概念和实际应用来看,数字孪生和数字孪生人技术将重点放在了对物质主体的数字化呈现上,对用户的交互效果停留在感官的拟人化和解决问题的应用目的上,工具属性大于社交属性。随着人工智能技术的不断进步,生成式人工智能对数字孪生的赋能作用更加明显。生成式人工智能(Generative Artificial Intelligence, GAI)是在一个领域(例如图像和文本)的大量数据上训练的模型,为了训练生成模型,在某个领域收集大量数据(例如,思考数百万的图像,句子或声音等)之后训练模型来生成类似的数据[19]。它由以大语言模型(Large Language Model, LLM)为代表的一系列底层技术所驱动,特别是作为其核心的深度学习技术已经在自然语言理解各种任务中产生了颇有希望的结果,尤其是主题分类、情感分析、问题回答和语言翻译等[20]。得益于生成式人工智能的赋能,以工具属性为主的数字孪生人发展成为新形态——智能体数字孪生人。


智能体数字孪生人由“智能体”和“数字孪生人”有机融合的新型拟人化数字孪生体,其内在与外在都实现了质的飞跃。生成式AI在赋予智能体数字孪生人多模态输出的能力之外,更实现了智能体数字孪生人内在感知智能的能力,是仿真拟人外在与认知计算、情感计算和人工智能赋能的内在有机融合的社交智能体。与传统的数字孪生人相比,智能体数字孪生人在思维(认知)、情感、行为三个方面中都有不同层面的仿真性发展。


2.2.1 人的思维(认知)


来自物理和虚拟空间的数据,包括收集的数据、AIGC模型生成的数据、模拟数据、历史数据等规模大且复杂,因此高效可靠的数据管理是必不可少的[21]。智能体数字孪生人能够利用扩散模型(Diffusion Models)以及对抗生成网络(Generative Adversarial Networks, GAN)进行预处理,从而用于进一步的思维训练和认知拓展[22]。除此之外,智能体数字孪生人能够通过基于训练的AIGC模型对输入的内容进行逻辑性和规律性的推理,最后完成输出任务。事实上,在风靡全球的聊天生成预训练模型ChatGPT中使用的人类反馈强化学习(RLHF)已经隐含地结合了人类的经验和知识[23]。这种思维拓展过程能够实现智能体数字孪生人对现实世界的认识深化,并输出符合物质世界规律和范式的内容,整个思维过程呈现高度仿真和拟人的特点。


2.2.2 人的情感


情感计算(Affective Computing)和情感分析(Sentiment Analysis)这两个术语都与人类情感或情感的计算解释和生成有关。前者主要与瞬时情感表达有关,通常与语音或图像/视频处理有关,而后者主要与长期观点或态度有关,通常与自然语言处理有关[24]。端到端深度学习框架[25]和深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)[26]已分别被证明对情感识别和情感分析具有更有效的功能。研究表明,在情感分类准确性方面,以ChatGPT为代表的大语言模型(LLMs)不仅可以与传统的迁移学习方法竞争,而且在某些情况下还可以超过传统的迁移学习方法[27]。智能体数字孪生人能够利用“情感孪生数字人”架构实现情感建模、情感感知、情感编码和情感表达,跨越人和机器之间的情感鸿沟[28],真正实现“智能体社交”。


2.2.3 人的行为


人的行为包括核心的内在价值观和由此引发的外在表现,而外在表现是多模态的,智能体数字孪生人在交互中的外在表现主要包括视觉(面部动作和肢体动作)和听觉(声音形态和语言内容)的呈现。事实上,在核心部分内在价值观方面,智能体数字孪生人在大语言模型的赋能下能够实现对外部数据内容的主动学习,但价值对齐(Value Alignment Problem)的紧迫性正随着生成智能的加速迭代而愈渐凸显[29]。价值对齐问题来源于人工智能的所作所为和我们所希望它做的事情产生脱节[30],尤其是人类所推崇的普世价值观等方面。但另一方面,大模型作为智能体数字孪生人模拟跨文化对话的技术中介,为包括价值融合、价值冲突在内的“价值仿真”提供了可能,人类可以由此评估和寻找最佳状态[29],实现社交体验的提升。


在多模态外在表现方面,智能体数字孪生人充分发挥大语言模型赋能后的音频-文本-图像的智能生成功能,直接将声学特征的输入序列映射到视觉特征序列。人脸生成的基本方法3DMM(3D Morphable Models)基于卷积神经网络(Convolutional Neural Networks, DCNN)和对抗生成网络构建,能够结合平均人脸、形状系数、表情系数,用神经网络模型进行计算,重建一个三维人脸,其五官能够跟随语言文字的变化产生图像的变化。此外,已有研究人员制作出语音操作角色动画(Voice Operated Character Animation, VOCA)来实现3D面部动画,通过捕捉说话人风格,生成情绪化五官[31];最新提出的EGAME能够从音频和屏蔽手势生成全身人类手势的框架,包括面部、局部身体、手和全局运动[32]。声音方面已有各种声音克隆技术将真人产出的声音训练数据集通过模型建构,生成与物理世界真人声音特征相仿的数字虚拟声音。B站最近很火的“AI孙燕姿” “AI周杰伦”相关视频就是这种技术应用的典型案例。因此,内在价值观和外在视觉听觉的结合仿真,极大地提高了智能体数字孪生人在呈现人的行为方面的效果,为实现人机社交甚至是未来的“人机共生”或“碳基/硅基共生”提供了技术基础。


2.3 形象-行为相似性


视觉外观在印象形成过程中起着很大的作用,无论是线上还是线下[33]。人机交互的效果,很大部分取决于机器那方与真人的形象和行为的相似性,因为这会对用户的自我表达和情感体验造成一定影响[34]。视觉方面的拟人化相似性对数字化身的社会组织的推定影响是理解用于在虚拟世界中形成社会互动的认知过程的关键问题。研究发现,在健康医疗领域中拥有形象相似性的外表可能是加强分享各种健康福祉问题的同龄人之间的社会纽带的一种方式[35]。除了认知以外,虚拟化身的形象相似性更会引起用户的实际内在行为,具有较高相似性的化身有可能获得相对较高水平的信任[36]。在使用自我化身(Self-avatar)以及面对面交互的条件下,参与者在合作时比在竞争时能更快地完成任务,体验效果更好、更有效率[37]。


Schultze在研究自我化身的临场感时将“人们在虚拟环境中的行为与他们在类似的现实世界中的行为相同”作为衡量指标之一,也就是以行为相似性作为人机交互效果的测量标准之一[38]。行为相似性的设计要素包括控制能力、互动对象和互动方式[39]。有研究表明,更高的化身用户相似性总体上会导致更高的任务投入[40]。事实上,数字孪生人的行为如果呈现出机械化和程序化的特征,用户对其的工具需求会更强;当数字孪生人以更加人性和逼真的遣词造句和语气输出内容时,智能体社交效果将大大增加,极大地提高用户的社交体验。


2.4 用户体验


用户体验(User Experience, UX)概念近年来随着互联网的发展和交互式体验平台的快速进化被广泛提出,其定义和内容也呈现出多元化的特点。用户体验倾向于包括更广泛的人类体验维度(如快乐、乐趣和其他情感),也可能有时间或纵向的组成成分。它包括情感和感知的内涵,涉及一个持续的反馈循环,在整个使用生命周期中周而往复进行[41]。品牌或平台在用户体验方面努力提升,可以提高用户保留率和品牌忠诚度[42]。陈娟等人认为,用户体验是指人和产品交互时产生的不同的体验,包括用户所感觉到的需求被满足的程度、用户赋予产品的意义,以及在此过程中产生的感觉与情感。其中的显著影响因素包括有用性、情感和用户价值[43]。除此以外,用户体验的APEC模型包括审美、实用、情感和认知[44];用户体验蜂窝模型包括有用性、可用性、满意度、易寻性、可信度和可获取六个维度[45];喻国明认为用户体验强调的是用户在使用产品或服务过程中所建立起来的全部体验, 包括认知、情感、态度等方面[46],从认知神经传播学的角度将影响媒介用户使用体验的感知划分为:有用性、易用性和满意度三个维度,并结合认知神经科学视角将其解释为感官体验、交互体验与情感体验三个层面[47]。基于本研究所关注的智能体数字孪生人的形象-行为相似性的交互效果特征,形象相似性和行为相似性更加贴近用户在使用过程中的感官体验和交互体验,而这两种体验会最后导致情感体验的提升和满意度的提升。因此本研究将运用感官体验、交互体验和情感体验来分析智能体数字孪生人形象-行为相似性对用户体验的影响。


03

智能体数字孪生人的形象-行为相似性效果变革


3.1 形象相似:内在形象+外在形象多模态深度仿真融合


与现实世界中的人类相似,当我们谈到智能体数字孪生人的形象的时候,我们会同时联想到其内在人设和外在表现。大语言模型的许多用例都以显示各种各样的行为和对话让人产生一种令人信服的感觉,即与一个类似人类的对话者在一起[48]。通过对大语言模型的预先训练和设定,我们可以干预机器主体的语言生成背景,也就是其内在形象,那么其外在形象实际上就是生成符合训练数据的延续内容[48]。智能体数字孪生人实质上是现实世界真人的化身,其一切数据都是真人表现的数字化提炼,我们在建构智能体数字孪生人的时候需要对真人的内在和外在形象提炼和编码,以数据语言的逻辑实现镜像转移,这是实现深度仿真融合的基础。


外在形象的相似性实现技术已经实现了较为成熟的发展,对数字孪生人视觉、听觉方面相较于真人的还原度较高。仅需在光线充足和安静的环境对自己的人体、脸部以及声音进行录制,通过后台系统对样本特征的抓取和元素融合,即可生成与真人形象大致一致的外在形象。但是通过实践可以发现,由于真人录制的环境质量和录制视频或音频质量的差异,生成的虚拟形象出现边缘模糊、细节不足、五官变形、声纹层次不够等建模瑕疵。生成式人工智能的文本生成图像和视频能力在近半年来得到了飞速发展,其生成效果的质量越来越高,尤其是写实方向的作品能够在很大程度上实现仿真化。生成式人工智能赋能的智能体数字孪生人能够在外在形象建模阶段实现对瑕疵的自动化补充和优化,改善图像生成的质量,提高生成作品的仿真性。


内在形象是不可见的,但是其拥有丰富的外在表现。这给智能体数字孪生人对真人内在形象的仿真提供了一条可行的途径,即通过由外及内的逻辑推理来建构其内在人设特征,并最终以这种建构的人设特征为文本生成背景生成具有鲜明个性特征的外在形象表现。对智能体进行研究的相关研究人员几乎都创建了自己的模型表示,而且他们每个人都必须将这些模型与动画和语音合成组件联系起来[49],这表明了智能体的内在形象和外在形象之间存在着较强的映射和作用关系。随着ChatGPT等大语言模型应用的普及和操作便捷化,人们能够以文本的形式对智能体数字孪生人的形象建构做出设定和修改,虽然智能体的赋能使其拥有更多的自主反思能力和目标实现能力[50],但不可否认的是,后天机器学习背后的形象基础是十分必要的。因此,我们可以预见到,大语言模型赋能下的智能体数字孪生人能够在内在形象和外在形象的前置干预和发散生成阶段实现深度的仿真融合,提高数字孪生人的内外形象对齐度,内外呼应,实现更加符合逻辑和人性化的整体形象。


3.2 行为相似:个性化模型+情绪链还原主体在场


行为的相似性在这里并不是单纯的动作体态相似,而是智能体数字孪生人任何行为的触发机制与其所代表的现实真人的实际行为逻辑机制相似。这种机制以机器自主学习后所呈现的生成逻辑的形式表示,但与此同时也带来了一个问题:每一个智能体数字孪生人如何以更加还原现实主体的方式实现自主学习和行为生成呢。个性化模型与情绪思维链的定制化干预将分别对应智能体数字孪生人的基础背景设定和生成逻辑设定,在实现全流程的高度仿真化身呈现的同时,赋予其自主思维和社交共情的能力,这对于人机交互或智能体交互来说是具有跨越性意义的。


个性化模型为一个智能体数字孪生人赋予了身份,不同的数字孪生人内含不同且独一无二的模型。大语言模型的应用为个性化模型的创建创造了便捷的方法,已有研究表明大语言模型能够被用来探索实际用户的偏好并生成更能获得用户接受的个人推荐,这对于未来人物角色的探索具有很重要的基础性意义[51]。未来现实真人的语言习惯、行为习惯、个人偏好等都可以被训练进智能体数字孪生人的模型当中,但是智能体数字孪生人的模型一旦设置完成后,该孪生人会在与外界交互沟通的过程中自我发展进化,这个过程如同其代表的真人与他人的沟通并不断产生思维变化的过程一样,实际上是个性化智能孪生的全流程运行和主体作用。


如果说个性化模型让智能体数字孪生人成为了一个有身份的化身,那么情绪思维就赋予了智能体数字孪生人以真正的人性,让其成为实现智能体交互甚至人机/硅基共生的必要主体。在情绪识别领域已经有非常多的研究可以证明大语言模型能够通过一定的途径和计算逻辑来帮助机器发现、识别用户的情绪类型并生成具有针对性的回复[52][53][54]。但是智能体数字孪生人能够在精准识别用户情绪的基础上,越来越多的证据表明大语言模型具有模拟人类认知过程的潜力[55]。利用情感思维链(Emotional Chain-of-Thought, ECoT)的生成逻辑生成具有感情的行为,可以通过与人类情绪智力准则保持一致的方法,增强了大语言模型在各种情绪生成任务中的性能[56]。除此之外,情绪链(Chain-of-Emotion)不仅能够识别和模拟人类情绪,还能控制多模态行为的性能,嵌入更多文本生成模式将实现更多形式的情绪化输出形式呈现[57]。如此,一个具有生命力的智能体数字孪生人能够以无限趋近仿真人性化的方向,提高与用户交互过程的流畅度和拟人度,从而以数字化的形式还原真人的主体在场性,实现交互场域的逼真模拟,实现全要素数字孪生。


04

智能体数字孪生人赋能用户体验创新发展


4.1 感官体验:从远端到近端的感官技术接受


感官营销被定义为“吸引消费者的感官并影响他们的感知、判断和行为的营销方式”[58],但是只有某些感官在媒介发展的过程中可以探测到远处的刺激[59],因此有学者将感官分为近端感官和远端感官,其中触觉、嗅觉和味觉被称为近端感官,而视觉和听觉被称为远端感官[60]。由于智能体数字孪生人的场景限制,以数字化形式存在让其感官信息输出缺少近端感官的直接交互,但令人惊喜的是其远端感官表达技术正在实现进步。在建模方面,超写实的外貌刻画和声纹仿真精度的提升带来视听上的远端感官孪生体验,这种体验通常位于用户体验当中的第一顺序,也是用户最先感受到的元素,为之后整个体验过程打下了坚实的基础。抖音博主@严伯钧 应用数字人的仿真建模技术,使用“AI严伯钧”出镜并讲述内容,而且做到了让多数观众在第一直觉上察觉不了AI的使用,只能通过细微的动作差别分辨出来真人与AI[61]。随着以AIGC赋能的智能体数字孪生人的技术融合,未来的远端感官体验将无限接近于真人,尤其是在元宇宙和扩展现实(XR)的加持下,远端感官的交互距离大大缩小,交互主体和整个交互场景融为一体,实现数字世界中的沉浸式体验。


远端感官体验的提升将带来近端感官体验的间接优化,虽然消费者无法真实触碰与感知视频中的对象,但通过视听觉的直观感受,受众也能对其触觉、味觉、嗅觉有一个间接性与想象化的理解[62]。比如未来极度逼真的智能体数字孪生人在进行美食测评的时候就如同真人品尝美食一样,让屏幕前的用户感受到食物的美味,让人垂涎三尺,成功激起品尝欲望。事实上,智能体数字孪生人的远端感官体验优化和近端感官体验提升将切实带来用户在交互过程中的顺畅感受和心理效果,这种有用性和易用性将极大提升用户对智能体数字孪生人的技术接受程度[63]。


4.2 交互体验:从助手到伙伴的智能体社交体验


就算传统数字孪生人拥有较强的模仿能力和信息处理能力,我们也只将其作为工作中的得力助手,因为它能带给我们的更多是安全需求,也就是马斯洛需求层次当中所提到的能实现稳定、安全的工作需要。在需求满足层次的进一步提升上,这种缺少自主性和行为语言处理能力的数字化身并没有达到能够与用户进行自在交互的程度。随着机器学习以及大语言模型的发展,人机交互(Human-Machine Interactions, HMI)已经被提升到一个新的水平,机器能够表现出自主行为,促使人机交互进化为一种“合作”而不仅仅是工具的应用[64]。生成式人工智能赋能的智能体不仅为数字孪生人的仿真形象提供了更加完善的生成技术基础,而且在价值对齐和行为决策方面能够实现与真人用户的思维交流。因此,人类与智能体数字孪生人之间的交互行为已经进入到了人与智能体交互(Human-Agent Interaction, HAI)的范畴[65]。


人与智能体交互是智能体社交的重要前提,包括真人用户与智能体的社交情形与多智能体(Multiagent)的虚拟社交情形。研究发现人工智能赋能的智能体拥有强大的互动性,能够与其环境和其他智能体交互,这包括直接的和间接的,可以是合作或竞争关系[66]。在当今阶段仍以真人用户与智能体的社交为重点发展应用方向,智能体数字孪生人作为智能体范围中最能够与真人用户建立起真正社交关系的数字主体,在智能体社交的发展过程中起到了优化人机交互协同、提升用户体验以及为未来多智能体社交网络的搭建收集学习数据的重要作用。


4.3 情感体验:从传统到新型的关系框架构建


不管是平台、品牌还是商品,接触用户的最终目标都是为了提供无与伦比的情感体验,以提高用户对其的满意度和喜爱度,甚至是依赖度。Siri虽然能够提供人类一般的声音和回应内容,但在没有完整的人类形象和行为呈现的背景下,它仍然只能扮演类似于主仆关系中的问答助手角色;ChatGPT虽然是当今最具有类人认知能力和逻辑思维能力的大语言模型,但是类人形象和实际行为的缺失导致人与智能体的交互仍然没有超越传统的社会互动形式。智能体数字孪生人不仅是物理真人本身的化身,更是用户与其的情感关系的化身,与智能体数字孪生人的情感交互以用户与真人的情感关系为基础,随着交互实际情况发生实时变化,这种模式完全不同于人类行为,实际上呈现的是人与智能体互动的新社会关系框架的构建[67]。


Bilibili博主@吴伍六 利用AI技术还原生成了自己已去世的奶奶的面部形象和声音特征并进行虚拟对话;音乐人包小柏用AI“复活”了自己的女儿[68]……事实证明,用户与智能体数字孪生人之间的情感关系以现实情感关系为基础,并在虚拟数字环境中得到大幅增强,用户的情感体验受到双重因素影响,更加强烈。这两种关系之间微妙的区别造就了新型的关系框架构建,随着AIGC赋能的智能体数字孪生人在与真人用户交往中的涌现进化所带来的情感关系变化,人与智能体数字孪生人、人与人、智能体数字孪生人之间的社会关系研究在计算社会科学领域当中将成为热门研究话题。


05

结语


本文章结合了AIGC赋能的智能体和数字孪生人技术,提出了“智能体数字孪生人”数字化身新形态,并结合了与物理真人形象和行为的相似性分别进行了探究,最后以智能体数字孪生人的形象和行为相似性效果变革为基点,从感官、交互、情感三个维度由外及内分析了智能体数字孪生人在与用户交互的过程中实现创新优化的用户体验。通过分析,我们认为智能体数字孪生人是由“智能体”和“数字孪生人”有机融合的新型拟人化数字孪生体,对比传统数字孪生人来说,它拥有人的思维(认知),能够深度学习实现意识上的高度拟人;它拥有人的情感,能够跨越人机之间的情感鸿沟,实现“智能体社交”;它拥有人的行为,能够与人类做到价值对齐,实现“人机共生”的未来。智能体数字孪生人不仅与物理真人能够达到内在形象和外在形象的深度仿真与融合,而且利用个性化模型作基底,在情绪链的作用下自主发生行为,有效还原主体在场。用户在与智能体数字孪生人沟通交流的过程中,其远端感官的优化效果增强了心理对近端感官通感的感受度,逐步提高对这种逼真数字人形态的技术接受度;机器不再像助手一样只成为用户提高生产力的助手,而会将用户体验通过交互方式的创新转变为朋友一般的人与智能体之间的社交体验;由浅及深,最终人与智能体数字孪生人之间将会产生多元情感,并创新发展新的关系框架,涌现出计算社会的新形态。智能体数字孪生人技术基础上的人与智能体交互、多智能体交互等新型交互形态的出现和发展,将对未来解决一系列社会传播问题提供了更加封闭和安全的模拟场景,实现社会多元关系的可持续稳定发展。 


(作者信息:段淳林,华南理工大学新闻与传播学院教授、博士生导师;姚皓文,华南理工大学新闻与传播学院2023级硕士研究生)




【参考文献及注释】References & Annotations



 

[1]查沁君,两千万人围观了AI刘强东,界面新闻[EB/OL],https://baijiahao.baidu.com/s?id=1796540693928513816&wfr=spider&for=pc,2024年5月7日访问。

[2]J. Chen et al., A Revolution of Personalized Healthcare: Enabling Human Digital Twin with Mobile AIGC, IEEE Network, 2024: 1-1.

[3]Yee N., Bailenson J. N., Ducheneaut N., The Proteus Effect: Implications of Transformed Digital Self-Representation on Online and Offline Behavior, Communication Research, 2009, 36(2): 285-312.

[4]Beauregard R., Corriveau P., User Experience Quality: A Conceptual Framework for Goal Setting and Measurement, 1st International Conference on Digital Human Modeling, ICDHM 2007, Springer, Berlin, Heidelberg, 2007.

[5]Beauregard R., Younkin A., Corriveau P., Doherty R., Salskov E., Assessing the Quality of User Experience, Intel Technology Journal, 2007, 11(1): 77–87.

[6]Guo J., Digital twins are shaping future virtual worlds, Service Oriented Computing and Applications, 2021, 15: 93–95.

[7]陶飞、刘蔚然、刘检华等,数字孪生及其应用探索[J],计算机集成制造系统,2018,24(1):1-18.

[8]Loveys Kate, Sagar Mark, Antoni Michael, Broadbent Elizabeth, The Impact of Virtual Humans on Psychosomatic Medicine, Psychosomatic Medicine, 2023, 85(7): 619-626.

[9]Baicun Wang, Pai Zheng, Yue Yin, Albert Shih, Lihui Wang, Toward human-centric smart manufacturing: A human-cyber-physical systems (HCPS) perspective, Journal of Manufacturing Systems, 2022, 63: 471-490.

[10]S. D. Okegbile, J. Cai, D. Niyato, C. Yi, Human Digital Twin for Personalized Healthcare: Vision, Architecture and Future Directions, IEEE Network, 2023, 37(2): 262-269.

[11]Baicun Wang, Huiying Zhou, Xingyu Li, Geng Yang, Pai Zheng, Ci Song, Yixiu Yuan, Thorsten Wuest, Huayong Yang, Lihui Wang, Human Digital Twin in the context of Industry 5.0, Robotics and Computer-Integrated Manufacturing, 2024, 85: 102626.

[12]Hafez W., Human Digital Twin: Enabling Human-Multi Smart Machines Collaboration, IntelliSys 2019, London, 2019.

[13]Wei Shengli, Is Human Digital Twin possible?, Computer Methods and Programs in Biomedicine Update, 2021, 1: 100014.

[14]徐瑞萍、冯桂锋、李思琦,数字孪生人与人的解放[J],佛山科学技术学院学报(社会科学版),2024,42(02):30-36.

[15]王吉伟,AI Agent发展简史,从哲学思想启蒙到人工智能实体落地[J],大数据时代,2023(12):6-19.

[16]孙怡峰、廖树范、吴疆等,基于大模型的态势认知智能体[J],指挥控制与仿真,2024,46(2):1-7.

[17][美]戴维·弗农,周玉凤、魏淑遐译,人工认知系统导论[M],北京:北京大学出版社,2021年。

[18]Huang Y., Levels of AI Agents: from Rules to Large Language Models, arXiv preprint, 2024, arXiv:2405.06643.

[19]Andrej Karpathy, Pieter Abbeel, Greg Brockman, Peter Chen, Vicki Cheung, Yan Duan, Ian Goodfellow, Durk Kingma, Jonathan Ho, Rein Houthooft, Tim Salimans, John Schulman, Ilya Sutskever, Wojciech Zaremba, “Generative models”, Retrieved May 2nd, 2024 from https://openai.com/research/generative-models.

[20]LeCun Y, Bengio Y, Hinton G, Deep learning, Nature, 2015, 521(7553): 436-444.

[21]J. Chen et al., A Revolution of Personalized Healthcare: Enabling Human Digital Twin with Mobile AIGC, IEEE Network, 2024.

[22]Manal Alamir, Manal Alghamdi, The Role of Generative Adversarial Network in Medical Image Analysis: An In-depth Survey, ACM Computing Surveys, 2022, 55(5): 36.

[23]X. Wang, Guest Editorial Special Issue on Social Computing and Societies 5.0: Toward Social Intelligence via Cyber Movement Organizations, IEEE Transactions on Computational Social Systems, 2023, 10(4): 1810-1812.

[24]J. Han, Z. Zhang, N. Cummins, B. Schuller, Adversarial Training in Affective Computing and Sentiment Analysis: Recent Advances and Perspectives, IEEE Computational Intelligence Magazine, 2019, 14(2): 68-81.

[25]P. Tzirakis, J. Zhang, B. W. Schuller, End-to-End Speech Emotion Recognition Using Deep Neural Networks, 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, 2018.

[26]Cícero dos Santos, Maíra Gatti, Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts, the 25th International Conference on Computational Linguistics, Dublin, 2014.

[27]Krugmann, J.O., Hartmann, J., Sentiment Analysis in the Age of Generative AI. Customer Needs and Solutions, 2024, 11: no.3.

[28]Lu F., Liu B., Affective Digital Twins for Digital Human: Bridging the Gap in Human-Machine Affective Interaction, arXiv preprint, 2023, arXiv:2308.10207.

[29]胡正荣、闫佳琦,生成式人工智能的价值对齐比较研究——基于2012—2023年十大国际新闻生成评论的实验[J],新闻大学,2024(03):1-17+117.

[30]Wenger E., THE ALIGNMENT PROBLEM: Machine Learning and Human Values, Perspectives on Science & Christian Faith, 2021, 73(4): 245–247.

[31]Cudeiro D., Bolkart T., Laidlaw C., Ranjan A., Black M.J., Capture, Learning, and Synthesis of 3D Speaking Styles, 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019. 

[32]Liu H., Zhu Z., Becherini G., Peng Y., Su M., Zhou Y., Zhe X., Iwamoto N., Zheng B., Black M.J., EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling, arXiv preprint, 2024, arXiv:2401.00374.

[33]David Westerman, Ron Tamborini, Nicholas David Bowman, The effects of static avatars on impression formation across different contexts on social networking sites, Computers in Human Behavior, 2015, 53: 111-117.

[34]张汇川、王紫萱、刘鸣筝,自我化身相似性对社交媒体用户自我披露意愿的影响机制研究[J],情报科学,2023,41(11):176-184.

[35]Lortie C. L., Guitton M. J., Looking similar promotes group stability in a game-based virtual community, GAMES FOR HEALTH: Research, Development, and Clinical Applications, 2012, 1(4): 274-278.

[36]Tang L, Bashir M., Effects of Self-avatar Similarity on User Trusting Behavior in Virtual Reality Environment, International Conference on Human-Computer Interaction, Cham: Springer Nature Switzerland, 2023: 313-316.

[37]Pan Y., Steed A., The impact of self-avatars on trust and collaboration in shared virtual environments. PLOS ONE, 2017, 12(12): e0189078.

[38]Schultze, U., Embodiment and Presence in Virtual Worlds: A Review, Journal of Information Technology, 2010, 25(4): 434-449.

[39]王海忠、李冰莲、谢涛,数字世界的自我化身理论建构[J],管理科学,2022,35(03):116-130.

[40]Zhu R., Yi C., Avatar design in Metaverse: the effect of avatar-user similarity in procedural and creative tasks, Internet Research, 2024, 34(1): 39-57.

[41]Beauregard R., Younkin A., Corriveau P., Doherty R., Salskov E., Assessing the Quality of User Experience, Intel Technology Journal, 2007, 11(1): 77-87.

[42]Anon, User experience (UX), Independent Banker, 2023, 73(5): 13.

[43]陈娟、邓胜利,社会化问答平台用户体验影响因素实证分析——以知乎为例[J],图书情报工作,2015,59(24):102-108.

[44]Gerrit van der Veer, Dhaval Vyas, “APEC: A Framework for Designing Experience”, Retrieved May 11th, 2024 from https://www.academia.edu/282319/APEC%20A%20Framework%20for%20Designing%20Experience.

[45]Peter Morville, “User Experience Design”, Retrieved May 11th, 2024 from http://semanticstudios.com/user_experience_design/.

[46]喻国明,关于媒介用户使用体验的模型与定量化研究——一项认知神经传播学研究的逻辑框架[J],新疆师范大学学报(哲学社会科学版),2018,39(06):53-60+2.

[47]梁爽、喻国明,媒介使用动机与场景对用户体验的影响研究——基于认知神经传播学的效果测量[J],新闻大学,2021(01):89-102+121.

[48]Shanahan M., McDonell K., Reynolds L., Role play with large language models, Nature, 2023, 623(7987): 493–498.

[49]Allbeck, J., Badler, N., Toward representing agent behaviors modified by personality and emotion, Embodied conversational agents at AAMAS,2002: 2(6), 15-19.

[50]Lu J., Pan B., Chen J., Feng Y., Hu J., Peng Y., Chen W., AgentLens: Visual Analysis for Agent Behaviors in LLM-based Autonomous Systems, IEEE Transactions on Visualization and Computer Graphics, 2024: 1-17.

[51]Joko H., Chatterjee S., Ramsay A., et al., Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search, arXiv preprint, 2024, arXiv:2405.03480.

[52]Hou Y., Tamoto H., Miyashita H., "My agent understands me better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents, arXiv preprint, 2024, arXiv:2404.00573.

[53]Regan C., Iwahashi N., Tanaka S., Oka M., Can Generative Agents Predict Emotion?, arXiv preprint, 2024, arXiv:2402.04232.

[54]Pico A., Taverner J., Vivancos E., Botti V., García-Fornes A., Towards an Affective Intelligent Agent Model for Extrinsic Emotion Regulation, Systems, 2024, 12(3): 77.

[55]Binz M., Schulz E., Using cognitive psychology to understand GPT-3, Proceedings of the National Academy of Sciences, 2023, 120(6): e2218523120.

[56]Li Z., Chen G., Shao R., et al., Enhancing the Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought, arXiv preprint, 2024, arXiv:2401.06836.

[57]Croissant M., Frister M., Schofield G., McCall C., An appraisal-based chain-of-emotion architecture for affective language model game agents, PLoS ONE, 2024, 19(5): e0301033.

[58]Krishna, Aradhna, An Integrative Review of Sensory Marketing: Engaging the Senses to Affect Perception, Judgment and Behavior, Journal of Consumer Psychology, 2012, 22(3): 332–51.

[59]Elder Ryan S., Anne E. Schlosser, Morgan Poor, Lidan Xu, So Close I Can Almost Sense It: The Interplay Between Sensory Imagery and Psychological Distance, Journal of Consumer Research, 2017, 44(4): 877–94.

[60]Marks, Laura U, Thinking Multisensory Culture, Paragraph, 2008, 31(2): 123–37.

[61]祖杨,从形似到神似,AI数字人迎来新的商业模式|对话硅基智能,深响[EB/OL],https://new.qq.com/rain/a/20240124A07HOG00,2024年5月16日访问。

[62]徐丁一,感官营销:美食测评类短视频的内容表达研究[J],科技传播,2024,16(05):100-104.

[63]Davis F.D., Bagozzi R.P., Warshaw P.R., User acceptance of computer technology: a comparison of two theoretical models, Management Science, 1989, 35(8): 982-1003.

[64]Schmidt P., Loidolt S., Interacting with Machines: Can an Artificially Intelligent Agent Be a Partner?, Philosophy & Technology, 2023, 36(3): 55.

[65]W. Hafez, Human Digital Twin—Enabling Human-Agents Collaboration, 2021 4th International Conference on Intelligent Robotics and Control Engineering (IRCE), Lanzhou, 2021.

[66]陈昌凤,智能平台兴起与智能体涌现:大模型将变革社会与文明[J],新闻界,2024(02):15-24+48.

[67]Jonathan Gratch, The Social Psychology of Human-agent Interaction, the 7th International Conference on Human-Agent Interaction, New York, 2019.

[68]小岩,用AI技术“复活”亲人,是全新机遇还是伦理挑战?,澎湃新闻[EB/OL],https://www.thepaper.cn/newsDetail_forward_26663812,2024年5月16日访问。





点击下方查看征稿详情

↓↓↓

征稿启事



END

现代广告杂志社
中国广告协会主管主办,《现代广告》核心新媒体矩阵。关注广告营销、品牌传播。
 最新文章