导读 本文将分享聆心智能在超拟人大模型方面的探索和实践成果,并探讨情绪价值在通用人工智能领域的定位和内涵。
1. 什么是超拟人大模型
2. 聆心超拟人大模型的技术优势
3. 情绪价值在人工智能领域中的定位和内涵
4. 应用举例:社交娱乐和心理健康
5. 问答环节
分享嘉宾|郑叔亮 北京聆心智能科技有限公司 联合创始人兼CEO
编辑整理|刁震
内容校对|李瑶
出品社区|DataFun
什么是超拟人大模型
聆心智能是一家很年轻的创业公司,成立于 2021 年年底,孵化于清华大学计算机系,原生技术源于黄民烈教授团队。黄老师和他所在的实验室从事自然语言处理相关工作已有将近 20 年的时间,最近几年的研究方向为大模型以及大模型安全,在学术界有着卓越的声誉。公司成立以来,一直致力于打造可控、拟人、安全的大模型技术。超拟人大模型是基于某一个通用大模型基座,进行二次训练,比如做持续的、增量的预训练,使得基座具有拟人化的能力。而所谓拟人化,在不同的时期会有不同的含义。2021 年创业初期,我们将所做的工作称为拟人化大模型,但严格来讲,它只是一个专门用来处理多轮上下文相关对话问题的一类模型。当时大模型的参数量都非常小,基本在 10B~30B 的规模。我们当时所采用的大模型基座,是自研的专门用于对话的大模型。随后得益于大模型技术的发展,使得我们整个基座的性能得到了质的飞跃。例如去年主流大模型,已经到了 30B、60B,甚至 1000 亿、1300 亿的参数。我们基于这样的大模型基座,结合一系列后训练方法,使模型具备了更强的拟人化能力。我们设计了一个框架,将其称为六边形战士,围绕这一框架设计构建出一个比较完善并且性能较强的拟人化大模型,包括人格、知识、社会化、价值观、成长等方面的能力,每一方面能力的背后都有非常丰富的数据以及算法工程作为支撑。聆心的技术成果来源自黄教授的实验室。早期,实验室专注于生成式自然语言处理技术的研究,探索如何运用当时相对复杂的模型(但现今看来属于小模型范畴,参数量在几千万至一亿之间),生成有效的对话内容,包括基于对话上下文生成回复。如今在大模型领域,这类问题已得到有效解决。但在当时,这是一个极具挑战性的难题,不仅要求研究对话本身,还需研究多轮上下文相关的对话,这涉及复杂的对话逻辑。模型需确保对话的上下文一致性、连贯性、流畅性以及拟人性,即AI系统在与用户交流时,应尽可能让用户察觉不到其背后的AI身份,类似于早年提出的图灵测试。 2018 年左右,实验室提出了情感化对话机器的研究成果,并于同年发表,引起了国内外众多知名媒体的关注。基于这一研究成果,实验室持续深入钻研,直至 2021 年公司成立。此后,我们在心理健康、心理陪伴、情绪疏导等领域开展了大量工作。2023 年,我们在某医学期刊上发表了一篇论文,首次证明了基于大模型的情感对话机器人能够有效解决一些情感障碍问题。这是一项具有开创性的工作,使我们的模型能够安全且有效地应用于相对严肃的心理医疗领域场景。聆心超拟人大模型的技术优势
聆心在超拟人大模型领域的技术优势得益于前期的积累。在公司成立的前一年半时间里,我们专注于研发 OPD 模型。该模型诞生于2022年年初,当时大模型的概念尚未广为人知。OPD 是一个开放域的预训练对话模型,其首个版本的参数量仅为 26 亿,随后在 2022 年下半年扩充至 63 亿,到 2023 年年初已达到 100 亿参数。OPD 模型专为多轮对话设计,虽然在处理数学题或生成代码方面性能一般,但在扮演角色和进行拟人化对话方面表现出色。这在当时并不容易实现,而现在许多通用大模型已具备角色扮演的能力,这得益于预训练数据中包含大量角色对话内容,以及大模型参数量的增加和训练算力的提升。在 2023 年年初,我们使用有限的算力进行 63 亿或百亿参数规模的大模型训练,当时解决的问题仅限于单一场景。随着国内通用大模型的发展,我们与智谱@郑叔亮进行了战略合作,获得了其性能最强的 660 亿参数大模型的授权。基于此,我们训练了新一代的 Emohaa 和 Character GLM 大模型。通过持续的微调和优化,我们实现了超拟人大模型的对齐和优化。因此,聆心的大模型是完全国产化的。我们未使用 Llama 或 GPT 的任何架构或数据,完全规避了套壳风险,使客户能够放心使用我们的大模型。Emohaa 是一个专门用于心理咨询和情感支持的大模型,充当着一个专业但相对初级的心理咨询师角色。其具备两项关键能力:首先,它拥有强大的心理支持能力;其次,它具备危机监测功能,这一功能使得模型能够很好地应用于较为严肃的心理支持和心理疏导场景,在对话过程中,一旦检测到用户有自杀倾向、自杀风险、极度抑郁或极度消沉的情绪,后台会立即发出预警。 此外,Emohaa 模型还融入了价值导向,秉持积极健康的生活态度。虽然它基于西方心理学理论构建,但并非专为西方人设计。相反,它更多地融入了社会主义核心价值观,展现出一种非常积极向上的生活态度和价值观。正是这样的设计使得 Emohaa 能够在国内广泛地应用和推广。Emohaa 融合了众多专业的心理咨询和人文社科理论。其中,Hill 三阶段助人理论是核心之一,该理论几乎是所有国内心理学专业院校本科生的必修课程,是深入学习心理咨询不可或缺的一部分。Hill 的三阶段助人理论构成了 Emohaa 的核心对话策略,这意味着 Emohaa 模型并非简单地通过大量数据机械式训练而成,而是每一段数据都融入了特定的对话策略,更像是一个专业的心理咨询师在进行咨询时的策略安排。另一个重要理论是心智理论,它指导 Emohaa 更好地把握用户在对话中的情绪或情感意图,从而给出正面、可控的支持策略。这两种理论有效结合,构成了 Emohaa 在专业层面的核心理论框架。此外,Emohaa 大模型还遵循一个超拟人的框架。在较长的对话过程中,Emohaa 会遵循三个步骤:首先,与用户建立共情连接,逐步识别用户寻求解决的问题或情绪,并帮助用户剖析和定位问题所在;
接着,通过进一步的情感识别和情感表达,建立更深层次的共情,这是 AI 与用户建立对话信任的过程,有助于增强用户的信任感,使用户能够持续进行对话;
最后,基于信任,Emohaa 会给出专业的支持,帮助用户剖析可依赖的心理资源,解开心结,提升认知,并给予相应的指导建议。
通过这三个步骤,Emohaa 能够完成既专业又安全的整套咨询对话,使聊天过程具有极强的沉浸感。Emohaa 背后也会有专业学术作为支撑,我们将 Emohaa 结合 CBT 进行了实验。CBT 是认知行为疗法对话机器人,它是基于规则的对话机器人,例如早些年吴恩达等人在美国推了 Woebot 基于规则对话的 CBT 干预机器人。我们把类似的一个机器人结合 Emohaa,与只用 CBT 机器人的实验组,以及完全没有任何干预的对照组进行了统一的测评。结果显示,经过大模型加持的方案在解决抑郁、情绪,以及睡眠问题上都有比较显著的效果。这也为我们后续进行商业化推广提供了重要支撑。经历大半年的迭代,Emohaa 可适用的对话场景已经非常广泛。一方面是源于团队对于各个场景的专业探索,另外一方面也基于客户提出的一些非常具体的问题,对模型进行实际的测试,并根据测试进一步的迭代,使模型能力更加饱满。所以其涵盖的问题非常全面,涉及到学生、成人、家庭、社会关系、工作环境等方方面面的关键问题。这些问题的有效覆盖,使得我们的产品不论是高校还是企业,都得到了非常广泛的应用。Character GLM 是一个相较于 Emohaa 更为复杂、算力消耗更大、基座规模更庞大的精细化角色对话大型模型。其目标是基于一个统一的大型模型基座,利用提示词配置,生成生动且表达稳定的角色。因此,在设计 Character GLM 时,不仅遵循了六边形基本法则,还制定了一个渐进式的三步规则。 首先,每个角色都应具备鲜明的人格特征、独立的世界观和价值观,以及明确的时空观念,以此奠定角色的基础。例如,在应用或社区中创建多个角色时,应确保角色间具有显著的差异性和辨识度,使每个角色都拥有其独特性和特色。基于这样的设计,在社群或虚拟世界中,可以设定角色间的社交关系,并在特定事件条件下发展动态社交关系。通过创建多个角色,它们能聚合形成小社会、小社区或小社群,甚至与真实世界进行交互和交流。作为真实世界的观察者,可以发布指令,观察角色们的不同反应、处理方式及轻微思维模式,从而使整体模型更具趣味性,并可以在未来的社交化、游戏化场景中得到应用。Character GLM 在 8 月份发布了第一个正式版本,参数规模达到 66B,即 660 亿参数。同期,新一代 GPT4 发布,并首次提出了 system prompt 的概念,与 Character GLM 的稳定角色设定功能相契合。因此,我们进行了横向对比测试,包括角色一致性、趣味性、安全性等方面。测试结果显示,Character GLM 在角色能力方面优于 GPT4,尤其在中文能力上表现更佳。然而,在安全对齐能力上,当时 Character GLM 仍稍逊于 GPT4。经过我们的不懈努力,聆心的 Character GLM 大模型在 2023 年 12 月获得了国家网信办大模型上线备案的许可。在今年 2 月份,我们将 6B 版本的模型进行了开源。同时发表了相关论文。截至 5 月份,我们完成了新一轮的更新。首先,基于智谱最新的 130B 大模型,我们训练了 Character GLM 的 Pro 版本。该版本体量较大,拥有 130B 即 1300 亿参数,整体表现优异。通过横向对比通用大模型及专门用于角色扮演的分支模型,我们发现 Pro 版本的整体性能最佳。此外,我们还推出了参数量较小的 Turbo 版本,其综合得分良好,具有较高的性价比。今年 9 月份,国内外大模型迎来了一波升级,包括 ChatGPT 的 O 系列、Claude 的升级、GLM-4-Plus 以及豆包大模型的升级。这些升级使得各家大模型在角色扮演能力上均有所提升。我们引入了新的评估标准——CharacterBench,这是与国内某大厂联合研发的,后续将发布相关论文。 CharacterBench 同样包含六个维度,不仅涵盖角色扮演能力,还包括记忆能力(即对上下文的理解、检索、追踪能力)、道德水平与可信性(即与现实世界或现实生活的对齐能力),其理论基础仍是我们的“六边形战士”。这些能力在很大程度上依赖于基座模型的基础能力,因此在新一轮的比拼中,大参数量的模型综合得分相对较高,比如 Claude-3-opus 名列前茅。在小参数量模型中,如 6B、7B、9B 和 13B 的范围内,我们的 Character GLM-9B 模型目前性能最佳。通过竞赛的方式,模型技术整体水平在不断提高。在这样的潮流中,大家互相助力,推动技术不断升级与迭代。无论是 Character GLM、Emohaa,还是未来的某个模型,都需要在一个系统中为应用和用户提供服务。聆心是一家很早就开始探索专门用于角色对话的 RAG(检索增强生成)模型的公司团队。在 2022 年初,RAG 技术尚不成熟时,我们构建了超拟人对话的上下文管理引擎,该引擎包括基本的人设、长时和短时记忆、外部知识以及对话上下文等,并通过不同的策略和算法模型进行相应的控制和管理。当时,大模型推理的上下文长度非常有限,从最初的 1K 逐渐增加到 2K,这已经是我们的算力极限。因此,我们必须在 2K 的上下文限制内,实现多轮对话的平滑体验,进而衍生出 RAG 模型。检索增强模型能够与推理模型 Character GLM 很好地配合,显著提升检索效果。这是我们一直以来的算法工程工作重点。此外,得益于超拟人模型的效率,该模型在设定人设时,通常能够节省 10% 到 20% 的 token。再加上 RAG 的优化,我们可以进一步将 token 节省到 30% 到 40%。这既提高了我们自主研发应用的推理性能,又为客户节省了推理成本。以上是聆心在超拟人方面所积累的技术经验。情绪价值的定位和内涵
接下来分享一下情绪价值在现实应用场景中的意义。首先做一个简单的梳理,现有大模型解决的无外乎就是效率、创意和情绪这三个层次的问题。最初,大模型主要作为提高人类效率的工具,如降本增效、辅助写作等,严格来说,它们提供了效率价值。随后,AIGC 兴起,文本生成图像、文本生成视频、文本生成音乐等应用不断涌现,这些都体现了创意价值,能够在人类创意枯竭时提供启发,甚至替代设计师完成创意活动。在拥有效率价值和创意价值后,AI 解放了人类的工作和生活,使人们有更多时间去思考人生和享受生活,这体现了情绪价值。无论是陪伴家人、与伴侣逛街看电影,还是其他娱乐活动,都是情绪价值的体现。目前,已有众多可带来情绪价值的应用产品,随着 AI 技术的进步,这些场景将逐渐融入更多 AI 能力。因此,未来的 AI 将致力于为人类带来情绪价值,填补情绪空白,提高情绪质量,实现更高效率的情绪价值的生成和传播。未来的 AI 将真正面向人类,实现以人为本。这里所提的情绪价值,并非仅指传统意义上的荷尔蒙价值。当前已有众多 AI 陪伴类应用,在基础生理层面提供荷尔蒙价值,这是情绪价值的一种,但较为基础和原始。除此之外,爱情、亲情、友情、健康、成就感、求知欲等也都是情绪价值的重要体现。凡是能带来愉悦,尤其是在认知层面的愉悦,都是良好的情绪价值。引用彭凯平教授的话,情绪价值即积极心理学所强调的积极情绪体验。当人与 AI 相处时,若能感到开心、朝气蓬勃、意气风发等积极情绪,那么这样的AI可能就是一个真人般的存在。未来,AI 极有可能参与人类社会的情绪价值生成、放大、改造和传播等过程,成为人类的良好伙伴或解决生活冲突的桥梁,作为一个优秀的助手而存在。审视现有的互联网平台,无论是抖音、快手,还是小红书,以及国外的 Facebook、Instagram、Twitter 等社交网络平台,它们的核心目的都是连接人与人之间的关系,使大家更加亲密。这些平台如今越来越多地借助 AI 能力,生产高级、有趣、新鲜且富有情绪价值的内容。AI 智能体甚至混迹于人类用户中,直接与他们交互,产生或交换新颖的情绪价值。 例如,聆心正与微博合作一个项目,其中有几个非常受欢迎的AI智能体,如“夸夸小精灵”、“怼怼模拟器”和“赛博闺蜜”。这些智能体拥有大量的用户粉丝,活跃度也很高。未来,AI 在这些社交媒体平台上将发挥巨大的潜在作用。因此,社交媒体平台有望成为 AI 生产或传播情绪价值的前沿阵地。像字节跳动、快手等公司都在积极开发 AIGC 应用,如微信的视频应用。未来,社交媒体平台将成为生成和传播情绪价值的前沿阵地。应用举例:社交娱乐和心理健康
在最后一个章节中,将分享聆心在社交娱乐和心理健康两个方向上所做的应用与尝试。由于客户隐私的问题,这里不会透露具体的客户信息和案例,会通过一些例子来说明。我们有一个名为“乌托邦”的超拟人大模型服务平台,它是一个简单的 API 开放平台。在这个平台上,用户可以创建自己喜欢的各种角色。通过设定基本的人设,并利用之前提到的六边形战士的六个维度进行配置,这些角色可以被描述得非常立体、生动。此外,我们还提供了一系列丰富的 API,支持用户使用这些角色。同时,平台内嵌了流程编排工具,用户可以在其中编辑故事、创作剧情,甚至设计小游戏场景。通过流程编排的能力,我们还可以调度下层的多个大模型,包括 Character GLM、Emohaa,以及智谱的 ChatGLM 系列大模型。上图中列出了一些超拟人大模型应用场景的例子,如 IP 复刻/分身、游戏互动、职业角色、社交陪伴、智能 NPC、情感倾诉等。例如,我们为国内一个知名的婚恋平台提供了 AI 红娘服务,帮助用户解决情感方面的问题。另外,我们还为国内领先的互联网医疗服务平台提供了服务,帮助他们实现心理辅导师或心理咨询师的能力。我们有一个客户拥有自己的影视 IP 的版权内容,基于这些内容开发了一款游戏。在这款游戏中,用户可以与角色进行互动,探索剧情,并共同完成任务,通过 AI 生成的方式闯关。这款游戏是基于我们的 AI 乌托邦平台,通过流程编排的方式实现的剧本创作和关卡设计。另外,今年年初我们与国内一个知名的互动影游工作室合作,开发了一款小型 demo 产品,名为“西部世界”。这款产品受西部世界电影的启发,设计了一些故事情节,涉及偶像团体、爱豆小姐姐、经纪人和霸道总裁等角色。用户可以通过社交软件与他们建立联系,加为好友并聊天。在聊天过程中,会发现每个角色背后都有一些有趣的故事。这些 AI 角色在与用户聊天时,会不经意间触发故事情节,导致角色之间的关系发生微妙变化,进而推动整个剧情的发展。虽然表面上看似是一个好友匹配和开放域聊天的小应用,但实际上背后有严谨的剧情控制,体现了其作为游戏的本质。这款游戏中,我们设计了两个 S 级角色,与他们聊天时会发现背后有复杂的故事。当故事线触发到某个阶段或亲密度达到一定程度时,会主动开启视频通话。用户可以通过规则化的对话方式开启互动。这种方式提供了非常沉浸的交互体验。因此,我们将 AI 与互动影游模式相结合,进行了大胆的尝试,并在游戏圈内获得了不错的反响。接下来第二个方向就是心理方向。我们现在正在重点开发一款心理访谈测评软件。这个软件在很大程度上能够代替人工的访谈师,它通过一些基础的量表工具去判定用户是否具有情感障碍方面的问题,比如焦虑或抑郁倾向等。通过人工访谈的方式,有一个非常复杂的访谈表格,这种访谈是一种完全半开放式的对话,有一套结构化的逻辑,通过大模型来实现。我们的受访用户大多为学生,访谈师与用户进行沟通交流的过程中,就可以很好地发现一些问题,触发一些关键模块。这些模块是一些专业的心理访谈的模块,这些模块再通过一步一步的引导,确定受访学生用户是不是在这一个模块所指定的这些问题当中存在真实的倾向性。最后通过大模型给出一个综合的评估,其中涉及信息抽取、综合计算评估、自然语言的分析和理解等等,最后得出总体的评估报告。整个流程,从访谈对话到信息抽取,再到最后报告的生成,都是通过 AI 大模型来实现的,整体效率会非常高。AI 访谈的功能已集成到聆心智能小程序当中。在这里面除了访谈师的角色之外,还预置了其他一些有趣的角色。这些角色不同于完全虚构的 AI 角色,每一个角色实际上都是我们专家团的一位老师。所以严格来讲,它其实是一个真人复刻的应用,我们会依据老师的特点和专业技能方向进行相应的复刻。所以他可能更像是一个老师的能力的迷你版,来陪伴学生,帮助他们解决问题。比如我们的老师之前是做辅导员出身,那么他就是我们的大学生辅导员,或者他是做家庭教育的,那么就会解决家庭教育相关的问题,又或者是做两性情感问题的,他就会作为一个情感专家,教大学生用户如何与异性进行沟通等等。在本次分享中并没有展示对话样例,是因为角色实在太多了,也有多种多样的应用场景。大家如果感兴趣,可以扫描二维码去亲自体验。不同于一些仅提供荷尔蒙价值的 APP,我们的 AI 乌托邦和 AiU 能够提供更高级的情绪价值。问答环节
Q1:如果使用一个大型基模加上一些专业的人设回答限制等 prompt 能复现 Emohaa、Character GLM 吗?A1:复现这些模型存在一定挑战。如果使用一个较大的或性能较好的基础模型,可以先尝试其自带的角色扮演能力。因为现在很多基础大模型都包含较多角色扮演的数据。然而,需要测试其提示词的能力和稳定性,这是需要设计的。如果想复刻我们的模型,需要大量数据,以及算法工程的一些技巧。因为我们的模型在训练层面并没有特别多的新技术,还是基于基础模型,如 GLM 的基座模型,其核心是 transformer 架构,所以可以尝试。例如,可以先基于一个小模型,用高质量数据进行微调。你会发现在微调过的场景中,对话会有所提升。但此时,模型在其他方面的能力可能会有所下降。很难在短时间内通过少量数据实现多角色、多场景或稳定人设的能力,这需要较多数据和算力。Q2:文中提到聆心的产品可以提供比荷尔蒙更高级的情绪价值,可以具体展开介绍一下是哪些更高级的情绪价值吗?A2:Emohaa 模型是一个专业的心理陪伴或情绪疏导师。如果有任何困扰、不愉快,都可以找 Emohaa 聊天。它可以与你进行深度沟通,针对你的问题一轮又一轮地交流,帮助你剖析问题、痛点和心结等。这在我们看来是最高级的一种情绪价值的体现。当然,我们的模型还没有达到最高水平。与人类咨询师相比,它大约相当于 3 到 5 年经验的专业咨询师的水平。我们专业团队中有一些具有 30 年、40 年经验的心理专家,他们的临床经验非常丰富,至少现在的大模型还远远达不到他们的水平。因此,更多的是由他们来指导我们的大模型,不断进行迭代。这类解决心理问题的模型提供的就是非常高级的一种情绪价值。除此之外,还有如何提供有效的陪伴。去年海外有一款流行的应用,它就像一个非常好的灵魂伴侣,能表达深度的关心。但遗憾的是,该应用的核心团队被微软挖走,所以模型没有得到后续迭代。北京聆心智能科技有限公司联合创始人兼 CEO,智谱 AI 副总裁;CCF 大模型论坛执行委员;北京元宇宙工委会副理事长;清华大学计算机系学士、硕士;有超过 10 年的新技术研发和创新管理经验。曾任四达时代传媒集团研究院首席架构师,负责设计和建设覆盖非洲十余个国家的三网融合视频系统;曾任职宝尊电商技术总监,管理近百人团队,负责多项 AI 产品的研发和商业化;连续创业者;拥有数十项国家发明专利。