我们敢将生成式人工智能用于解决心理健康问题吗?

学术   2024-11-23 15:00   北京  
2017年,心理健康应用Woebot推出,那时,“聊天机器人”还是不为人熟知的术语,需要心理治疗师帮助的人只能想到自己会与人类交谈。Woebot是一种令人激动的新事物,这是一种以迅速响应、富有同理心、由人工智能驱动的聊天机器人的形式获取即时心理健康支持的方式。用户发现,这个友好的化身机器人每天都会关心他们、跟踪他们的进展,并且总是有空和他们认真谈论一些事情。

时至今日,情况大不相同了。人们对心理健康服务的需求激增,而临床医生的数量严重不足。现在,有数千款应用程序可针对心理卫生与健康提供自动化支持。并且ChatGPT已经帮助数百万人尝试了对话式人工智能。

人们虽然对生成式人工智能产生了极大的兴趣,但同时也看到了其弊端。作为一家提供对话服务的公司,Woebot Health必须明确生成式人工智能是能够帮助Woebot成为一个更好的工具,还是过于危险因而不适合纳入产品之中。

Woebot旨在借助受认知行为疗法(CBT)启发、基于证据的工具来提供结构化对话。认知行为疗法是一种旨在改变行为和感受的技术。回顾过去,Woebot Health一直在使用自然语言处理(NLP)这种来自人工智能子学科的技术。该公司使用人工智能的方式很巧妙,并且是有计划的,Woebot只会为了更好地理解用户书面文本而使用自然语言处理,以便以最合适的方式给出回应,从而鼓励用户更深入地参与到这个过程中。

Woebot目前仅在美国提供,它不是ChatGPT那种生成式人工智能聊天机器人。二者在机器人的内容和结构上具有明显差异。Woebot所说的一切都是由受过循证方法培训并与临床专家合作的对话设计师撰写的;而ChatGPT则会生成各种不可预测的说法,其中一些不是真实的。Woebot依赖于一种基于规则的引擎,类似于由可能的对话路径构成的决策树;而ChatGPT则是根据之前的内容,使用统计方法来确定接下来应该说什么。

基于规则的方法为我们提供了很好的服务,可保护Woebot的用户免受早期生成式聊天机器人中出现的混乱对话的影响。在ChatGPT出现之前,与生成式聊天机器人进行的开放性对话并不令人满意,并且很容易偏离主题。比较著名的例子是微软的Tay,这款聊天机器人本来是为千禧一代设计的,但不到24小时,它就变得粗俗下流,充满了种族主义偏见。

不过,随着2022年末ChatGPT的问世,我们不得不问自问:为ChatGPT这样的聊天机器人提供动力的新的大语言模型(LLM)是否可以帮助我们实现公司的愿景?突然之间,数亿用户都在与ChatGPT进行听起来很自然的对话,谈论各种各样的事情,包括他们的情绪和心理健康。这种新的大语言模型能否为Woebot一直采用的基于规则的方法提供一个可行的生成式人工智能替代方案?Woebot Health要求公司的人工智能团队(包括本文的作者)找到答案。

woebot最早是由临床研究心理学家艾莉森•达西(Alison Darcy)在人工智能先驱吴恩达的支持下领导开发的一款工具,旨在为年轻人提供情感支持。在寻找工具传递认知行为疗法元素时,达西和创始团队的另一名成员皮埃尔•拉波尔特(Pierre Rappolt)从视频游戏中汲取了灵感。他们的许多原型都包含了互动式虚构元素,这也引领达西走向了聊天机器人范式。在一项为大学生提供心理健康支持的随机对照试验中,他们对第一个版本的聊天机器进行了研究。根据研究结果,达西从新企业协会(New Enterprise Associates)和吴恩达的人工智能基金筹集到了800万美元。

Woebot应用程序旨在成为人工支持的辅助工具,而不是替代品。对于Woebot的构建原则,亦即我们所称的核心信念,早在其推出之日我们就进行了分享。它们表达了对人性以及每个人改变、选择和成长能力的坚定信念。该应用程序不会进行诊断、不提供医疗建议,也不会强迫用户进行对话。相反,它遵循认知行为疗法中普遍存在的一种佛教原则,即 “张开双手以开放的心态坐下”;它会发出邀请,用户可以选择是否接受,它会鼓励参与的过程而不看重结果。Woebot会在最佳时机问出恰当的问题,并可以随时随地参与互动式自助活动,以此促进用户的成长。

这些核心信念深刻地影响了Woebot的工程架构和产品开发过程。精心设计的对话对于确保互动符合我们的原则至关重要。我们会以“台词朗读”的形式大声朗读对话进行测试,然后做出修订,以便更好地表达核心信念并让对话更加自然。对话的用户侧既有给定的多个话题也有“自由文本”,用户可以写下所想的任何内容。

开发一款支持人类健康的应用程序是一项高风险工作,我们格外注意采用最佳的软件开发做法。从一开始,推动内容创作者和临床医生在产品开发方面进行合作就需要定制工具。最初的系统使用了谷歌表格,但它很快就无法扩展了,工程团队将其替换为基于Web的专有“对话管理系统”,采用JavaScript库React进行了编写。

在这个系统中,写作团队的成员可以创建内容、在预览模式下回看内容、定义内容模块之间的路由,并找到供用户输入自由文本的地方,然后我们的人工智能系统会对自由文本进行解析。结果便产生了一棵基于规则的大树,它由对话路径分支构成,并组织在“社交技能培训”和“挑战性思维”等模块内。这些模块是从认知行为疗法和其他循证技术的心理机制转化而来的。

虽然Woebot所说的一切都是由人类编写的,但它也使用了自然语言处理技术来帮助理解用户的感受及其面临的问题;然后,Woebot可以从其丰富的内容库中选择最合适的模块来提供给用户。当用户输入有关其想法和感受的自由文本时,我们会使用自然语言处理来解析这些文本输入,并向用户提供最佳回复。

在Woebot的早期阶段,工程团队使用了正则表达式来理解这些文本输入背后的意图。正则表达式是一种文本处理方法,它依赖于在字符序列中进行模式匹配。在某些情况下,Woebot的正则表达式相当复杂,既可以解析简单的是/否回答,也可以学习用户的首选昵称,用途广泛。

后来在Woebot的发展过程中,人工智能团队用经过监督学习训练的分类器替换了正则表达式。创建符合监管标准的人工智能分类器的过程非常复杂,每个分类器都需要付出数月的努力。通常情况下,一个由内部数据标记员和内容创建者组成的团队会审查取自对话中特定点的用户消息示例(已清除所有可识别个人信息)。数据被归类和标记后,分类器就会受到训练,继而接收新的输入文本并将其归入现有类别。

这个过程会被重复多次,并对照测试数据集对分类器进行反复评估,直到分类器的表现让我们满意为止。在最后一步,我们会更新对话管理系统以“调用”这些人工智能分类器(实质上是激活它们),然后将用户路由到最合适的内容处。例如,如果用户写道,他因为与妈妈吵架而感到愤怒,系统就会把这个回复归类为关系问题。

这些分类器背后的技术也在不断发展。早期,团队使用了一个名为fastText的文本分类开源库,有时会结合正则表达式使用它。随着人工智能的不断发展和新模型的推出,团队得以用同样的已标记数据训练新模型,从而提高准确性和检索率。例如,早期的转换模型BERT于2018年10月发布时,团队对照fastText版本严格评估了其性能。对我们的用例而言,BERT在精度和检索率方面都表现优异,因此团队用BERT替换了所有的fastText分类器,并于2019年1月推出了新模型。我们立即发现各个模型在分类准确性方面都有所提高。

2022年11月ChatGPT发布时,Woebot已经推出超过5年了。人工智能团队面临着一个问题——像ChatGPT这样的大语言模型能否用来实现Woebot的设计目标并增强用户体验,使他们走上更好的心理健康之路。

这些可能性让我们很兴奋,因为ChatGPT可以就数百万个主题进行流畅而复杂的对话,远远超出我们在决策树中所能包含的内容。然而,我们也听说过一些令人担忧的例子,聊天机器人提供的回答明显不具有支持性,例如如何维持和隐藏饮食障碍的建议,甚至是自残方法的指导。比利时发生过一个悲剧案例,一位悲痛的寡妇指责聊天机器人导致了她丈夫自杀。

我们做的第一件事就是自己尝试ChatGPT,并迅速成为了提示工程方面的专家。例如,我们提示ChatGPT要表现得具有支持性,并扮演不同类型的用户角色,以探索该系统的优势和不足之处。我们描述了自己的感受,解释了我们面临的一些问题,甚至明确地寻求应对抑郁或焦虑的帮助。

有几件事引起了我们的注意。首先,ChatGPT很快告诉我们,我们需要与心理治疗师或医生等其他人谈一谈。ChatGPT并不是用于医疗用途,因此这种默认回答是聊天机器人制造商的明智设计决策。但是,我们的对话总是被中断,这一点让人不太满意。其次,ChatGPT的回复通常是百科全书式的回答列表。例如,它会列出对对抗抑郁有帮助的6种行动。我们发现,这些项目列表告诉了用户该做什么,但没有解释如何采取这些步骤。再次,总体上,对话很快就结束了,没有让用户参与心理变化的过程。

对我们团队来说,很明显,现成的大语言模型无法提供我们所追求的心理体验。大语言模型以奖励模型为基础,它们重视的是提供正确答案,缺乏引导用户自己去发现这些结果的动力。这些模型不是“张开双手以开放的心态坐下”,而是会假设用户在说什么,并提供带有最高奖励的回复。

为了确定大语言模型能否用于心理健康领域,我们研究了各种方法来扩展我们的专有会话管理系统。我们研究了管理提示和提示链(要求大语言模型通过多个子任务来完成任务的一系列提示)的框架和开源技术。2023年1月,一个名为LangChain的平台开始流行,并提供了调用多个大语言模型和管理提示链的技术。然而,LangChain缺少一些我们需要的功能:它没有像我们的专有系统那样提供视觉用户界面,也没有提供方法来保护与大语言模型的交互。我们需要一种方法来保护Woebot用户免受大语言模型常见隐患的影响,包括幻觉(即大语言模型说的话看似可信但不真实)以及单纯的离题。

最终,我们决定实施自己的大语言模型提示执行引擎来扩展我们的平台,并因此得以将大语言模型注入到基于规则的现有系统的某些部分中。这款引擎使我们能够支持提示链等概念,同时还能与我们现有的对话路由系统集成。在开发该引擎时,我们幸运地收到了邀请,参加了许多新的大语言模型的测试计划。如今,我们的提示执行引擎可以调用十几种不同的大语言模型,包括各种规模的OpenAI模型、微软Azure版本的OpenAI模型、Anthropic的Claude、谷歌Gemini以及在亚马逊Bedrock平台运行的各开源模型,例如Meta的Llama 2。我们将该引擎专门应用到了经伦理审查委员会(IRB)批准的探索性研究中。

我们花了大约3个月的时间来开发大语言模型的基础设施和工具支持。通过这个平台,我们可以将各项功能打包到不同的产品和实验中,从而能够控制软件版本并管理我们的研究工作,同时确保我们的商业化部署产品不受影响。我们没有在任何一款产品中使用大语言模型;受大语言模型支持的功能只能部署在用于探索性研究的Woebot版本中。

在开发过程中,我们也经历了一些错误的尝试。我们首先尝试创建了一个几乎完全由生成式人工智能驱动的试验性聊天机器人;也就是说,该聊天机器人直接使用了大语言模型的文本回复。但我们遇到了一些问题。第一个问题是,大语言模型总是急于展示自己很聪明和能起到帮助作用。然而,这种渴望并非总是一种优势,因为它干扰了用户自己的进度。

例如,用户可能在做思维挑战练习,这是认知行为疗法中的一种常用工具。如果用户说:“我是个糟糕的妈妈。”练习中下一步比较好的做法可能是询问用户的这个想法是否“标签化”了,这是一种给自己或他人贴上负面标签的认知扭曲。但大语言模型会迅速跳过这一步,教用户如何重新表达这个想法,比如说:“更好的说法可能是‘虽然我没有总是做出最好的选择,但我爱我的孩子’。”用户自己作出努力、得出自己的结论并逐渐改变思维模式时,思维挑战等认知行为练习才最能发挥帮助作用。

大语言模型的第二个难点在于风格匹配。虽然社交媒体上充斥着各种大语言模型以莎士比亚十四行诗或者苏斯博士风格的诗歌作为回复的例子,但这种格式化的灵活性并不适合Woebot的风格。Woebot温暖的语气经过了对话设计师和临床专家多年的精心打磨。但即使有细心的说明和包括Woebot语气示例的提示,大语言模型生成的回复也不“像Woebot”,可能是因为缺少了一些幽默感,或者因为语言不够简单明了。

不过,在情感层面上,大语言模型表现得非常出色。在劝人谈论其快乐或挑战时,大语言模型精心制作了让人们感到被理解的个性化回复。如果没有生成式人工智能,就不可能对每种不同的情况作出新颖的回复,可以预见的是,对话会让人感觉“机械化”。

我们最终构建了一个既具有生成式人工智能能力也具有传统的基于自然语言处理能力的试验性聊天机器人。2023年7月,我们注册了一项经伦理审查委员会批准的临床研究,以探索这种大语言模型—Woebot混合体的潜力,研究用户满意度以及症状变化和对人工智能的态度等探索性成果。考虑到其科学严谨性和安全协议(如不良事件监测),我们认为有必要在受控的临床研究中研究大语言模型。我们的研究对象包括年龄在18岁以上、精通英语、近期没有自杀企图、当前也没有自杀意念的美国成年人。研究采用双盲结构,将一组参与者分配给了大语言模型增强版Woebot,而对照组则使用标准版;然后我们在两周后评估了用户满意度。

我们在试验性Woebot中建立了技术保障措施,确保它不会对人说出令人忧虑或违反流程的内容。这些保障措施会从多个层面来解决这一问题。首先,我们使用了工程师心目中的“最佳”大语言模型,它们产生幻觉或生成冒犯性语言的可能性更低;其次,我们的架构围绕大语言模型设置了不同的验证步骤,例如确保Woebot不会对与话题无关的陈述或在提到自杀意念的情况下(在这种情况下,Woebot会提供热线电话)给出大语言模型生成式回复;最后,我们将用户的陈述包裹在了精心设计的提示中,以引发大语言模型的恰当回复,然后Woebot会将这些回复传达给用户。这些提示包括“不提供医疗建议”等直接指示,以及在具有挑战性的情况下的恰当回复示例。

虽然两周的初步研究时间对于心理治疗来说很短,但其结果是鼓舞人心的。我们发现,实验组和对照组用户对Woebot的满意度大致相同,两组的自报症状都减少了。此外,大语言模型增强版聊天机器人表现良好,拒绝了做出不当行为的尝试,如诊断或提供医疗建议。在面临身体形象问题或物质使用等困难话题时,它始终以一种既提供同情又不认可不良适应行为的方式给出了恰当回应。在参与者同意的情况下,我们完整审察了每一份聊天记录,并没有发现令人担忧的大语言模型生成式话语,没有证据表明大语言模型产生了幻觉或以有问题的方式偏离了主题。而且,用户也没有报告与设备相关的不良事件。

这项研究只是我们探索未来Woebot版本可能性的第一步,其结果鼓舞了我们继续在精心控制的研究中测试大语言模型。我们从先前的研究中了解到,Woebot用户与我们的机器人建立了联系。大语言模型有可能更具同理心且更加个性化,这让我们很兴奋,并且我们认为,不受约束的大语言模型聊天机器人所存在的有时令人恐慌的隐患是可以避免的。

我们坚信,随着时间的推移,大语言模型研究领域的持续进步将改变人们与Woebot等数字工具的互动方式。我们的使命没有改变:我们致力于打造世界一流的解决方案,为人们的心理健康之旅保驾护航。我们希望能够向任何想要交流的人提供最理想的Woebot版本。

作者:Casey Sackett、Devin Harper、Aaron Pavez

IEEE Spectrum

《科技纵览》

官方微信公众平台






往期推荐
生成性人工智能的未来发展
人工智能在心智理论测试中战胜人类
生成式人工智能带来的电子废弃物垃圾不容忽视

悦智网
IEEE Spectrum是国际期刊界卓越的技术写作和报道的一盏明灯。我们旨在提供一个跨学科技术领域的“全局”,让读者了解工程学、科学和技术领域的创新成果与发展趋势。
 最新文章