智能客服真的'智能'吗?用户投诉背后的AI困境

学术 2024-11-14 10:02 英国

最近京东客服泄露客户隐私，在微博公开对话界面并辱骂消费者的事件引发了大量消费者的愤怒，人工客服的“离谱操作”让人大跌眼镜。在这种情境下，人工客服可能还不如智能客服。毕竟，智能客服不会辱骂消费者，顶多是“人工智障”答非所问而已。

出于节省人工成本、提升服务质量与效率等目的，大量公司大规模采用了智能客服。有时智能客服可以很好地回答我们的问题，而有时智能客服只会让我们越来越愤怒，甚至“拉黑”这个品牌或公司。这其中的原因是什么？

你在投诉产品时有没有遇到过“人工智障”？或者令你非常不满的智能客服吗？这些智能客服是怎么运作的？为什么有时候智能客服让你满意，但有时候又会导致你对服务甚至公司的不满呢？这篇文章为大家介绍的论文回答了这些问题。

论文介绍

研究内容

想象一下，当你网购的时候有一些问题需要找客服，你看到商家客服的头像、昵称非常的像真人，但它是个智能客服。在什么时候这些智能客服能够提供令消费者满意的服务呢？什么时候你会对这些智能客服格外不满？消费者会通过什么样的心理机制对智能客服做出反应？

Cammy Crolic等人在他们2022年发表在Journal of Marketing上的一篇研究中对此做出了解释。他们发现当消费者处于愤怒状态时，拟人化的智能客服会带来非常糟糕的后果。例如，当你非常生气的时候（比如说等了很久的预售给你发错货了），你看到对面是个非常像真人的客服，但它答非所问，你可能会对这个服务非常不满意，对店铺的评价也会更差。但如果你的心情很平和，只是有点疑惑（比如不知道商家发哪家快递），那么即使智能客服没回答你的问题，可能你也不会有太大的反应。因此，对于商家来说，识别消费者提问时的状态（如：是否愤怒）就非常重要，如果消费者很愤怒，最好直接上人工客服，如果不是很愤怒，那么似乎智能客服也可以胜任。

接下来，我将详细地为大家介绍这篇论文是如何进行理论演绎，并通过数据分析得出结论的。

理论基础与研究假设

—Anthropomorphism （拟人化）

拟人化是指将人类的特性、特征或心理状态归因于非人类的主体和对象（Epley et al., 2007; Waytz et al., 2010）。拟人化在日常生活中很常见，比如说非常人性化的品牌logo、像是有表情的汽车前脸。很多研究都表明，拟人化能够让消费者感觉品牌更亲近、对品牌更加信任；但也有的时候拟人化也会有负面效果，比如拟人化的游戏助手会影响游戏体验、感觉品牌的涨价更不公平等。

—Expectancy Violations （期望违背）

在使用产品或服务之前，消费者会对目标产品、品牌或公司有一些期望。如果这个产品或服务没能让你满意，没达到你的期望，这时候就会出现“期望违背”。期望违背既有可能是因为期望太高，也有可能是产品或服务真的表现得不够好（Sundar & Noseworthy, 2016; Cadotte et al., 1987）。期望违背会让消费者对产品或服务的满意度下降，甚至影响到对公司的整体印象。

—Customer Anger （消费者的愤怒）

期望违背会引发消费者的负面情绪，比如说愤怒。根据情绪功能主义理论（the functionalist theory of emotion）和评价理论（Appraisal theory），愤怒的影响非常强烈，会导致你快速做出反应，比如攻击和报复。比如说，如果商家的产品或服务让你很愤怒，你很有可能马上给他个差评。

—研究假设

根据上面的理论基础，这篇文章提出了下面的两个假设：

: For angry customers, chatbot anthropomorphism has a negative effect on (a) customer satisfaction, (b) company evaluation, and (c) purchase intention. This negative effect does not manifest for customers in nonangry emotional states.
对于愤怒的客户来说，聊天机器人拟人化对（a）客户满意度、（b）公司评价和（c）购买意愿有负面影响。这种负面影响在非愤怒情绪状态的客户身上不会显现。
: Chatbot anthropomorphism leads to inflated expectations of chatbot efficacy, which, for angry customers, results in the negative effect described in.
聊天机器人拟人化导致对聊天机器人功效的期望过高，这对于愤怒的客户来说，会导致中描述的负面影响。

研究方法

这篇文章的正文中呈现了五项研究，包括1项从一个公司中获取的真实数据的分析和 4 项实验。

Study 1：研究1的数据来自一家移动电信公司，数据中包括2016.09-2017.08期间这个公司使用聊天机器人和用户进行的46万次对话，有3万多次的对话有用户对服务的评分。考虑到评分数据的序数性质，作者使用了扩展的有序Probit模型（extended ordinal probit model）。回归分析的结果表明，用户的愤怒会显著地负向影响用户的评分行为；同时对愤怒的消费者来说，聊天机器人的拟人化水平会降低用户对服务的满意度评分，假设1得到了初步验证。

Study 2-5 采取了分组实验，通过实验操纵得到更清晰的结果

Study 2：实验的参与者被随机分配到 2（聊天机器人：控制与拟人）×2（情境情绪：中性和愤怒）的实验组中，结果表明当实验参与者在愤怒情境中，聊天机器人的拟人化（客户服务助理吉米）会降低参与者对聊天机器人的满意度。

Study 3: 实验的参与者被随机分配到 3（聊天机器人：控制 vs. 语言拟人 vs. 语言+视觉拟人）×2（情境情绪：中性和愤怒）的实验组中，结果表明当实验参与者在愤怒情境中，聊天机器人的拟人化越高，参与者对公司的评价越低。

Study 4: 实验的参与者被随机分配到 2（聊天机器人：控制与拟人）×2（情境情绪：中性和愤怒）的实验组中，结果表明当实验参与者在愤怒情境中，聊天机器人的拟人化会降低参与者的购买意愿。

Study 5: 实验的参与者被随机分配到 2（聊天机器人：控制与拟人）×2（期望值：基线和降低期望）的实验组中，结果表明当实验参与者的期望被降低后，聊天机器人的拟人化对愤怒的参与者的负面效果消失。

想要了解更多这篇文章的内容可以去找到原文看看哦~

这篇文章 2022 年发表于营销领域的顶级期刊 Journal of Marketing (AJG 4*)，由三位来自牛津大学商学院的教授共同完成
Cammy Crolic, Thomaz, F., Rhonda Hadi, & Andrew T. Stephen. (2022). Blame the bot: Anthropomorphism and anger in customer-chatbot interactions. Journal of Marketing, 86(1), 132–148. https://doi.org/10.1177/00222429211045687

如何将 LIWC 用于行为研究？

我们注意到这篇文章使用了自然语言处理的方法从真实的用户投诉文本中提取想要的信息。利用LIWC这种自然语言处理方法，这篇论文找到了“愤怒😡”的消费者，并量化分析了处于愤怒状态的消费者对聊天机器人的服务的反应。我们也可以利用这种方法对丰富的消费者评论文本进行分析，从而服务于我们的研究目的。接下来为大家详细介绍如何将LIWC应用于我们的研究中。

什么是 LIWC

LIWC（Linguistic Inquiry and Word Count, 语言查询和词频统计）是一个帮助我们了解人们在文字里表达情感和想法的工具，由James W. Pennebaker等人开发。它预设了一个字典，包含非常多的心理状态词汇，包括情感词汇、认知词汇等。当应用LIWC程序时，会在需要识别的文本中统计字典中的词汇出现的次数，从而量化文本中的心理特征。

SCLIWC 2024的语言维度和词类

来源：崔雪婷, 陈思仪, 赵楠, 刘晓倩, 朱廷劭. 简体中文LIWC2024 (SCLIWC2024) 词典的修订与验证. 中国科学院科技论文预发布平台 https://chinaxiv.org/abs/202404.00159.

LIWC 在论文中的应用

—识别消费者的愤怒&假设检验

在这篇论文中，作者用基于词典的语言查询和词频统计（Linguistic Inquiry and Word Count，LIWC）来分析对话中用户的愤怒（Anger）。具体地，作者调用了 LIWC item 中的 “anger”，这个 item 用于识别对话文本中与愤怒有关的单词的比例，随后作者对每个用户的所有对话文本中的愤怒比例做平均，得到了回归分析中 Anger 变量的数值。

此外，作者还对原始数据做了其他处理，以获得除 Anger 外的其他变量的数值：

Anthropomorphic treatment：用户提到聊天机器人的名称的次数（如用户说“你好吉米 [聊天机器人名称]，我是 XX，我遇到了 XX 问题”）
Bot language recognition rate：聊天机器人理解用户表达的意思的几率的均值
Bot language recognition variance：聊天机器人理解用户表达的意思的几率的标准差
Number of interactions：用户输入的次数
Chatbot interaction type：对话的类型（一般对话、问题和答案、提供链接、常见问题和反馈）

随后，作者使用下面的两个公式进行回归，公式1是二进制概率模型（0=不存在满意度评级，1=存在满意度评级），公式 2 是有序概率模型。公式1的回归结果表明，愤怒对用户是否对服务进行评价有显著的负面影响（）；公式2的回归结果显示，拟人化与愤怒的交互项显著的降低了用户对服务过程的评分（）。这意味着在用户非常愤怒的情况下，拟人化的聊天机器人确实会产生负面效果。论文中提出的假设得到初步的验证，后续可以进行实验进行因果关系的进一步检验。

—其他 LIWC 在论文中的应用

除了这篇文章中介绍的论文，LIWC在消费者行为学、心理学、管理学等诸多领域中都有所应用。下面列举了一些不同领域中应用LIWC开展研究的高质量文献，有需要使用LIWC的朋友可以参考这些文章的写作思路、方法与结果分析~

van Laer, T., Edson Escalas, J., Ludwig, S., & van den Hende, E. A. (2019). What Happens in Vegas Stays on TripAdvisor? A Theory and Technique to Understand Narrativity in Consumer Reviews. Journal of Consumer Research, 46(2), 267–285. https://doi.org/10.1093/jcr/ucy067

对近20万条TripAdvisor上的消费者评论进行了研究，探讨叙事性（narrativity）如何影响消费者的说服过程。LIWC 被用于定义和量化叙事内容和叙事话语中的元素

Boyd, R. L., & Pennebaker, J. W. (2015). Did Shakespeare Write Double Falsehood ? Identifying Individuals by Creating Psychological Signatures With Text Analysis. Psychological Science, 26(5), 570–582. https://doi.org/10.1177/0956797614566658

使用文本分析研究《Double Falsehood》究竟是谁的作品。LIWC被用于量化文本中功能词、内容词的占比，从而分析作者的写作风格

张紫琼, 杨钰, 王博文, 王乐, 张自立. (2024). 突发公共卫生事件对消费者在线评论情感倾向的影响研究. 管理学报, 1–11.

探讨突发公共卫生事件对消费者评论情感倾向的影响。LIWC 用于分析评论中的积极情感与消极情感占比

崔京月, 董柔纯, 李伟卿, & 王伟军. (2021). 网易云音乐不同人格用户的网络行为及歌词偏好特征分析. 心理科学, 44(6), 1403–1410. https://doi.org/10.16719/j.cnki.1671-6981.20210617

探讨用户的人格特质与网络行为、歌词偏好特征之间的相关关系。LIWC 软件用于分析歌词文本中的语言线索

应用 LIWC 的 Python 代码示例

和其他的文本分析一样，在使用 LIWC 的时候需要按照：获取文本数据——数据预处理（数据清洗、分词、去除停用词等）——数据分析的步骤进行。有关前两个步骤详细讲解可以查看《心理学与管理学文本分析入门指南》与《语言心理学与管理学文本分析入门指南--第二期：文本的预处理》这两期的内容。

接下来为大家提供一个简单的 python 代码示例，按照以下步骤进行：

导入不同的模块，re用于正则匹配文本中的单词，liwc用于文本分析，Counter 用于计数
加载liwc字典文件（需要在官网获取dic文件哦）
定义一个分词函数，对文本进行分词处理
定义想要分析的文本，并对文本做小写处理。示例中badreview = ''XXX'''. Lower () 的“XXX”可以修改为自己想要处理的文本
调用分词函数，对文本进行分词
使用liwc字典分析，并统计出现的次数
输出计数的结果

import reimport liwcfrom collections import Counter
parse, category_names = liwc.load_token_parser('LIWC2015 Dictionary.dic')
def tokenize(text):    for match in re.finditer(r'\w+', text, re.UNICODE):        yield match.group(0)
badreview = '''I'm absolutely furious! I've never been so let down by a company before. The product I received was completely broken, and when I tried to contact customer service, they were rude and unhelpful. It's like they don't even care about their customers. I've wasted my money and my time, and I'm extremely disappointed. This is not the kind of treatment I expected, and I won't be coming back. I'm warning others to stay away from this place. It's a total scam!'''.lower()
badreview_tokens = tokenize(badreview)
badreview_counts = Counter(category for token in badreview_tokens for category in parse(token))
print(badreview_counts)

输出内容：在这段差评中，表示愤怒（anger）的单词有2个，在后续的分析过程中，我们可以利用愤怒词汇占总字数的比例来衡量这段差评中消费者的愤怒程度，并用于进一步分析。具体可以参考下面的论文：

Zhang, Z., Qiao, S., Li, H., & Zhang, Z. (2022). How rainy-day blues affect customers’ evaluation behavior: Evidence from online reviews. International Journal of Hospitality Management, 100, 103090. https://doi.org/10.1016/j.ijhm.2021.103090

Counter({'function': 53, 'pronoun': 19, 'ppron': 14, 'i': 11, 'relativ': 11, 'verb': 11, 'prep': 10, 'adverb': 9, 'cogproc': 9, 'affect': 7, 'conj': 7, 'time': 6, 'auxverb': 6, 'social': 6, 'certain': 5, 'focuspast': 5, 'space': 5, 'work': 5, 'ipron': 5, 'negemo': 4, 'drives': 4, 'article': 4, 'focuspresent': 4, 'adj': 3, 'motion': 3, 'money': 3, 'they': 3, 'posemo': 3, 'anger': 2, 'negate': 2, 'compare': 2, 'achiev': 2, 'differ': 2, 'focusfuture': 2, 'informal': 1, 'assent': 1, 'power': 1, 'cause': 1, 'interrog': 1, 'friend': 1, 'sad': 1, 'discrep': 1, 'reward': 1, 'risk': 1, 'quant': 1})

在实际应用中，可以对上面的代码加以修改，例如使用其他分词方式、自定义词典、批量分析文本数据等，对数据的分析也可以根据写作的目的加以调整。大家可以多多尝试~

LIWC官方提供了一个收费软件和字典，可以在 LIWC APP 进一步了解。中科院心理所也开发了一个适用于中文的LIWC分析工具，文心(TextMind)，免费使用。大家在练习的时候可以尝试其他免费的中文字典，比如 Cntext。

作者：路子十一
审校：代新宇

排版：张旭婵

重磅 | 20万字英文学术写作文库笔记正式发布

（赞赏90元，公众号后台发送支付截图+接收邮箱即可）

http://mp.weixin.qq.com/s?__biz=MzU5MjEwODg1OA==&mid=2247501919&idx=1&sn=277f2240a5c814b83ec9cb49a98b303c

荷兰心理统计联盟

心理学与管理学研究者的共享学习平台：分享统计方法、软件操作、研究经验、写作发表，及就业求职资料！

最新文章

网络分析（1）：横断面网络分析及代码实例

ChatGPT赋能科研｜01 OpenAI官网发布12条学生写作指南

2024冬工作坊 | ChatGPT-R-Mplus-元分析-纵向-配对-实验

智能客服真的'智能'吗?用户投诉背后的AI困境

认知诊断理论 | 第二讲：认知诊断理论的基本介绍

鹿特丹管理学院人力资源博士职位

2024软科世界一流学科排名重磅发布：工商管理学科格局巨变！

2024世界一流学科排名——心理学

荷兰心理学与管理学硕博申请分享会

周日晚直播 | 欧洲心理学/管理学博士申请免费工作坊

前沿方法｜管理学和应用心理学发表注册报告方法详解

JASP教学｜01 不用任何代码做验证性因子分析

参与研究方法课程需求调研问卷赢100元代金券！

心理统计联盟—心途学堂留学申请项目隆重上线

硕博申请导师招募！这个神仙职位等你来投递！

朋友发了PNAS

资料分享 | 人工智能前沿研究量表和实验材料手册

2024年ABS管理学&心理学期刊排名发布！投稿必看

文献解读丨共同方法偏差的影响及其解决方法

公益直播报名链接！海外心理学/管理学博士申请工作坊

科研人养生专栏 | 03 心理学家说“最经典的心理健康标准”

博士申请｜8次线上课+10次1v1辅导+2次模拟面试仅需 6000元

认知诊断理论｜第一讲认知诊断理论的基本介绍

公益直播预告 | 海外心理学/管理学博士申请工作坊

2024年诺贝尔奖解读：认知神经科学家们过年了

2024年 | 诺贝尔奖有没有心理学家？

2021-2024年UTD 24期刊世界及中国高校发表排名

视频课｜本硕毕业论文问卷数据（评分4.2）

荷兰心理统计联盟方法实操课程工作坊 · 视频课上线啦！

ChatGPT数据分析｜用ChatGPT快速制作APA描述性统计结果表格

穿透游戏荧幕的“眼睛”（上）：人类视觉、游戏相机和镜头视角的关系

莱斯大学孙天君课题组招收心理学博士生

科研人养生专栏 | 02 时间管理中的焦虑：无谓的压力与有效的应对

科研工具及宝藏网站推荐（建议收藏）

项目反应数据库(Item Response Warehouse)介绍

清华大学经济管理学院招聘工商管理学科博士后

科研人养生专栏｜01 一个月不熬夜打卡小组挑战（冠军奖励1000元）

直播分享嘉宾招募 | 解锁科研之外，开启人生“副本”

心理统计联盟：新成就(60000 关注!）+新成员+新业务

2024国庆工作坊 | 行为实验研究设计和数据分析

2024国庆工作坊 | 从0到1掌握主客体互倚模型及其进阶模型（Mplus）

R语言心理学与管理学文本分析入门指南--第四期：情感分析

问卷测量中视觉模拟量表的应用

Endnote 的9个超实用技能分享

本硕毕业论文数据分析课【最后3天报名】

SPSS+Mplus本硕论文问卷调查数据分析一天搞定！

密集追踪测量中的信度评估

2024暑期课回顾｜英文写作与发表（评分4.4/5）

《The International Journal of Human Resource Management》特刊征稿

2024年心理学国家自然科学基金立项名单及主题分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉