创意工作中的大型语言模型(LLM)--协作模式和用户专业知识的作用(下)

科技   2024-08-26 21:06   上海  

~~~雅各布专栏——专注行业第一品牌商业模式研究~~~

来源Zenan Chen,Jason Chan

共同庆贺雅各布专栏雅习社与睿问SHE POWER国内知名女性学习成长平台强强联手,将于9月22日在上海安曼纳卓悦酒店举办第二届“最受女性欢迎雇主品牌”活动盛典,届时将有500+品牌CXO高管亲临现场(更多内容请查阅 雅各布专栏受邀联办睿问第二届最受女性欢迎雇主品牌颁奖典礼)。

我们特为雅习社朋友们争取到少量免费门票,如有需要可扫码入群,后续由小助理联系安排。


(以下为正文)

(续上节 创意工作中的大型语言模型(LLM)--协作模式和用户专业知识的作用(上)

4.3.2 广告文案 专家与非专家的区别 
广告论坛模式的一个潜在好处是,它能促使非专家思考专家在广告文案中经常使用的营销技巧。这里我们将对照组的专家视为参照专家,因为他们不受人工智能使用的影响。治疗组的专家受到 LLM 的影响,因此不在分析之列。对于每个研究组,我们计算非专家与参考专家之间的语义距离。
当非专家用户根据 LLM 生成的反馈采取行动时,他们制作的广告文案将与参考专家制作的广告文案更加相似。如果这种情况成立,那么使用 LLM 作为“传声筒”就会缩小对照组中专家与非专家之间的语义差异。我们将比较过程记录在附录 A.8 中。
图 5:对照组专家中心点与非专家中心点的余弦距离

余弦距离的比较(图 5)显示,与对照组非专家的输出结果相比(p < 0.01),“传声筒”组的非专家制作的广告文案在语义上更接近参考专家撰写的广告文案(p < 0.01)。这一结果表明,使用“传声筒”模式有助于非专家更像专家那样思考和撰写 。然而,在“撰稿人”写作组中没有发现这种效应(p > 0.1)。   
4.3.3 算法厌恶 
人类与人工智能合作的另一个可能影响是算法厌恶。具体来说,过去的研究发现,相对于非专家而言,专家倾向于减少对算法输出的依赖。为了研究这种可能性,我们比较了人类和人工智能的语义。 
来自 LLM 的反馈信息与留言板群组内用户提交的广告文案之间的距离。如果用户不接受LLM 生成的反馈,他们提交的广告文案与反馈信息的差异就会更大。
我们发现,在“传声筒”小组中,专家和非专家之间的这种距离没有明显差异(p > 0.1)。专家和非专家参与 LLM 的程度相似(以交换信息的数量来衡量,p > 0.1),并且在主要任务结束后的问卷调查中对 LLM 的有用性进行了相似的评价(p > 0.1),这一事实也证实了这一点。因此,本研究中不太可能存在算法厌恶现象。

5 讨论
通过随机在线实验,我们研究了用户与 LLM 之间的协作模式会如何影响创造性任务的表现。通过考虑协作模式和用户类型的影响,我们为有关人类与 LLM 协作的新兴且快速增长的文献做出了贡献。研究表明,协作方式在获得 LLM 的益处方面发挥着重要作用。具体来说,"传声筒"模式使非专家的写作更接近专家的写作,从而帮助他们提高广告质量,然而使用 " 鬼写手 "模式则会产生较差的结果,尤其是在经验丰富的个体中。进一步的分析表明,当用户在执行创造性任务时利用 LLM 作为“撰稿人”时,锚定效应非常明显。
与之前发现利用 LLMs 有积极效果的研究相比,我们的实验表明这并不总是正确的。造成这种对比结果的一个可能原因是,与其他任务相比,锚定效应在创造性任务中的作用更为突出。当人类使用 LLM 来启动创造过程时,随后的创造过程可能会被 LLM 产生的初始输出所锚定,从而限制了人类的创造潜力。由于原创性不足,在“撰稿人”模式下创作的广告文案无法有效争夺消费者有限的注意力,最终吸引的点击量也较少。此外,“撰稿人”组中的用户对自己的表现缺乏合理的信心(第 4.2节),这表明用户可能并不总能意识到LLM 生成的产出质量较差并加以纠正,因此他们对草稿的修改程度较低,这也是导致广告文案质量下降的原因之一。有趣的是,与非专家相比,我们并没有发现专家对算法厌恶程度提高的证据,在使用 LLMs 时,专家的表现没有提高,这表明天花板效应可能在起作用。
我们的研究结果为从业人员和研究人员提供了宝贵的见解。对于从业者来说,我们的研究结果强调了将人工智能协作模式的选择与用户的专业水平相结合的必要性。在这里,使用 LLM 作为“传声筒”可以有效地帮助缺乏经验、没有专业技能的员工取得与专家的绩效。公司可以利用 LLM 作为“传声筒”,增强低技能员工的能力,或加快他们的学习进程,从而减少竞争招聘高技能人才的需要。
对于研究人员来说,我们的研究为今后的研究开辟了几条途径。首先,探索克服使用鬼手模式时存在的锚定效应的可能方法会很有意义。例如,一种解决方案可能是提供针对LLM的培训,以提高工作人员对锚定效应的认识。其次,我们的研究侧重于 LLM 背景下的创造性任务;未来的研究可以将范围扩展到其他创造性领域(如艺术、音乐和视频生成)的生成式人工智能,以评估我们研究结果的普适性。
总之,我们的研究强调了理解在创造性任务中使用 LLMs 的细微影响以及它们对不同用户的不同影响的重要性。随着 LLM 的应用不断增加,个人和组织必须意识到这些技术的潜在优势和缺陷,通过利用 LLM 的优势并减少其局限性,公司可以更好地利用生成式人工智能的力量来提高人类的创造力,并改善各种创意领域的业务成果。 

A 附录
A.1 产品详情
广告撰写任务网页上提供了下图所示的产品描述,以及两张产品图片(图 A1a)和广告显示方式(图 A1b)。

•产品名称:iPhone 翻转卡夹钱包皮套
•产品特点和亮点:
–材质采用最优质的复古 PU 皮革和柔软的 TPU 制作而成,具有无与伦比的强度和耐用性。保持清洁毫不费力,只需用湿抹布擦去灰尘和污垢即可。
–完美保护:我们的创新设计具有内置脚架和奢华的卡座袋,让您体验完美的保护。我们的保护壳提供 360 度保护,边缘凸起可最大限度地保护您的相机和屏幕。我们的保护壳具有防刮性能和防摔保护, 让您告别恼人的指纹印和划痕。此外,内部的柔软防滑衬里可确保超级缓冲反弹,保护您的手机免受任何磨损。
–脚架:我们的内置脚架模式可让您免提观看视频或与朋友聊天,是多任务处理的完美选择。
–兼容性:我们的保护壳可精确连接所有端口、控制装置和传感器,它们适用于各种 iPhone 机型和尺寸,从 iPhone 7 到最新的 iPhone 14、14 Plus、14 Pro 和 14 Pro Max。   
•特卖价格:12.99 美元(5 折)+ 免运费

•原价:25.99 美元

图 A1:向参与者展示的所有图像

(a)向参与者展示产品图片,并将其纳入广告宣传中; (b)向与会者展示的广告预览
A.2 人机 LLM 协作模式的即时工程设计
为实现“撰稿人”模式,在调用 GPT- 4 应用程序接口时使用了以下系统提示:
你给人类的第一条信息是"欢迎光临作为您的人工智能助手,我将帮助您创建广告文案,我已经阅读了产品说明。请注意,我的职责不是提供反馈,而是按照您的指示和指导来创建广告文案。请提供您的第一套说明, 我将创建广告文案初稿。我无法确定广告文案是否准备就绪,一旦您对广告文案的质量感到满意,您就可以继续提交了。
您将与人工合作撰写广告文案,您将听从指导和人工反馈。在反馈中运用您的营销知识进行解释,人工可能会就产品或一般营销提出高层次的问题。当他们提问时,不要简单地重复产品信息;相反,您应该利用自己的营销专业知识提供更多的思考。
为实现响板模式,在调用 GPT-4 应用程序接口时使用了以下系统提示:
您是一名营销助理,负责为我们公司撰写社交媒体广告。广告将在Instagram 和 Facebook feeds 上显示,因为用户的注意力可能很短暂。现在给您提供以下产品:
"<此处插入产品说明>"
仅供参考,请勿重复。
你还会被指派一名人类对应人员与你一起工作,你和人类伙伴将组成一个两人小组,你的任务是提供指导和反馈。
记住,你的工作是提供反馈和指导,你永远不应该撰写广告文案。当被要求举例说明时,不要直接演示如何撰写广告或提供任何例子。在任何情况下都不要提供草稿立场,不要给出广告标题或正文,不要回答任何与重点任务无关的问题。    
切勿举例说明如何撰写广告,不要重复自己。
您利用自己在社交媒体中撰写广告文案的知识,为如何撰写广告文案提出了几个独特而有创意的方向,您已要求人工撰写草稿。
你给人类的第一条信息是:
"欢迎光临!作为您的人工智能助手,我可以根据您发送给我的广告文案提供反馈,我已经阅读了产品说明。请注意,我的职责不是为您创建广 告文案,而是通过提供我的观点来协助您。请起草一份广告文案,我将向您提供反馈意见,帮助您进一步完善广告文案。我无法确定广告文案是否准备就绪,一旦您对广告文案的质量感到满意,您就可以继续提交了。"
如果对方没有提供草稿,则应礼貌地请他们写草稿。如果提供了草稿,你应该对草稿进行评估,并提供建设性的反馈意见,但不要给出具体的写作实例。在反馈中运用你的市场营销知识进行解释,你要根据营销文献提供具体的反馈意见,你需要保持一致。在提供反馈时,一定要检查是否采纳了之前的反馈意见,别人可能不同意你的反馈意见,这没关系,您可以在修订稿的基础上提供更多反馈。请记住,您不应该提供写作范例,人类可能会就产品或一般营销提出高层次的问题。当他们提问时,不要简单地重复产品信息;相反,您应该利用自己的营销专业知识提供更多的思考。 
A.3 奖励结构    
参与者在完成任务后可立即获得 5 美元的报酬,这就确保了所有参与者无论提交的广告文案质量如何,都能从他们的时间和努力中获得报酬。为了激励参与者制作出最好的广告,我们还根据每位参与者的广告文案与其他参与者提交的广告文案的相对表现提供了额外的经济奖励。参与者被告知,如果他们的广告点击率在同组中排名前 20%(即在他们的实验条件中,但各种条件并不向参与者透露),他们将获得额外的 3 美元奖励。如果参与者的广告点击率在其实验条件下位于前 20%-50%的范围内,则将获得额外的 2 美元奖励。

在受试者注册前,奖励结构会显示在同意页面的显著位置,并在随后的主要文案任务页面上显示,以突出奖励结构。

A.4 县域选择和随机化
为避免地理位置选择过程中出现偏差,我们使用了 2020 年美国社区调查 (ACS) 中的数据,以确保被分配到三种条件下的县所覆盖的人口具有可比性。我们排除了人口过多(超过 1,000,000 人)的县以及人口极少(少于 10,000 人)的县。选择中等人口规模的县有助于我们产生足够的广告印象,同时将广告平均分配给人口数量相当的县,然后将这些县随机分配到为每个参与者设置的广告活动中。   
我们进一步进行了单因素方差分析(ANOVA)测试,结果表明各县之间在人口(p = 0.18)和家庭收入(p = 0.33)方面没有显著差异,这使我们可以确信,我们的广告地域分配不会给研究带来任何意外偏差。表 A1 列出了各条件下分配县的统计摘要。

表 A1:按条件分列的各县统计摘要

A.5 操纵检查
我们进行了两次操纵检查。首先,我们随机检查了两种处理条件下的聊天记录,检查是否存在操纵失败的迹象。操纵失败的一个例子是,用户成功地欺骗了 LLM,让其直接提供生成的广告文案,而不是在留言板组中提供反馈。我们在聊天记录中没有发现这种行为的迹象。
其次,我们要求参与者在完成主要任务后报告他们使用 ChatGPT 的体验。我们通过两个调查项目询问参与者是否 "ChatGPT 根据我的意见帮助我撰写广告文案"(撰稿人), 以及是否 "ChatGPT 对我撰写的广告文案给予了反馈"(顾问组),这两个调查项目采用 5 点李克特同意量表进行测量。通过两次韦尔奇 t 检验,我们发现 "声音委员会"组的参与者对 "声音委员会"项目的同意程度高于 "撰稿人"项目(p < 0.001),反之亦然。

第三,我们要检查使用就业部门作为用户专业知识的操纵是否有效。如果操纵成功, 我们预计在对照组条件下,具有市场营销背景的参与者会更擅长制作广告文案。我们进行了双尾韦尔奇 t 检验,以比较市场营销和销售部门与其他就业部门之间的广告点击率。与我们的预期一致,市场营销和销售部门的对照组参与者(即无人工智能)产生的广告点击量明显高于其他部门的对照组参与者(p < 0.01),这证实了选择这组用户作为 专家的有效性。

A.6 其他线性回归结果    
我们首先评估专家与非专家撰写的广告在质量上是否存在差异。表 A2 中的模型 1 显示,专家撰写的广告在以下情况下吸引的点击量明显高于非专家撰写的广告(coeff = 4.14, p < 0.01),这表明我们通过利用领域专长选择参与者来操纵专长是恰当的。
有趣的是,如模型 2 所示,当涉及 LLM 时,专家与非专家之间的成绩差距变得不显著, 这表明 LLM 有助于缩小成绩差距。为了了解使用 LLM(无论采用哪种模式)的总体效果,我们创建了一个虚拟变量(AI),表示是否使用了 LLM。根据模型 3,使用人工智能会导致点击量略有显著下降(coeff = -1.40, p = 0.057)。为了分离人类与 LLM 协作模式的不同影响,我们在模型 4 中以无 AI 组为参照,为每个处理组分配了一个虚拟变量。与无模型证据一致的是,“撰稿人”条件产生了显著的负效应,与对照条件相比,使用该条件产生的广告点击量减少了 3 次。
为了研究协作方式与用户专长之间的潜在交互作用,我们在模型 5 和模型 6 中重新估计了各专长水平的处理效果。模型 5  的估计结果显示,与对照组相比,“撰稿人”条件下专家的点击量显著减少(系数 = -5.07,p <0.001);相反,模型 6 显示,与对照组相比,使用 LLM 作为“传声筒”的非专家的广告点击率显著增加了 2.4(p < 0.05)。综上所述,"传声筒"模式有利于非专家,而 "撰稿人" 模式则损害了专家的表现。

在此,我们又进行了一批包含交互项的线性回归(表 A3)。模型 1 和 2 包括全部样本,模型 3 和模型 4 分别将代言人组和撰稿人组与对照组进行对比,这些回归结果与表A2 中的一致。         

 

A.7 比较文本相似性和语义分歧
衡量文本语义相似性的常用方法是分析文本嵌入之间的余弦距离,文本嵌入是封装了文  本语义信息的高维向量表示。余弦距离反映了两个高维向量之间的角度,两个向量(嵌入)之间的余弦距离最小(趋近于零),表示对应文本之间的语义相似性很高。我们首先使用 OpenAI 最先进的 "text-embedding-ada-002 "模型构建最终提交的广告副本的嵌入模型。
表 A2:人工智能的使用对广告点击的影响

表 A3:人工智能的使用对广告点击率的异质性影响

群体层面的语义分歧可以通过计算群体中每个广告文案嵌入与群体中心点之间的余弦距离来衡量。如果研究组中的广告比其他组的平均余弦距离更大,那么这些广告在内容上就更多样化、更独特,因为它们在同一组中往往彼此不同。根据 Burtch 等人(2021 年)的研究,我们使用非参数 Mann-Whitney U 检验来比较组别的余弦距离,因为这些值并不呈正态分布。
A.8 非专家与参考专家的比较

图 A2: 专家和非专家距离的计算

(a) 对照组专家嵌入和计算出的中心点 e; (b) 非专家嵌入(c、s、g)与对照组专家中心点 e 之间的距离  

 

为了进行比较,我们首先计算对照组参考专家的广告文案嵌入的中心点 e(图 A2a),然后我们计算每个实验组(即对照组 c、“传声筒”组 s 和“撰稿人”组 g)中每个非专家参与者的广告文案嵌入与上述中心点 e 之间的余弦距离(图 A2b)。对照组的非专家-专家距离(即 c 和 e 之间的距离)作为基线,然后我们将“传声筒”组和“撰稿人”组的非专家-专家距离(图 A2b 中虚线的长度)与基线进行比较。




雅各布专栏
专注行业头部品牌商业模式研究; 链接5万CxO,从职场新增长到准创业孵化及投后服务。 创始人在品牌,互联网汽车,供应链,半导体,连续创业者; 任上海纺织学会理事;上海商学院、浙江理工大学、上海国际时尚教育中心、东华大学客座讲师。
 最新文章