创意工作中的大型语言模型(LLM)--协作模式和用户专业知识的作用(上)

科技   2024-08-16 20:18   湖北  

~~~雅各布专栏——专注行业第一品牌商业模式研究~~~


来源Zenan Chen,Jason Chan

共同庆贺雅各布专栏雅习社与睿问SHE POWER国内知名女性学习成长平台强强联手,将于9月22日在上海安曼纳卓悦酒店举办第二届“最受女性欢迎雇主品牌”活动盛典,届时将有500+品牌CXO高管亲临现场(更多内容请查阅 雅各布专栏受邀联办睿问第二届最受女性欢迎雇主品牌颁奖典礼)。
我们特为雅习社朋友们争取到少量免费门票,如有需要可扫码入群,后续由小助理联系安排。


 (以下为正文)
         

 


摘要
自 2022 年 12 月推出 ChatGPT 以来,大型语言模型(LLM)迅速被企业采用,以协助用户完成各种开放式任务,包括那些需要创造力的任务。虽然大型语言模型的多功能性为人类与人工智能的合作开辟了新途径,但大型语言模型能否真正提高业务成果仍不确定。为了研究人类与 LLM 协作对业务成果的影响,我们进行了一项实验,让专家用户和非专家用户在 LLM 的协助下和不在 LLM 协助下撰写广告文案。在这里,我们研究并比较了与 LLM 合作的两种方式:(1)将 LLM 作为 "撰稿人",承担内容生成任务的主要角色;(2)将 LLM 作为 "传声筒",为人类创建的内容提供反馈。我们使用创建的广告在主要社交媒体平台上产生的点击量来衡量广告的质量,研究结果表明,不同的协作模式会为不同类型的用户带来截然不同的结果。使用LLM作为“传声筒”可以提高广告副本的质量,尤其是对非专业人员而言,然而使用LLM作为撰稿人并没有带来显著的好处,事实上反而不利于专家用户。我们依靠文本分析来了解其中的机制,发现使用LLM作为“撰稿人”会产生锚定效应,导致广告质量下降;另一方面,将LLM用作“传声筒”有助于非专家获得与专家制作的内容语义差异较小的广告内容,从而缩小了两类用户之间的差距。 
 
1 导言    
大语言模型(LLM)是生成式人工智能(AI)的一个子类别,代表了文本生成领域的重大进展。由于 LLM 应用程序能够通过预测文本序列中的后续措辞,对用户提示做出非常连贯的自然响应,因此具有指令跟随能力,可为人类用户提供前所未有的支持,帮助他们完成一系列开放式和非例行的创造性任务,而这些任务是其他人工智能同行无法胜任的。毫不奇怪,2023 年第一季度,对生成式人工智能初创企业的投资出现了可观的增长,融资总额达到 107 亿美元。为了利用 LLM 的力量,企业已开始将 LLM 整合到其核心业务中。例如,可口可乐公司与咨询公司贝恩公司(Bain & Company)建立了合作伙伴关系,整合 ChatGPT,协助开展涉及创意工作的营销业务。此外,Jasper 和 Copy.ai 等公司正在提供基于 LLM 的内容生成器,以协助完成创意任务(如广告文案撰写),它们认为使用这些人工智能工具有助于大大加快完成任务的速度。鉴于 LLM 的快速和广泛应用,管理者迫切需要更好地了解如何更好地利用 LLM 的力量来提高业务成果。

虽然过去的工作为人类与人工智能的协作提供了宝贵的见解,但却未能阐明如何在前几代人工智能未充分服务的工作领域最好地利用 LLM。过去关于人类与人工智能协作的研究主要集中在基于规则的系统或机器学习模型上,这些系统或模型是为特定的、标准化的和可编码的任务(如分类)而设计的。虽然这些研究很有见地,但以前研究的可编码任务与 LLM 能够协助完成的任务大相径庭。具体来说,LLM 可以帮助用户完成各种开放性任务(如回答问题、客户支持、总结)和创造性任务(如写诗、唱歌和营销信息)。为此,有必要系统研究人机协作是否以及如何提高工作绩效,特别是在创造性任务中。由于执行各种组织任务都需要创造力,许多商业从业者都有兴趣了解使用 LLM 如何提高此类工作的绩效。对这一问题的初步学术探讨为未来研究探索将LLM融入企业及其对未来劳动力的影响铺平了道路。

由于存在相互竞争的理论观点,关于人机协作对工作绩效的影响的答案充满了不确定性。一方面,LLM 生成的内容的质量可以说反映了广泛而多样的个人的综合创造力,因为他们接受了来自广泛领域的海量数据的训练, 因此可以说 LLM 的创造能力将超越单个个体(或小型团队)。然而,由于 LLM 的自回归性质,它们可能仅限于生成预期输出,因为它们接受的训练是遵循现有的数据分布。
因此,一个首要问题是,使用生成式人工智能是否会为创造性任务带来更好的业务成果,以及在什么情况下。有了这个主要的指导性问题,我们就需要了解利用 LLM 的最佳方式。鉴于基于 LLM 的应用向公众推出的时间还不到一年,从业人员和企业都缺乏如何最好地使用它们的指导原则。使用 LLM 的最基本方法之一是将它们用作 "代笔",让它们承担大部分工作。在这种情况下,用户可以在这些会话式人工智能的结构中生成一组初始内容,以启动创意过程。根据生成的初始内容,用户可以反复指导 LLM 重新生成内容,改进某些方面,直到产生令人满意的结果,这种方法可以成为LLM克服 "写作障碍"等挑战的有效途径。
然而由于众所周知的原因,算法和机器学习技术会在决策过程中对人类产生锚定效应,让LLM在创意过程中发挥主导作用可能不是最佳选择。在创造力是产出质量的重要组成部分的情况下,锚定效应会特别突出,因为它限制了最终产出的创造力。
另一种方法是利用 LLM 作为 "传声筒",促使 LLMs 对人类用户创建的内容提供反馈和评估。在这种情况下,人工智能并不在创作过程中扮演主要角色,而是对用户的创作进行评估和点评。过去的文献表明,来自外部代理的反馈可以提高绩效和创造力,然而LLM 生成的反馈的质量以及用户能在多大程度上有效地将这些反馈融入自己的工作中,这些都还不确定,特别是由于厌恶算法,用户可能无法充分利用人工智能的优势,以及评估人工智能建议正确性的困难。
最后,要在现实中确定协作模式的影响,还需要考虑与 LLM 协作的用户。具体来说, 有资料表明, 信息技术的使用会对熟练工人和非熟练工人产生不同的影响,因此了解各种协作模式是否会对不同技能水平的工人产生不同影响,将为使用本地化学习工具提供更准确、更全面的指导。
为了弥补我们认识上的这些不足,我们设计了一个随机实验,让参与者在三种条件中选择一种,即“撰稿人”模式组、“传声筒”模式组和对照组,为一种普通消费品制作广告文案。我们开发了一个基于 LLM(GPT-4)的定制界面,用于在实验中操作上述协作模式,“撰稿人”撰稿人组只允许使用支持 ChatGPT 的系统生成广告文案,而留言板组则从我们的 LLM 界面接收有关其广告文案的反馈,对照组不接受任何人工智能协助。为了对所创建广告的质 量进行客观真实的评估,这些广告被部署到实际的社交媒体广告活动中,每个广告所产生 的点击量都被记录下来并作为因变量。
我们的研究结果提供了一些耐人寻味的见解。我们发现,模式和用户专长共同决定了使用 LLM 的性能优势,特别是,与无法访问 LLM 界面的非专家相比,使用 LLM 作为“传声筒”有助于非专家创作出质量更高的广告,然而在专家身上却看不到这种改进。有趣的是,我们发现与对照组的专家相比,"撰稿人"模式导致专家的表现更差;而在非专家中却没有发现这种负面影响,我们采用了一系列后续文本分析来探索可能的内在机制。
我们发现,使用 LLM 作为“传声筒”会使非专家撰写的广告与专家撰写的广告更加相似。然而,"撰稿人"模式会产生锚定效应,即这种模式下的用户不太可能创作出偏离 LLM 最初生成结果的广告,最终产生的结果与 "声音板 "条件下的用户相比种类较少。
我们为人类与人工智能合作方面日益增多的文献做出了贡献,尤其是在创意领域使用 LLMs。在此,我们的研究为人类与人工智能的合作文献增添了新的内容,就人工智能如何影响以前未曾研究过的新领域的商业成果提供了新的见解。
我们还参考了有关采用技术的意外后果的文献,发现不恰当地使用LLM 不仅不能提高工作质量,反而会比不使用 LLM 产生更糟糕的结果,就像其他信息技术工具一样,只有正确理解和应用 LLMs 的优点,才能充分发挥其优势。
最后,通过揭示这些模式对专家和非专家的不同影响,我们也为关于采用人工智能对工人的异质性影响的文献流做出了贡献。我们的研究结果不仅为不同工人类型的最佳合作模式提供了实际意义,而且还揭示了在创意领域LLM对劳动力市场的颠覆性潜力。
         

 

2 背景介绍    
2.1 大型语言模型
生成式人工智能,尤其是大型语言模型(LLMs)受到了广泛关注,在经济和营销领域,这些人工智能工具在生成自然语言输出时可以模拟人类的思维过程。此外,最先进的 LLM 具备通用智能的属性,这体现在它们在各种任务(如编码、医学、法律、心理学等)中的出色表现,而无需特定任务的培训和指导。研究发现,在写作任务和客户支持环境中,使用此类 LLM 工具可提高工作效率和产出质量,这些研究提供了初步迹象,表明可在各种业务运营中应用 LLM 来提高工作效率。
目前对基于 LLM 的工具进行的研究发现,这些工具可有效地用于撰写新闻稿、简短报告、分析计划、电子邮件以及客户服务等任务。
在涉及技术问题的稳定产品的支持环境中。由于 LLM 的多功能性,基于 LLM 的工具也被开发出来辅助创造性任务,如创意生成。尽管开展了这些研究,但关于人类应如何优化利用 LLMs 的这些能力来提高其创造性产出的研究仍然缺乏。
2.2 创意任务
创造力被认为是人类智慧的标志之一,在一系列对企业运营至关重要的任务中都需要创造力,其中一项任务包括广告,这是一项以创造力为驱动力的活动,由于其市场规模巨大(2022 年约达 1,800 亿美元),企业对其兴趣浓厚 。由于 LLM 生成连贯、有意义文本的能力令人印象深刻,ChatGPT、Copy.ai 和 Jasper 等基于 LLM 的新服务在生成广告文案方面越来越受到营销人员的青睐。
过去的研究表明,创意广告(广告)会带来一系列重要的积极商业结果,包括增加广告回忆、品牌/产品喜爱度和购买意向。消费者经常会接触到各种形式和媒介的大量广告。因此,在争夺消费者有限的注意力资源时,广告不仅要在其内在质量上出类拔萃,还要从无数竞争信息中脱颖而出,因此制作有效的广告需要更高水平的创造力,以成功 "突破竞争的杂乱无章"。
2.3 人类与人工智能合作中的不利影响
虽然人工智能有可能提高创造性任务的绩效,但之前的研究发现,在预测和决策环境中,使用人工智能会对人类的成果产生负面影响。人类与人工智能合作中存在的机制之一是锚定效应,这些认知偏差的特点是,个体的态度、行为和信念倾向于受到特定参考点或锚点的影响。锚定偏差对人类绩效的不利影响发生在个人经常不恰当地调整自己的信念,从最初的锚定值转向主观上更可信的解决方案时,用户可能会被算法的输出所锚定,进而影响他们的行为,同样锚定效应也会影响创造过程。最终创意的新颖性和实用性往往取决于创意任务开始时产生的初始创意,因此当人类依赖人工智能获取初始创意时,锚定效应可能会对创意产出产生不利影响。
另一个值得注意的不利影响是算法厌恶,即用户即使看到算法优于人类预测的证据, 也不愿使用优于人类预测的算法预测。算法厌恶源于看到算法犯错后对算法的信心降低,或者认为算法缺乏完成某些任务所需的能力,尤其是那些需要主观判断的任务。然而,鉴于 LLMs 具有前所未有的能力,能够为各种主观任务生成高质量的类人输出结果,目前还不清楚在使用 LLMs 的情况下是否会观察到算法厌恶的影响。少量证据暗示了一种相反的趋势,即学生依赖 LLM 在考试和作业中作弊,而律师则在法庭上使用 ChatGPT 的输出结果。
3 实验装置
为了探究我们的研究问题,我们使用从 Prolific(一个广受认可的参与者招募平台)上重新招募的 355 名参与者进行了一项实验。为了使实验结果具有普遍性,我们从美国和英国招募参与者。我们使用标准资格标准对参与者进行预选,其中包括任务接受率至少保持在 95%,且至少拥有大学学位。我们的研究采用 3(两种人类-LLM 协作模式和对照组)×2(专家和非专家)的受试者间设计。分析表明,我们的样本量允许检测到 Cohen's d = 0.25 的中小型效应。   
在实验中,参与者被要求完成一项广告文案写作任务。具体来说,他们的任务是为iPhone 保护壳创作广告。选择该产品的理由是,它是一种常见的消费品,不需要特定的行业知识就能完成任务,因此网上征集的大多数研究参与者都是合适的人选。同时,该产品还具有许多独特的功能,为参与者发挥创造力提供了足够的灵活性。为了制作广告,参与者会获得详细的产品描述和图片(附录A.1中的图 A1a),以及广告在 Facebook feeds上的示例图片(附录A.1中的图 A1b)。
在对参与者的专业知识水平进行操作时,我们依赖于 Prolific 的筛选工具,该工具显示了参与者所从事的行业。在这里,来自市场营销和销售行业的参与者被认为是具有执行广告文案相关任务知识的专家,而来自其他行业6 的参与者则被认为是非专家。一系列的操作检查表明,我们对专业知识水平的操作是适当的(将在第 3.6 节中讨论 )。
3.1 条件
参与者被随机分配到三个条件下:(1) 利用人工智能作为撰稿人,撰写广告文本;(2) 利用人工智能作为“传声筒”,征求人工智能生成的反馈意见;(3) 没有人工智能技术,作为对照组。   
为了操作不同的使用模式,我们开发了两个独立的 LLM 界面,并通过精心设计的提示来设计 LLM 的行为,但不向参与者公开这些提示。在 "传声筒"条件下,LLM 会被提示向参与者征集广告文案草稿,并随后为他们的广告文案提供反馈。我们设计的这种LLM 拒绝任何直接要求它制作广告文案的用户请求,在 "撰稿人"状态下,LLM 会根据用户的指示编写广告文案,设计 LLM 时使用的具体提示见附录 A.2。我们测试了这两个界面的前在无人工智能控制条件下,参与者完全无法访问 LLM 界面,在无人工智能控制条件下,参与者完全无法访问 LLM 界面。
在“撰稿人”撰稿人和“传声筒”两种条件下,参与者都可以随意使用(或少用)LLM,参与者会被要求在对输出结果满意后提交广告文案,这些设计考虑因素反映了现实世界中用户可以使用人工智能技术的情况,并允许用户灵活掌握使用程度。为了进一步保持实验的完整性,我们禁止使用外部人工智能技术,复制和粘贴功能仅限于实验平台内部。我们还捕捉参与者与其指定界面之间交换的所有信息记录,为后续文本分析提供数据。
3.2 熟悉 LLM 界面
为了尽量减少使用LLM 的经验差异,参与者需要完成与主要任务十分相似的培训任务, 但在主要文案撰写任务之前无需提交广告文案。培训任务让所有参与者熟悉 LLM 界面,参与者需要向各自的 LLM 发送至少一条信息,训练任务中使用的 LLM 界面与参与者的指定条件相似。
为了考虑到训练过程中可能出现的外在影响(如受试者疲劳),对照组的受试者在训练过程中也与 LLM 界面进行了互动,为此对照组参与者被随机匹配到“撰稿人”或“传声筒”LLM 上。通过这种方式,我们可以确保所有条件下的参与者在主要写作任务之前接受相同的实验前刺激,从而有效减轻任何潜在的带入效应。
3.3 奖励措施
为鼓励参与者尽最大努力撰写高质量的广告文案,实施了一个由两部分组成的奖励结构。参与者可获得 5 美元的基本报酬,并根据广告业绩排名获得最高 3 美元的额外奖励(详见附录 A.3)。在整个任务过程中,我们都会突出显示这种激励结构,提醒参与者该行业的竞争性质。在我们的说明中,我们进一步强调,一般的广告文案不可能在其他参与者精心制作和富有创意的广告文案面前表现出色
3.4 测量
在研究开始时,我们收集了参与者的一系列人口信息(性别、年龄和最高学历)和经验, 以便控制这些因素与任务结果之间的潜在影响。我们采用李克特五点量表(five-point Likert scale)来测量参与者的回答,每项任务结束后,我们都会要求参与者使用一个从 0%(最差)到 100%(最佳)的滑块,估算自己的广告在所有参与者创作的广告中的百分位数排名,这种方法在文献中被用作评估个人自我评估绩效的一种措施。
3.5 广告程序
为了客观衡量广告效果,研究参与者制作的广告文案被作为广告发布在社交媒体平台上。由于广告文案(即广告信息)是不同广告之间唯一存在差异的部分,因此允许文本内容的广告格式尤为适合。我们选择 Facebook 和 Instagram 作为广告平台,因为它们的新闻推送广告格式为文本内容分配了相当大的空间。我们为每位参与者分配了一个专门的广告系列,共产生了 355 个广告系列,每个广告活动都包含一则广告,广告文案由参与者精心制作,并配有相应产品的同一组图片。   
由于重定向算法的存在,同一观众可能会看到不同实验参与者制作的多个广告,从而混淆了每个广告的贡献。为了消除这种可能性,我们将每个广告随机分配到一个唯一的美国县,这样每个观众都能从实验中看到一个广告。附录 A.4 中详细介绍了县域的选择过程和随机化检查。
所有三种条件下的广告都在六天内发布,包括工作日和周末,以考虑特定日期的影响,每种研究条件下的广告数量相同。         

 

在实验的每一天都投放广告,以考虑潜在的周日差异效应。每个广告都分配了相同的广告预算,因此它们获得了相同的 曝光量。
3.6 随机化和操纵检查
表 1提供了实验数据的汇总统计。对年龄、性别和教育水平进行的单因素方差分析检验表明,各处理组在这些人口特征方面没有显著差异(P > 0.1),这表明随机化是成功的。 

我们的主要操作在于人类与 LLM 的合作方式。通过聊天记录和调查回复,我们发现我们的操纵是成功的,参与者以预期的方式与 LLM 进行了互动,我们的第二个操纵与参与者的专业知识水平有关。我们利用就业部门作为操纵用户专业知识的手段,发现市场营销和销售部门的参与者(无法使用任何 LLM 工具)制作的广告比 其他部门背景的参与者产生的广告点击量要多得多。附录 A.5 详细介绍了我们的操纵检查程序。

4 成果   
4.1 对广告点击率的影响
图 1 中的无模型证据显示了不同条件和用户专长下的平均广告点击次数。控制年龄、性别和教育程度的线性回归得出了一致的结果(附录 A.6)。图 2 显示了不同协作模式和用户专业水平(表 A3 中的模型 2)下的预测广告点击量。

图 1:按条件和用户专业知识分列的平均广告点击率(95% CI)

图 2:按条件和用户专业知识预测的广告点击率(95% CI)

表 2:人工智能使用对估计排名的异质性影响

注:括号内为稳健标准误差,所有模型均控制了年龄、性别和教育程度(下同)。

我们观察到了一种双向交互效应:(1) 非专家从使用人工智能中获益,但仅限于在 "传声筒"条件下;(2) 专家不会从使用人工智能中获益,无论采用哪种模式,但在 "撰稿人"模式下成绩会下降。
4.2 对绩效自评的影响
表 2中的回归分析了人工智能的使用对其广告表现估计等级的影响。结果显示,两种模式下的用户都认为自己的广告表现明显高于对照组(分别为 11.9% 和 14.6%),这表明使用LLM 会产生更乐观的自我评价。然而我们注意到,这种更高的自信心并不总能转化为更好的广告表现,正如我们之前的主要结果所显示的那样。
4.3 机制
我们迄今为止的分析发现,人类与 LLM 的合作模式对广告质量有显著的不同影响。接下来,我们将进行一系列文本分析,研究导致这些结果的机制。         

 

4.3.1 锚定效应的证据
通过 "撰稿人"模式生成的广告文案表现较差的一个重要潜在解释是,存在潜在的锚定效应, 这种效应会降低人们深入思考和打破常规以改进广告信息的能力。为了检验这种情况是否属实,我们转而对文本语义距离进行群体层面的分析,以评估发散性思维和原创性。如果存在锚定效应,那么与其他研究小组相比,“撰稿人”小组的广告副本将表现出较低的语义分歧水平。我们将在附录 A.7 中详细介绍我们的研究方法。
图 3 显示了三种研究条件下广告文案的语义差异。在这里,对照组的广告语义分歧最大,表明没有任何 LLM 输入的用户倾向于制作组内差异最大的广告文案。与此相反,在所有三个组中,ghostwriter 组的语义分歧最小。这组结果表明,锚定效应在“撰稿人”组的参与者中非常突出,因为他们制作的广告文案在语义上最为相似。

图 3:LLM 对语义发散的影响

我们注意到,“传声筒”组的语义分歧低于对照组,但明显高于“撰稿人”组(图 3)。广告创    
意的成功运用不仅需要原创性,还需要相关性和适当性,因为不相关或不适当的广告会适得其反。考虑到 "声音板 "组中的非专家正在创作更好的广告,这组参与者的语义分歧较小可能只是因为非专家对反馈进行了反思,从而创作出了相关和适当的广告。事实上,非专家可能会利用这些反馈来创作与专家创作的广告更为相似的广告。这就促使我们进行后续测试。
我们进一步对文本嵌入进行了主体内比较,以了解两个 LLM 处理组的参与者对广告稿的修改程度。我们发现,“撰稿人”组的参与者对其草稿的修改程度要低于“传声筒”组,这体现在平均余弦距离明显较低(图 4,p < 0.01)。这一发现为“撰稿人”组存在锚定效应提供了另一个证据。

图 4:初稿与最终稿之间的余弦距离


(待续...)



雅各布专栏
专注行业头部品牌商业模式研究; 链接5万CxO,从职场新增长到准创业孵化及投后服务。 创始人在品牌,互联网汽车,供应链,半导体,连续创业者; 任上海纺织学会理事;上海商学院、浙江理工大学、上海国际时尚教育中心、东华大学客座讲师。
 最新文章