供应链 | 顶刊MnSc论文:大语言模型如何激发广告创意——探究协作方式与用户经验的双重影响

科技   教育   2024-10-31 19:56   德国  
↑↑↑↑↑点击上方蓝色字关注我们!

图片来源:

https://www.pexels.com/zh-cn/photo/830891/



编者按


大语言模型如何激发创意潜力?——揭秘不同协作模式下的广告创作奥秘



本文为Management  Science期刊论文,原文信息:

  • Chen, Z., & Chan, J. (2024). Large language model in creative work: The role of collaboration modality and user expertise. Management Science.


原文摘要总结如下:

自2022年12月ChatGPT发布以来,大语言模型(LLMs)被迅速应用于帮助用户完成各类开放性任务,包括创意工作。尽管LLM的多功能性为人机协作开辟了新的途径,但如何最佳利用LLM提升商业成果仍存在不确定性。本文展开了一项实验,专门分析了人机协作的两种模式对广告创作的影响:

  • 模式一:“代笔者”——让LLM承担内容生成的主力工作,为创意注入AI智慧;

  • 模式二:“反馈板”——将LLM作为反馈工具,对人类编写的广告文案进行改进建议。


我们通过社交媒体广告的点击量来衡量不同模式下广告的吸引力。结果发现,协作模式和用户经验的组合会带来显著的不同效果:

  1. “反馈”模式提升非专家表现:非专业的广告创作者在LLM反馈的帮助下,创作出的广告点击量显著提高,与专家创作的广告水平更加接近。

  2. “代笔”模式对专家效果欠佳:当LLM全权“代笔”,非但未提升广告质量,反而在专家组中出现了广告效果下降的情况。


文本分析显示,将LLM作为“代笔者”会引发“锚定效应”,导致创作者过度依赖AI生成的初稿,限制了创意的发挥,导致内容趋于同质化。而“反馈板”模式则帮助非专家逐步优化内容,使他们的创作更接近专家水准。

关键词:大语言模型;协作模式;随机实验;广告

你认为AI在创意行业中能否真正替代人类的灵感?欢迎留言讨论!



1. 问题背景

大语言模型(LLM)作为生成式AI的代表,通过预测文本生成流畅自然的回应,在广告文案、创意任务等非例行工作中展示出惊人潜力。2023年初,生成式AI领域的投资总额达107亿美元,企业纷纷将LLM融入营销、广告等业务中。例如,可口可乐与贝恩公司合作,引入ChatGPT来协助完成涉及创意工作的市场营销。此外,Jasper和Copy.ai等公司也提供基于LLM的内容生成工具,帮助处理广告文案等创意任务,并相信这些AI工具可显著加快任务完成速度。然而,这种AI力量究竟如何最佳地与人类协作?管理者们迫切想要了解不同协作模式的效果,以便让AI真正成为创意工作中的“助燃剂”

两种AI协作模式:代笔与反馈

为了找到答案,我们设计了一个实验,让参与者在三种不同的协作模式下为某消费产品撰写广告文案:

  1. 代笔模式:LLM负责生成初稿,用户进一步优化;

  2. 反馈模式:用户独立撰写内容,由LLM提供反馈;

  3. 对照组:用户无AI辅助,完全独立完成创作。

我们使用广告点击量来定义广告质量,这是一种常用的广告效果衡量标准。为了获得对广告实际效果的客观评估,这些广告被投放在真实的社交媒体广告活动中,捕捉每个广告的点击量作为因变量。

研究启示:如何有效利用AI提升创意质量??


结果表明,LLM在提升内容执行力上有明显优势,但在创意性提升方面效果有限。对于非专家而言,反馈模式可作为提升内容质量的“加速器”;对于专家而言,减少对代笔模式的依赖,保持创意的独特性才是关键。这项研究为企业如何在创意工作中有效整合AI提供了实用指南,也揭示了AI对创意领域劳动力市场的潜在颠覆性影响

  1. “反馈”模式更适合非专家:当LLM作为“反馈板”使用时,可以帮助非专家创作出质量接近专家水准的内容。这种模式下,AI对用户已有的创意提供建议,让非专家逐步优化文案,更有效地提升质量。

  2. “代笔”模式可能限制创意:让LLM作为“代笔者”负责初稿会产生“锚定效应”,即用户容易依赖AI生成的内容,导致作品缺乏新意,尤其对需要创意发挥的工作不利。专家在这种模式下表现反而不如独立创作,而非专家受影响较小。

  3. 执行力提升,创意性有限:AI作为“反馈板”能帮助执行创意想法,但在创意性的提升上效果一般。在广告质量上能帮非专家接近专家水准,但创意的多样性仍有欠缺

  4. 建议:根据用户经验灵活用AI

    1. 非专家:适合用“反馈板”模式,让AI对初稿提出反馈,帮助优化内容质量,逐步缩小与专家的差距。

    2. 专家:避免让AI主导初稿,以独立创作为主,更利于保留创意的独特性和多样性。

1.1 大语言模型(Large Language Models)

近年来,大语言模型(LLM)作为生成式AI的核心技术,在文本生成领域引发广泛关注。通过对上下文的预测,LLM不仅能够生成语法和语义连贯的内容,还在经济学和市场营销等领域展现出一定的“类人思维”能力。其多样化的应用——从新闻稿、简短报告到客户支持,甚至咨询任务——揭示了LLM在多场景下的潜力,但不同协作方式对其效果影响显著。


当前关于人机协作的研究大致分为两类:一类专注于LLM对各类任务的增强效果,表明LLM在结构化任务中的辅助能力,但在复杂咨询任务中的作用有限;另一类则探讨不同的协作方式,如子任务层面的人机整合或直接将子任务交由AI处理,这些方式带来的效果各异。


我们的研究从另一个角度出发:不同协作方式如何影响最终成果?通过分析不同模式的绩效差异,我们希望明确不同协作路径对LLM应用的下游效果,从而为管理者提供更具针对性的协作模式选择依据,使LLM在创意任务中的潜力得以更大化发挥。

1.2 创意任务(Creative Tasks)

创造力被认为是人类智能的标志之一,也是企业运营中一系列关键任务所需的能力。

创意工作通常包含两个主要要素。

  1. 构思:这是创意的源泉,涉及创新的想法和独特的视角。无论是小说情节还是广告点子,只有新颖的概念才能打动人心。

  2. 执行:好创意还需要强大的执行力,将想法从脑海带到现实。例如,精彩的小说情节还需精妙的文字表达,而一则成功的广告则需言简意赅、词达意至。

在商业领域,广告是创意任务的“硬核玩家”。2022年,全球广告市场规模高达1800亿美元。优质广告能提升品牌记忆度、增加产品喜爱度,并激发购买意图。然而,面对信息过载的消费者,广告必须要从“竞争信息洪流”中脱颖而出,需要极强的创意性和出色的表达力。


这也解释了为什么大语言模型(LLM)迅速成为营销人员的新宠。以ChatGPT、Copy.ai和Jasper为代表的LLM,通过生成流畅且富有意义的文本,正在为广告创意提供有力支持——不仅让创意更灵活,更帮助企业在创意与执行之间找到最佳平衡点。

1.3 锚定效应(Anchoring Effect)

AI确实能为创意任务增色不少,但却带来了一个隐藏的“陷阱”——锚定效应

锚定效应:指人类的思想、行为和决策容易被一个初始“锚点”影响。在AI协作中,这个“锚点”往往是AI的初始输出。人类一旦被“锚定”,就容易围绕AI生成的内容打转,难以跳脱出来,去寻找更加创新的解决方案。

具体而言,LLM模型会根据输入预测最可能的词语,这虽然让AI生成的内容流畅连贯,但也容易让创作变得同质化。在广告创意中,出色的内容往往脱颖而出,打破常规。如果AI在创意流程中过于占据主导位置,用户便可能被“锚定”在AI的思路上,最终导致创意“出炉”时缺乏独特性和吸引力。



2.  实验设计

为了更好地理解AI在创意任务中的协作效果,我们在Prolific平台上招募了355名来自美国和英国的参与者,构建了一个创意广告实验。在实验中,参与者需要完成广告文案创作任务,具体来说是为iPhone保护壳设计广告。这种消费品不需要复杂的行业知识,但功能足够丰富,能激发参与者的创意潜力。


  • 实验设计我们采用了三种不同的实验组设计:两种“人机协作”模式和一个对照组,分别由专家与非专家参与完成。我们的设计目标是在不同协作模式下测试创意输出,确保结果适用于不同背景的参与者。

  • 专家vs.非专家:他们的创意有何不同?为了区分营销“老手”和“新手”,我们筛选了一部分在市场营销领域有经验的参与者,同时设计了一套问卷,进一步根据他们的营销经验进行分类。被认为是“专家”的参与者要么当前在从事营销工作,要么拥有至少一年的广告文案创作经验。

  • 成果衡量:广告的吸引力究竟如何?为了测量广告的效果,我们采用了一系列学术认可的评分指标,包括广告的信息性正面情感激发(即产品兴趣)和购买意图。实验数据展示了一个有趣的现象:在控制组中,专家的广告评分平均值比非专家高出25%,这一差异为我们提供了探索AI如何协助不同经验层级参与者的宝贵洞见。


通过这些设计,我们希望揭示不同人机协作模式如何影响创意输出——是“人机双打”更具优势,还是人类独立创作更胜一筹?

2.1 实验条件设计:三种协作模式的探索

在本实验中,参与者被随机分配到三种条件下:


  1. AI代笔模式:AI承担广告文案的写作任务。参与者可以提供指令,AI根据要求生成文案,参与者在满意后提交。当然,AI并不“独占创意舞台”,参与者可以在提交前手动调整文案。

  2. AI反馈模式:AI变身“创意顾问”。参与者首先提交自己的广告草稿,随后AI给出反馈意见,帮助优化文案。在这种模式下,AI被设计为拒绝直接生成广告文案,促使用户充分发挥创意。

  3. AI对照组:参与者独立完成广告文案创作,完全不使用AI,确保在分析中获得更真实的基准数据。


我们选择了GPT-4作为AI“助手”,并将其参数设为默认温度1.0,模拟大众用户的常用设置。每个AI界面经过严格调试,确保用户请求不会触发“越界”内容。同时,所有用户与AI的互动记录均被保留,为后续文本分析提供数据支持。


在这种设计下,参与者可以自由决定与AI协作的深度,模拟了真实场景下人机协作的灵活性。无论是代笔模式的内容生成还是反馈模式的创意优化,用户都能体验到AI在创意任务中的不同角色。

2.2 预热环节:让每位参与者都熟悉AI界面

为了让所有参与者在正式任务中都能熟练使用LLM,我们设置了一个简短的训练任务。每位参与者至少需与AI互动一次,熟悉各自的“AI助手”。即使是对照组参与者也在训练阶段与AI互动,并随机分配到“代笔者”或“反馈板”模式,以确保所有人都在同样的起点上进行主任务,消除因训练环节带来的潜在影响。

2.3 激励机制:让创意广告成为赢家

为了激发参与者的创作热情,我们设置了两层奖励机制:每人获得5美元基础报酬,同时根据广告点击量表现,排名靠前的参与者还可赢得最高3美元的额外奖励。这种激励设计不仅鼓励参与者全力以赴,还通过反复提示让他们感受到广告创作的“竞争性”,强调仅有独特创意才能在这场广告对决中脱颖而出。

2.4 测量维度:自我评估与背景控制

在实验初期,我们收集了参与者的性别、年龄、学历和营销相关经验,确保这些因素不会干扰广告表现的分析。任务完成后,参与者需用滑块评估自己的广告在所有参赛作品中的相对位置(从0%到100%),这种方法常用于自我表现评估。我们还设置了退出调查,以进一步了解参与者的体验和反馈,为后续分析提供更全面的数据支持。

2.5 广告投放流程:精准测试创意效果

为客观评估广告文案效果,我们将参与者创作的广告分别在Facebook和Instagram上投放,每位参与者拥有一个专属广告活动,广告文案统一配有相同产品图片。为确保测试严谨,我们将每则广告随机分配到不同的美国县区,避免同一观众接触多个实验广告。广告投放持续六天,覆盖工作日和周末,每天按相同数量和预算投放三种实验条件下的广告,确保所有文案获得一致的曝光机会。

2.6 随机化与操控检查:确保实验设计

为了确保实验的公平性,首先对年龄、性别和学历水平进行单因素方差分析表明,各处理组在这些人口特征上没有显著差异(p > 0.1),表明随机化成功。然后手动审查了所有聊天记录,确认参与者确实按预期方式与LLM互动,这也验证了我们的协作模式操控设计有效,确保实验数据的准确性与可靠性。


3. 研究结果

3.1 广告点击效果:AI加持还是创意减分?

广告的点击量是衡量广告质量的核心指标——用户点击次数越多,意味着广告越具吸引力。我们用广告点击量来判断文案质量,以验证不同协作模式对广告效果的影响。

数据揭示了有趣的双重交互效应:

  • 非专家在“反馈板”模式下从AI中获益显著,广告点击量明显提升,而在其他条件下没有这样的效果;

  • 专家则无论使用哪种AI模式均未显著受益,甚至在“代笔者”模式下表现有所下滑。

这些结果经过控制变量(年龄、性别、学历)的线性回归和泊松回归验证,均一致表明AI协作在创意表现中的复杂作用。

3.2 自我评估:AI让用户更自信,但效果未必更好

分析表明,使用AI的参与者对自己的广告表现更加乐观——“反馈板”组和“代笔者”组的用户分别比对照组高出10.6%和9.3%的自我评估分数。然而,这种自信并未总能转化为更好的实际广告效果。这表明,AI似乎能提升用户对创意成果的信心,但信心提升与实际广告点击效果之间仍有一定差距。

3.3 探索机制:AI代笔如何限制创意,反馈板如何助力突破

我们发现了人机协作模式对广告质量的显著影响,接下来进一步分析其背后的机制。


3.3.1 协作模式对语义差异性的影响

我们发现,AI代笔模式下的广告表现不佳,可能源于“锚定效应”的存在。AI生成的初稿成了用户的“锚点”,使他们在创作过程中更难跳脱出AI的思路,结果最终广告文案和AI初稿语义上高度相似。这种模式让广告变得同质化,难以在观众眼前“脱颖而出”。通过对广告的语义差异性分析,我们量化了不同实验组的创意多样性。

结果显示:对照组(无AI辅助)的广告差异性最大,内容最具多样性。代笔者组的语义差异性最低,说明参与者在代笔模式下生成的广告相互之间过于相似,限制了创意的发挥。反馈板组则展现了适度的平衡。虽然语义差异性低于对照组,但高于代笔者组,表明AI反馈的加入帮助非专家创作出更相关且更具创意的广告——既保持了新颖性,又具备了针对性。


3.3.2 协作模式对草稿修改程度的影响

在广告创作过程中,锚定效应不仅影响用户的思维,还体现在修改的积极性上。我们对比了代笔者组反馈板组的修改程度,

结果显示:反馈板组的参与者更乐于“打磨”他们的文案,语义差异更大,相比之下,代笔者组的修改则较少。

那么,是不是因为代笔模式生成了更完整的初稿,导致用户不需要大幅修改呢?为了验证这一点,我们请新参与者对初稿的质量进行了评分。回归分析表明,即使初稿质量较高,协作模式对修改程度的影响依然显著:代笔者组的修改量明显低于反馈板组。这进一步支持了锚定效应的存在——在代笔模式下,用户似乎更容易停留在AI生成的初稿上,减少了深入调整的意愿。


3.3.3 专家与非专家的广告文案差异

LLM在经过海量网络数据训练后,掌握了营销与广告写作的专业技巧。对于缺乏行业经验的非专家来说,LLM的协作模式或许能让他们“借力”专业知识,写出更具水准的广告文案。在此分析中,我们将对照组的专家文案作为“专业基准”,计算各实验组非专家与这些专家文案的语义差异。理论上,LLM的辅助能拉近非专家与专家之间的差距。

结果显示:反馈模式让非专家的文案与“专家级”文案更为接近,比对照组非专家和代笔者组非专家的文案更具专业气质。这表明,当LLM作为反馈板时,非专家能在AI反馈的引导下创作出更接近专家水准的广告,实现“专业质感”的飞跃。

3.4 文案特征分析:什么样的广告更受欢迎?

为进一步理解协作模式对广告效果的影响,我们分析了广告文案的多种文本特征,包括:(1)情感(分为正负极性和主观性),(2)可读性(用Gunning Fog指数衡量,数值越高表示可读性越低),(3)广告长度(词数/字符数),(4)表情符号的使用程度,以及(5)标签的使用频率。


通过回归分析,我们探索这些特征与广告点击效果之间的关系,并得出以下结论:

  • 客观广告更受欢迎:含有更多个人情绪或主观表达的广告点击率较低,这表明消费者更青睐信息直接、客观的广告。主观广告可能被视为不够可信或信息不足。

  • 长度适中效果最佳:较长的广告点击率更高,但过长(70个词以上)后效果反而下降。这意味着,广告应适当延展但避免冗长,信息过载可能导致消费者忽视。

  • 少用表情符号:可读性较低或表情符号过多的广告效果不佳。表情符号可能让广告显得过于随意,甚至不够专业,降低消费者的点击意愿。

  • 代笔模式的初稿包含更多表情符号(平均9个),且更长、标签更多——这些可能都源自LLM对网络数据(包括表情符号丰富的在线广告)的大量训练。表情符号现在可能让广告显得不够可信,类似“横幅盲区”效应。消费者或许逐渐将表情符号与低质量内容联系在一起,从而降低了广告的吸引力。


为了更好地理解广告创作过程中草稿的演变,我们比较了广告文案不同版本的特征。

反馈板 vs 代笔者:

  • 反馈板组的用户在初稿和最终稿之间平均增加了26.2个词,增加了广告内容的丰富度和潜在吸引力。对他们来说,LLM的反馈让广告文案更完善,从初稿的平均61.43词一路加长,为广告效果加分。

  • 代笔者组则反其道而行,用户在最后一稿中平均减少了30.27个词,修剪掉了初稿中的冗长内容,还减少了2.46个表情符号。然而,即使进行了删减,代笔者组用户并未完全抛弃表情符号,这表明锚定效应让他们依赖于AI初稿中的原始风格,难以彻底脱离初始元素的影响。

专家 vs 非专家:不同协作模式下的创作习惯

  • 专家在代笔者组中表现出更强的修改欲望,进一步缩短了广告长度,并降低了复杂语言的使用,提升了广告的简洁度和可读性。

  • 非专家则更倾向于保留AI的初始风格。这些差异表明,协作模式不仅影响广告的内容长度和风格,还受用户自身经验的显著影响。

3.5 广告文案的创造性评价:LLM模式对创意有何影响?

我们探索了不同AI协作模式对广告创意评分的影响,结果揭示了一些意想不到的现象。在邀请新的评分者为广告创意打分后,我们发现了两大亮点:


  • “反馈板组”的广告创意评分并未超过对照组。尽管AI顾问未直接激发更多创意,但它确实帮助非专家写出了更具专业水平的广告——创意未必多了,但执行力提升了。

  • AI代笔组”的广告创意评分反而垫底,甚至低于完全不依赖AI的对照组。这进一步支持了我们的锚定效应假设:在代笔模式中,LLM生成的初稿似乎框定了用户的思维,使广告风格趋于同质化,创意显著削弱。


这组发现表明,AI在广告创作中确实有它的“创意边界”。AI的顾问角色能够提升广告执行力,而代笔者角色可能会抑制创意的发挥。


4. 总结

本研究通过在线随机实验,探讨了用户与大语言模型(LLM)在不同协作模式下的创意任务表现,揭示了协作模式和用户类型在AI应用中的关键作用。以下是主要结论:


  • 协作模式决定创意提升:反馈模式有效提升了非专家的广告质量,使其更接近专家水准;而代笔模式对专家反而有负面影响,降低了广告表现。

  • 上限效应对专家的影响:LLM作为通用模型,由于训练数据并非完全聚焦于高质量广告内容,因此对已有高水平表现的专家未能产生额外帮助,而非专家则受益于顾问模式的反馈。

  • 创意与执行的双重作用:LLM对广告创意本身未产生直接提升,但确实改进了创意执行层面。代笔模式易引发锚定效应,限制广告内容的多样性和创新性。


企业在选择AI协作模式时应与员工的经验水平匹配。反馈模式适合非专家或新手,使他们迅速达到专家水平;而代笔模式需慎用,尤其是对有经验的员工,因为它可能让创意受到AI的“牵制”。建议企业提供AI使用指南,帮助员工理解潜在的锚定效应,确保AI在创意过程中的合理应用。



微信公众号后台回复

加群:加入全球华人OR|AI|DS社区硕博微信学术群

资料:免费获得大量运筹学相关学习资料

人才库:加入运筹精英人才库,获得独家职位推荐

电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing...

加入我们:加入「运筹OR帷幄」,参与内容创作平台运营

知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流



                    


        




文章须知

推文作者:Kiki

责任编辑:肖善,张琪

微信编辑:疑疑

文章由『运筹OR帷幄』原创发布

如需转载请在公众号后台获取转载须知




关注我们 

       FOLLOW US







































运筹OR帷幄
致力于成为全球最大的运筹学中文线上社区
 最新文章