供应链 | 顶刊MnSc论文：大语言模型如何激发广告创意——探究协作方式与用户经验的双重影响

科技教育 2024-10-31 19:56 德国

↑↑↑↑↑点击上方蓝色字关注我们！

图片来源：
https://www.pexels.com/zh-cn/photo/830891/

编者按

大语言模型如何激发创意潜力？——揭秘不同协作模式下的广告创作奥秘

本文为Management Science期刊论文，原文信息：

Chen, Z., & Chan, J. (2024). Large language model in creative work: The role of collaboration modality and user expertise. Management Science.

原文摘要总结如下：

自2022年12月ChatGPT发布以来，大语言模型（LLMs）被迅速应用于帮助用户完成各类开放性任务，包括创意工作。尽管LLM的多功能性为人机协作开辟了新的途径，但如何最佳利用LLM提升商业成果仍存在不确定性。本文展开了一项实验，专门分析了人机协作的两种模式对广告创作的影响：

模式一：“代笔者”——让LLM承担内容生成的主力工作，为创意注入AI智慧；
模式二：“反馈板”——将LLM作为反馈工具，对人类编写的广告文案进行改进建议。

我们通过社交媒体广告的点击量来衡量不同模式下广告的吸引力。结果发现，协作模式和用户经验的组合会带来显著的不同效果：

“反馈”模式提升非专家表现：非专业的广告创作者在LLM反馈的帮助下，创作出的广告点击量显著提高，与专家创作的广告水平更加接近。
“代笔”模式对专家效果欠佳：当LLM全权“代笔”，非但未提升广告质量，反而在专家组中出现了广告效果下降的情况。

文本分析显示，将LLM作为“代笔者”会引发“锚定效应”，导致创作者过度依赖AI生成的初稿，限制了创意的发挥，导致内容趋于同质化。而“反馈板”模式则帮助非专家逐步优化内容，使他们的创作更接近专家水准。

关键词：大语言模型；协作模式；随机实验；广告

你认为AI在创意行业中能否真正替代人类的灵感？欢迎留言讨论！

1. 问题背景

大语言模型（LLM）作为生成式AI的代表，通过预测文本生成流畅自然的回应，在广告文案、创意任务等非例行工作中展示出惊人潜力。2023年初，生成式AI领域的投资总额达107亿美元，企业纷纷将LLM融入营销、广告等业务中。例如，可口可乐与贝恩公司合作，引入ChatGPT来协助完成涉及创意工作的市场营销。此外，Jasper和Copy.ai等公司也提供基于LLM的内容生成工具，帮助处理广告文案等创意任务，并相信这些AI工具可显著加快任务完成速度。然而，这种AI力量究竟如何最佳地与人类协作？管理者们迫切想要了解不同协作模式的效果，以便让AI真正成为创意工作中的“助燃剂”。

两种AI协作模式：代笔与反馈
为了找到答案，我们设计了一个实验，让参与者在三种不同的协作模式下为某消费产品撰写广告文案：
代笔模式：LLM负责生成初稿，用户进一步优化；
反馈模式：用户独立撰写内容，由LLM提供反馈；
对照组：用户无AI辅助，完全独立完成创作。

我们使用广告点击量来定义广告质量，这是一种常用的广告效果衡量标准。为了获得对广告实际效果的客观评估，这些广告被投放在真实的社交媒体广告活动中，捕捉每个广告的点击量作为因变量。

研究启示：如何有效利用AI提升创意质量？？

结果表明，LLM在提升内容执行力上有明显优势，但在创意性提升方面效果有限。对于非专家而言，反馈模式可作为提升内容质量的“加速器”；对于专家而言，减少对代笔模式的依赖，保持创意的独特性才是关键。这项研究为企业如何在创意工作中有效整合AI提供了实用指南，也揭示了AI对创意领域劳动力市场的潜在颠覆性影响

“反馈”模式更适合非专家：当LLM作为“反馈板”使用时，可以帮助非专家创作出质量接近专家水准的内容。这种模式下，AI对用户已有的创意提供建议，让非专家逐步优化文案，更有效地提升质量。
“代笔”模式可能限制创意：让LLM作为“代笔者”负责初稿会产生“锚定效应”，即用户容易依赖AI生成的内容，导致作品缺乏新意，尤其对需要创意发挥的工作不利。专家在这种模式下表现反而不如独立创作，而非专家受影响较小。
执行力提升，创意性有限：AI作为“反馈板”能帮助执行创意想法，但在创意性的提升上效果一般。在广告质量上能帮非专家接近专家水准，但创意的多样性仍有欠缺。
建议：根据用户经验灵活用AI：

非专家：适合用“反馈板”模式，让AI对初稿提出反馈，帮助优化内容质量，逐步缩小与专家的差距。
专家：避免让AI主导初稿，以独立创作为主，更利于保留创意的独特性和多样性。

1.1 大语言模型（Large Language Models）

近年来，大语言模型（LLM）作为生成式AI的核心技术，在文本生成领域引发广泛关注。通过对上下文的预测，LLM不仅能够生成语法和语义连贯的内容，还在经济学和市场营销等领域展现出一定的“类人思维”能力。其多样化的应用——从新闻稿、简短报告到客户支持，甚至咨询任务——揭示了LLM在多场景下的潜力，但不同协作方式对其效果影响显著。

当前关于人机协作的研究大致分为两类：一类专注于LLM对各类任务的增强效果，表明LLM在结构化任务中的辅助能力，但在复杂咨询任务中的作用有限；另一类则探讨不同的协作方式，如子任务层面的人机整合或直接将子任务交由AI处理，这些方式带来的效果各异。

我们的研究从另一个角度出发：不同协作方式如何影响最终成果？通过分析不同模式的绩效差异，我们希望明确不同协作路径对LLM应用的下游效果，从而为管理者提供更具针对性的协作模式选择依据，使LLM在创意任务中的潜力得以更大化发挥。

1.2 创意任务（Creative Tasks）

创造力被认为是人类智能的标志之一，也是企业运营中一系列关键任务所需的能力。

创意工作通常包含两个主要要素。
构思：这是创意的源泉，涉及创新的想法和独特的视角。无论是小说情节还是广告点子，只有新颖的概念才能打动人心。
执行：好创意还需要强大的执行力，将想法从脑海带到现实。例如，精彩的小说情节还需精妙的文字表达，而一则成功的广告则需言简意赅、词达意至。

在商业领域，广告是创意任务的“硬核玩家”。2022年，全球广告市场规模高达1800亿美元。优质广告能提升品牌记忆度、增加产品喜爱度，并激发购买意图。然而，面对信息过载的消费者，广告必须要从“竞争信息洪流”中脱颖而出，需要极强的创意性和出色的表达力。

这也解释了为什么大语言模型（LLM）迅速成为营销人员的新宠。以ChatGPT、Copy.ai和Jasper为代表的LLM，通过生成流畅且富有意义的文本，正在为广告创意提供有力支持——不仅让创意更灵活，更帮助企业在创意与执行之间找到最佳平衡点。

1.3 锚定效应（Anchoring Effect）

AI确实能为创意任务增色不少，但却带来了一个隐藏的“陷阱”——锚定效应。

锚定效应：指人类的思想、行为和决策容易被一个初始“锚点”影响。在AI协作中，这个“锚点”往往是AI的初始输出。人类一旦被“锚定”，就容易围绕AI生成的内容打转，难以跳脱出来，去寻找更加创新的解决方案。

具体而言，LLM模型会根据输入预测最可能的词语，这虽然让AI生成的内容流畅连贯，但也容易让创作变得同质化。在广告创意中，出色的内容往往脱颖而出，打破常规。如果AI在创意流程中过于占据主导位置，用户便可能被“锚定”在AI的思路上，最终导致创意“出炉”时缺乏独特性和吸引力。

2. 实验设计

为了更好地理解AI在创意任务中的协作效果，我们在Prolific平台上招募了355名来自美国和英国的参与者，构建了一个创意广告实验。在实验中，参与者需要完成广告文案创作任务，具体来说是为iPhone保护壳设计广告。这种消费品不需要复杂的行业知识，但功能足够丰富，能激发参与者的创意潜力。

实验设计我们采用了三种不同的实验组设计：两种“人机协作”模式和一个对照组，分别由专家与非专家参与完成。我们的设计目标是在不同协作模式下测试创意输出，确保结果适用于不同背景的参与者。
专家vs.非专家：他们的创意有何不同？为了区分营销“老手”和“新手”，我们筛选了一部分在市场营销领域有经验的参与者，同时设计了一套问卷，进一步根据他们的营销经验进行分类。被认为是“专家”的参与者要么当前在从事营销工作，要么拥有至少一年的广告文案创作经验。
成果衡量：广告的吸引力究竟如何？为了测量广告的效果，我们采用了一系列学术认可的评分指标，包括广告的信息性、正面情感激发（即产品兴趣）和购买意图。实验数据展示了一个有趣的现象：在控制组中，专家的广告评分平均值比非专家高出25%，这一差异为我们提供了探索AI如何协助不同经验层级参与者的宝贵洞见。

通过这些设计，我们希望揭示不同人机协作模式如何影响创意输出——是“人机双打”更具优势，还是人类独立创作更胜一筹？

2.1 实验条件设计：三种协作模式的探索

在本实验中，参与者被随机分配到三种条件下：

AI代笔模式：AI承担广告文案的写作任务。参与者可以提供指令，AI根据要求生成文案，参与者在满意后提交。当然，AI并不“独占创意舞台”，参与者可以在提交前手动调整文案。
AI反馈模式：AI变身“创意顾问”。参与者首先提交自己的广告草稿，随后AI给出反馈意见，帮助优化文案。在这种模式下，AI被设计为拒绝直接生成广告文案，促使用户充分发挥创意。
无AI对照组：参与者独立完成广告文案创作，完全不使用AI，确保在分析中获得更真实的基准数据。

我们选择了GPT-4作为AI“助手”，并将其参数设为默认温度1.0，模拟大众用户的常用设置。每个AI界面经过严格调试，确保用户请求不会触发“越界”内容。同时，所有用户与AI的互动记录均被保留，为后续文本分析提供数据支持。

在这种设计下，参与者可以自由决定与AI协作的深度，模拟了真实场景下人机协作的灵活性。无论是代笔模式的内容生成还是反馈模式的创意优化，用户都能体验到AI在创意任务中的不同角色。

2.2 预热环节：让每位参与者都熟悉AI界面

为了让所有参与者在正式任务中都能熟练使用LLM，我们设置了一个简短的训练任务。每位参与者至少需与AI互动一次，熟悉各自的“AI助手”。即使是对照组参与者也在训练阶段与AI互动，并随机分配到“代笔者”或“反馈板”模式，以确保所有人都在同样的起点上进行主任务，消除因训练环节带来的潜在影响。

2.3 激励机制：让创意广告成为赢家

为了激发参与者的创作热情，我们设置了两层奖励机制：每人获得5美元基础报酬，同时根据广告点击量表现，排名靠前的参与者还可赢得最高3美元的额外奖励。这种激励设计不仅鼓励参与者全力以赴，还通过反复提示让他们感受到广告创作的“竞争性”，强调仅有独特创意才能在这场广告对决中脱颖而出。

2.4 测量维度：自我评估与背景控制

在实验初期，我们收集了参与者的性别、年龄、学历和营销相关经验，确保这些因素不会干扰广告表现的分析。任务完成后，参与者需用滑块评估自己的广告在所有参赛作品中的相对位置（从0%到100%），这种方法常用于自我表现评估。我们还设置了退出调查，以进一步了解参与者的体验和反馈，为后续分析提供更全面的数据支持。

2.5 广告投放流程：精准测试创意效果

为客观评估广告文案效果，我们将参与者创作的广告分别在Facebook和Instagram上投放，每位参与者拥有一个专属广告活动，广告文案统一配有相同产品图片。为确保测试严谨，我们将每则广告随机分配到不同的美国县区，避免同一观众接触多个实验广告。广告投放持续六天，覆盖工作日和周末，每天按相同数量和预算投放三种实验条件下的广告，确保所有文案获得一致的曝光机会。

2.6 随机化与操控检查：确保实验设计

为了确保实验的公平性，首先对年龄、性别和学历水平进行单因素方差分析表明，各处理组在这些人口特征上没有显著差异（p > 0.1），表明随机化成功。然后手动审查了所有聊天记录，确认参与者确实按预期方式与LLM互动，这也验证了我们的协作模式操控设计有效，确保实验数据的准确性与可靠性。

3. 研究结果

3.1 广告点击效果：AI加持还是创意减分？

广告的点击量是衡量广告质量的核心指标——用户点击次数越多，意味着广告越具吸引力。我们用广告点击量来判断文案质量，以验证不同协作模式对广告效果的影响。

数据揭示了有趣的双重交互效应：
非专家在“反馈板”模式下从AI中获益显著，广告点击量明显提升，而在其他条件下没有这样的效果；
专家则无论使用哪种AI模式均未显著受益，甚至在“代笔者”模式下表现有所下滑。
这些结果经过控制变量（年龄、性别、学历）的线性回归和泊松回归验证，均一致表明AI协作在创意表现中的复杂作用。

3.2 自我评估：AI让用户更自信，但效果未必更好

分析表明，使用AI的参与者对自己的广告表现更加乐观——“反馈板”组和“代笔者”组的用户分别比对照组高出10.6%和9.3%的自我评估分数。然而，这种自信并未总能转化为更好的实际广告效果。这表明，AI似乎能提升用户对创意成果的信心，但信心提升与实际广告点击效果之间仍有一定差距。

3.3 探索机制：AI代笔如何限制创意，反馈板如何助力突破

我们发现了人机协作模式对广告质量的显著影响，接下来进一步分析其背后的机制。

3.3.1 协作模式对语义差异性的影响

我们发现，AI代笔模式下的广告表现不佳，可能源于“锚定效应”的存在。AI生成的初稿成了用户的“锚点”，使他们在创作过程中更难跳脱出AI的思路，结果最终广告文案和AI初稿语义上高度相似。这种模式让广告变得同质化，难以在观众眼前“脱颖而出”。通过对广告的语义差异性分析，我们量化了不同实验组的创意多样性。

结果显示：对照组（无AI辅助）的广告差异性最大，内容最具多样性。代笔者组的语义差异性最低，说明参与者在代笔模式下生成的广告相互之间过于相似，限制了创意的发挥。反馈板组则展现了适度的平衡。虽然语义差异性低于对照组，但高于代笔者组，表明AI反馈的加入帮助非专家创作出更相关且更具创意的广告——既保持了新颖性，又具备了针对性。

3.3.2 协作模式对草稿修改程度的影响

在广告创作过程中，锚定效应不仅影响用户的思维，还体现在修改的积极性上。我们对比了代笔者组和反馈板组的修改程度，

结果显示：反馈板组的参与者更乐于“打磨”他们的文案，语义差异更大，相比之下，代笔者组的修改则较少。

那么，是不是因为代笔模式生成了更完整的初稿，导致用户不需要大幅修改呢？为了验证这一点，我们请新参与者对初稿的质量进行了评分。回归分析表明，即使初稿质量较高，协作模式对修改程度的影响依然显著：代笔者组的修改量明显低于反馈板组。这进一步支持了锚定效应的存在——在代笔模式下，用户似乎更容易停留在AI生成的初稿上，减少了深入调整的意愿。

3.3.3 专家与非专家的广告文案差异

LLM在经过海量网络数据训练后，掌握了营销与广告写作的专业技巧。对于缺乏行业经验的非专家来说，LLM的协作模式或许能让他们“借力”专业知识，写出更具水准的广告文案。在此分析中，我们将对照组的专家文案作为“专业基准”，计算各实验组非专家与这些专家文案的语义差异。理论上，LLM的辅助能拉近非专家与专家之间的差距。

结果显示：反馈模式让非专家的文案与“专家级”文案更为接近，比对照组非专家和代笔者组非专家的文案更具专业气质。这表明，当LLM作为反馈板时，非专家能在AI反馈的引导下创作出更接近专家水准的广告，实现“专业质感”的飞跃。

3.4 文案特征分析：什么样的广告更受欢迎？

为进一步理解协作模式对广告效果的影响，我们分析了广告文案的多种文本特征，包括：(1)情感（分为正负极性和主观性），(2)可读性（用Gunning Fog指数衡量，数值越高表示可读性越低），(3)广告长度（词数/字符数），(4)表情符号的使用程度，以及(5)标签的使用频率。

通过回归分析，我们探索这些特征与广告点击效果之间的关系，并得出以下结论：

客观广告更受欢迎：含有更多个人情绪或主观表达的广告点击率较低，这表明消费者更青睐信息直接、客观的广告。主观广告可能被视为不够可信或信息不足。
长度适中效果最佳：较长的广告点击率更高，但过长（70个词以上）后效果反而下降。这意味着，广告应适当延展但避免冗长，信息过载可能导致消费者忽视。
少用表情符号：可读性较低或表情符号过多的广告效果不佳。表情符号可能让广告显得过于随意，甚至不够专业，降低消费者的点击意愿。
代笔模式的初稿包含更多表情符号（平均9个），且更长、标签更多——这些可能都源自LLM对网络数据（包括表情符号丰富的在线广告）的大量训练。表情符号现在可能让广告显得不够可信，类似“横幅盲区”效应。消费者或许逐渐将表情符号与低质量内容联系在一起，从而降低了广告的吸引力。

为了更好地理解广告创作过程中草稿的演变，我们比较了广告文案不同版本的特征。

反馈板 vs 代笔者：
反馈板组的用户在初稿和最终稿之间平均增加了26.2个词，增加了广告内容的丰富度和潜在吸引力。对他们来说，LLM的反馈让广告文案更完善，从初稿的平均61.43词一路加长，为广告效果加分。
代笔者组则反其道而行，用户在最后一稿中平均减少了30.27个词，修剪掉了初稿中的冗长内容，还减少了2.46个表情符号。然而，即使进行了删减，代笔者组用户并未完全抛弃表情符号，这表明锚定效应让他们依赖于AI初稿中的原始风格，难以彻底脱离初始元素的影响。

专家 vs 非专家：不同协作模式下的创作习惯
专家在代笔者组中表现出更强的修改欲望，进一步缩短了广告长度，并降低了复杂语言的使用，提升了广告的简洁度和可读性。
非专家则更倾向于保留AI的初始风格。这些差异表明，协作模式不仅影响广告的内容长度和风格，还受用户自身经验的显著影响。

3.5 广告文案的创造性评价：LLM模式对创意有何影响？

我们探索了不同AI协作模式对广告创意评分的影响，结果揭示了一些意想不到的现象。在邀请新的评分者为广告创意打分后，我们发现了两大亮点：

“反馈板组”的广告创意评分并未超过对照组。尽管AI顾问未直接激发更多创意，但它确实帮助非专家写出了更具专业水平的广告——创意未必多了，但执行力提升了。
“AI代笔组”的广告创意评分反而垫底，甚至低于完全不依赖AI的对照组。这进一步支持了我们的锚定效应假设：在代笔模式中，LLM生成的初稿似乎框定了用户的思维，使广告风格趋于同质化，创意显著削弱。

这组发现表明，AI在广告创作中确实有它的“创意边界”。AI的顾问角色能够提升广告执行力，而代笔者角色可能会抑制创意的发挥。

4. 总结

本研究通过在线随机实验，探讨了用户与大语言模型（LLM）在不同协作模式下的创意任务表现，揭示了协作模式和用户类型在AI应用中的关键作用。以下是主要结论：

协作模式决定创意提升：反馈模式有效提升了非专家的广告质量，使其更接近专家水准；而代笔模式对专家反而有负面影响，降低了广告表现。
上限效应对专家的影响：LLM作为通用模型，由于训练数据并非完全聚焦于高质量广告内容，因此对已有高水平表现的专家未能产生额外帮助，而非专家则受益于顾问模式的反馈。
创意与执行的双重作用：LLM对广告创意本身未产生直接提升，但确实改进了创意执行层面。代笔模式易引发锚定效应，限制广告内容的多样性和创新性。

企业在选择AI协作模式时应与员工的经验水平匹配。反馈模式适合非专家或新手，使他们迅速达到专家水平；而代笔模式需慎用，尤其是对有经验的员工，因为它可能让创意受到AI的“牵制”。建议企业提供AI使用指南，帮助员工理解潜在的锚定效应，确保AI在创意过程中的合理应用。

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

推文作者：Kiki

责任编辑：肖善，张琪

微信编辑：疑疑

文章由『运筹OR帷幄』原创发布

如需转载请在公众号后台获取转载须知

关注我们

http://mp.weixin.qq.com/s?__biz=Mzk0ODMwMjMwMA==&mid=2247682985&idx=1&sn=c26cdfb03d19b91ae7e40144e40e3d66

运筹OR帷幄

致力于成为全球最大的运筹学中文线上社区