提示工程——大模型中的提示词设计(上)

学术   2024-11-12 17:44   北京  

‍‍

在当今的人工智能领域,大模型如GPT和BERT已展现出卓越的性能,被广泛应用于多种语言处理任务。然而,这些模型的训练成本极高,涉及昂贵的计算资源和大量的数据处理。如何在不重新训练模型的前提下有效利用已有模型,成为了一个重要的研究和应用方向。提示工程(Prompt Engineering)是一种通过设计精确的输入提示来最大化模型性能的技术,旨在通过优化输入的提示词影响模型输出,从而实现更精准的结果。提示工程(Prompt Engineering)为我们提供了一种成本效率高且灵活的方法,通过按照一定方法和规则设计输入的提示词来引导模型输出,从而适应特定的应用场景和领域。文章详细介绍了提示工程的原理及多种方法,如角色扮演和思维链,通过调整输入使模型更适应特定任务;还探讨了提示工程与大模型结合的多种方式,包括多模型集成、动态提示调整、迁移学习等。

大模型与提示工程

大模型的提示词

想象大模型是一个巨大的、由数百万甚至数十亿参数构成的高维向量空间。这个空间中的每一个向量都代表了从庞大数据集中学习到的某种语言特征、知识片段或概念。当用户提供输入(如文本查询)时,这个输入被模型转换成一个或多个向量,这些向量代表了输入的语义和结构特征。这些向量被投射到模型的向量空间中,与已有的向量进行交互。

输入向量在模型的向量空间中寻找与之最相关的向量。模型通过内部算法(如深度学习的前向传播)计算这些向量之间的相互作用,确定最适合的输出向量。基于输入向量与向量空间中其他向量的交互,模型生成响应。也就是说,用户输入和大模型共同形成了对应输出的答案或其他形式的输出。

提示工程的目标

提示工程的核心是设计一种输入的结构和内容,以便它们能够更有效地与模型的向量空间中的向量进行交互。良好的提示使得输入向量能够更准确地定位到向量空间中相关的部分,从而产生更准确、更相关的输出。

通过提示工程,可以优化输入的清晰度、详细程度、专业术语的使用、语境信息等,这些都直接影响模型如何理解和处理输入。良好的提示可以大大提高模型在特定任务上的表现,例如在零样本学习中更准确地解读用户的意图。

在不同的应用场景中,根据需要定制输入的结构和内容是可能的,例如在医疗、法律或客户服务等领域。提示工程的重要性在于,它使我们能够通过简单调整输入端的提示来适配新的应用需求,避免了高成本的模型重新训练。这种方法不仅节约成本,还提高了模型的灵活性和适应性,使其能够迅速适应技术和市场的变化。一个针对通用语料库训练的模型,通过恰当的提示词设计,可以用于进行特定类型的情感分析、市场预测或技术文档概括,而无需额外训练。

提示工程方法

提示工程方法有很多,如角色扮演、思维链、反事实提示、提示集成等,下面就角色扮演和思维链两种方法,举例说明提示工程对大模型输出的优化。

角色扮演方法

角色扮演(Role-playing)模型被指定扮演一个具体的角色,以增强其在特定情景下的表现。这可以帮助模型生成更具体、更符合角色的语言和行为。角色扮演方法的优点是可以高效地输出适合提问者角色需要的答案。

对话示例:

问题: "如何计算圆柱的体积?"

改进提示(角色扮演): "假设你是一名数学老师,请详细解释如何计算圆柱的体积,并用半径为3,高为7的圆柱来举例说明。"

输出: "作为数学老师,我会解释圆柱的体积计算公式为V = πr²h,其中r是圆柱的底面半径,h是圆柱的高。对于半径为3,高为7的圆柱,体积V = π3²7 = 63π立方单位。"

思维链方法

思维链(Chain of Thought)方法通过模拟人类解决问题的逻辑思维过程来提高模型解答复杂问题的能力。它不仅引导模型给出最终答案,还展示了达到该答案的完整推理过程。

实现方式:步骤1:设计问题并明确要求模型展示其解答过程的每一步;步骤2:让模型生成包含完整推理步骤的答案。

思维链的优点有如下几个方面:

透明度:通过展示推理过程,用户可以清楚地看到模型如何从问题的基本信息到最终答案的逐步推导,增强了解答的透明度。

教育价值:这种详细的解释有助于教育用户如何自己分析类似问题,特别是在教育和学习环境中。

信任和可靠性:展示详细的思考过程可以帮助建立用户对模型的信任,尤其是在其解答需要被依赖时,如在技术支持或商业决策支持中。

思维链方法通过模拟人类解决问题的逻辑思维过程来提高模型解答复杂问题的能力。它引导模型展示其推理过程,而不仅仅是给出最终答案。

对话示例:

问题: "请解释一个复杂几何形状的体积计算,例如一个截头锥。"

改进提示(思维链): "请详细解释如何计算一个截头锥的体积,并分步骤展示计算过程,使用上底半径R=6、下底半径r=3和高h=10的截头锥来举例说明。"

输出:

"首先,定义截头锥的体积公式:V = (1/3)πh(R² + Rr + r²)。然后,代入已知值:R=6,r=3,h=10。计算每一项:R²=36,Rr=18,r²=9。将各项相加:36 + 18 + 9 = 63。计算体积:V = (1/3)π1063 = 210π。所以,截头锥的体积为210π立方单位。"

复杂的提示词设计,实际上是根据提示工程给出了用户输入结构的逻辑规则,帮助大模型在组合返回时,从不同待选内容选择更符合用户期待的答案,纠正模型理解错误造成的大模型幻觉。在面对探索性问题,复杂计算推理类问题,有效弥补模型能力在某些领域的不足。针对复杂度越高,推理层次越深的问题,需要设计与之匹配的提示词结构。

[参考文献]
[1]LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. ACM computing surveys, 2023, 55(9): 1-35.
[2]BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[J/OL]. 2020.DOI:10.48550/arXiv.2005.14165.
[3] WEI J, WANG X Z, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022.
[4]ARORA S N. Ask me anything: a simple strategy for prompting language models[J]. arXiv preprint arXiv:2210.02441, 2022.
[5]李姝;韦有涛;乔芷琪. 大语言模型Prompt的设计原则和优化流程[J]. 中国信息化,2024,(09):31-33.
[6]张玲玲;黄务兰. 基于ChatGPT API和提示词工程的专利知识图谱构建[J]. 情报杂志,,:1-8.
[7]雷鸣. 自然语言提示驱动的智能信息分析模式研究[J]. 情报理论与实践,,:1-10.
[8]黄峻;林飞;杨静;王兴霞;倪清桦;王雨桐;田永林;李娟娟;王飞跃. 生成式AI的大模型提示工程:方法、现状与展望[J]. 智能科学与技术学报,2024,(02):115-133.
[9]方海光;王显闯;洪心;舒丽丽. 面向AIGC的教育提示工程学习提示单设计及应用[J]. 现代远距离教育,2024,(02):62-70.

审稿:李连源、吴博、葛欣 |  业务研究所
作者:程刚  |  业务研究所


关于我们:中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。

中移智库
中移智库以中国移动研究院为主体建设,广泛汇聚数字经济研究力量,着力提升政策性课题研究的专业性和权威性,并扩大研究成果的影响力、公信力、传播力,为数字经济的高质量发展贡献智慧力量。 联系我们:cminfo@chinamobile.com
 最新文章