个性化大语言模型全面综述：背景、定义、分类、基础、技术、评估、数据、应用、挑战

文摘 2024-11-16 13:59 广东

随着人工智能技术的发展，大型语言模型（LLMs）在处理自然语言任务方面取得了显著进展。然而，为了更好地服务于个体用户，这些模型需要能够适应每个用户的特定需求和偏好。本文通过调查和分类不同的个性化技术，为如何使LLMs更加个性化提供了指导，这对于提升用户体验和模型的实际应用至关重要。

我们翻译解读最新论文：大型语言模型的个性化综述，文末有论文信息。作者：张长旺，图源：旺知识

大型语言模型（LLMs）的个性化最近变得越来越重要，并且应用范围广泛。尽管个性化LLMs的重要性日益增加，并且最近取得了进展，但大多数现有的个性化LLMs研究完全集中在（a）个性化文本生成或（b）利用LLMs进行个性化相关下游应用，例如推荐系统。在这项工作中，我们首次弥合了这两个主要方向之间的差距，通过引入个性化LLMs使用的分类法，并总结了关键差异和挑战。我们提供了个性化LLMs基础的正式化，整合并扩展了个性化LLMs的概念，定义并讨论了个性化的新方面、使用情况和期望。然后我们通过提出个性化粒度、个性化技术、数据集、评估方法和个性化LLMs应用的系统分类法，统一了这些不同领域和使用场景的文献。最后，我们强调了需要解决的挑战和重要的开放问题。通过使用提出的分类法统一和调查最近的研究，我们的目标是提供现有文献的清晰指南和LLMs中个性化的不同方面的指南，赋予研究人员和实践者权力。

1. 引言

大型语言模型（LLMs）已经作为强大的工具出现，能够以显著的熟练度执行广泛的自然语言处理（NLP）任务（例如，Radford等人，2018；Devlin等人，2019；Lewis等人，2019；Radford等人，2019；Brown等人，2020；Raffel等人，2020；Achiam等人，2023；Touvron等人，2023；Groeneveld等人，2024）。实证上，这些模型已经展示了它们作为通用模型的能力，允许它们执行诸如文本生成、翻译、摘要和问答等任务，并具有相当的准确性。值得注意的是，LLMs可以在零样本或少样本设置中有效工作，这意味着它们可以遵循人类指令并执行复杂的任务，而不需要特定任务的训练数据（Bommasani等人，2021；Liu等人，2023c）。这种能力消除了对它们参数的广泛微调的需要，从而显著简化了通过直接输入提示与机器的人机交互。例如，用户可以以对话格式与LLMs互动，使交互更直观、更易于访问。LLMs的这些强大和多功能的能力已经导致了包括通用AI助手（AutoGPT，2024）、副驾驶（Microsoft，2024）和基于个人LLM的代理（Li等人，2024f）在内的众多应用程序的创建。这些应用程序协助用户执行各种活动，如撰写电子邮件、生成代码、起草报告等。

最近，人们越来越有兴趣将LLMs适应用户特定的上下文，超越了它们作为NLP任务解决者或通用聊天机器人的自然使用（Tseng等人，2024）。为此，LLMs的个性化通过适应模型生成响应来满足每个用户或用户组的独特需求和偏好（Salemi等人，2023）。这种个性化对于人-AI互动和以用户为中心的应用程序至关重要。预计通过提供更相关和有意义的互动，将增强用户满意度，确保用户获得更符合他们的需求和期望的响应。这使得LLMs能够为各种应用程序提供更有效的协助，例如客户服务（Amazon，2024），其中个性化响应可以显著改善用户体验；教育（Wang等人，2022；2024b），其中定制内容可以更好地满足个人学习需求（Woźniak等人，2024）；以及医疗保健，其中个性化建议可以增强患者护理（Tang等人，2023；Yuan等人，2023）。

LLMs的个性化最近受到了很多关注（Salemi等人，2023；Tseng等人，2024）。然而，现有的个性化LLMs研究通常分为两个类别：（a）个性化文本生成，专注于在个性化上下文中产生单个或多轮文本，以及（b）LLMs在下游个性化任务中的应用，例如推荐系统。这两个领域的大量研究已经独立发展，通常没有统一或整体的观点。此外，现有的调查（Chen，2023；Chen等人，2024b；c）倾向于专门关注这些方面中的一个，缺乏一个全面、统一的观点，系统地定义个性化LLMs的关键组成部分，并在个性化LLMs的两个维度之间综合见解。尽管这两个领域在特征和目标上有所不同，但对个性化LLMs的统一观点至关重要，因为它可以弥合这两个研究社区之间的差距，促进合作和知识共享，从而导致更具通用性和多功能性的系统。例如，用户特定文本生成的进步可以通过使对话互动更加个性化和可解释的建议来改善推荐系统。通过整合这两个领域的见解，研究人员可以开发LLMs，不仅能够生成符合个人偏好的文本，还能够提高各种应用程序中用户满意度。这种跨学科的方法促进了更全面的解决方案，以互补的方式解决个性化和性能问题。在这项工作中，我们通过提出个性化粒度、技术、评估、数据集和个性化LLMs使用场景的直观分类法，统一了这些不同领域的文献。

本工作的关键贡献如下：

个性化LLMs使用的统一视角和分类法（第2节）。我们提供了一个基于它们是否专注于直接评估生成的文本，或者文本是否被间接用于另一个下游应用的个性化LLMs使用的统一视角和分类法。这为理解并统一专注于LLMs个性化的两个独立领域提供了基础。此外，我们分析了每个的局限性，包括特征、评估和数据集等因素。
个性化LLMs的形式化（第3节）。我们通过建立巩固现有个性化概念的基础概念，定义和讨论个性化的新方面，并为它们在多样化使用场景中的应用概述期望，来提供个性化LLMs的形式化。
LLMs个性化的粒度分析和分类法（第4节）。我们提出了LLMs的三种不同个性化粒度级别，包括（i）用户级个性化，（ii）人物级个性化，以及（iii）全局偏好个性化。我们形式化了这些级别，然后讨论并描述了LLMs个性化不同粒度之间的权衡。值得注意的是，用户级个性化是最细粒度；然而，它需要足够的用户级数据。相比之下，人物级个性化将用户分组到人物中，并根据人物分配来定制体验。虽然它没有提供与用户级个性化相同的粒度，但它对于个性化有限数据的用户体验是有效的。最后，全局偏好对齐迎合了公众的总体偏好，并不提供用户特定的个性化。
LLMs个性化的技术和分类法调查（第5节）。我们根据用户信息的使用方式对当前个性化LLMs的技术进行了分类，并提供了全面概述。我们的分类法涵盖了各种类别的方法，如检索增强生成（RAG）、提示工程、有监督的微调、嵌入学习和来自人类反馈的强化学习（RLHF）。对于每种方法，我们讨论了它们的独特特征、应用和涉及的权衡。我们的详细分析有助于理解不同个性化技术的优势和局限性，以及它们对各种任务的适用性。
个性化LLMs的度量和评估调查和分类法（第6节）。我们对用于评估个性化LLMs的现有度量进行了分类和分析，提出了一个新颖的分类法，区分了直接和间接评估方法。我们强调了定性和定量度量的重要性，涉及用户满意度、生成文本的相关性和连贯性等多个方面。此外，我们讨论了评估个性化LLMs的挑战，并提出了改善评估过程的健壮性和可靠性的潜在解决方案。
个性化LLMs的数据集调查和分类法（第7节）。我们为训练和评估个性化LLMs所使用的数据集提供了一个全面的分类法，根据它们在直接或间接评估个性化文本生成中的使用进行分类。我们的调查涵盖了广泛的数据集，包括为短文本和长文本生成、推荐系统、分类任务和对话生成专门设计的数据集。我们讨论了每个数据集的优势和局限性，它们与不同个性化技术的相关性，以及需要更多多样化和代表性数据集以推进该领域的需求。
个性化LLMs的应用调查（第8节）。我们调查了个性化LLMs应用的关键领域，包括教育和医疗保健、金融、法律和编码环境中的AI助手。我们还探索了它们在推荐系统和搜索引擎中的使用，强调了个性化LLMs提供定制用户体验、增强参与度和改善多样化领域中特定任务结果的能力。
对未来工作的重要开放问题和挑战的概述（第9节）。我们概述了需要解决的个性化LLMs中的关键挑战和开放研究问题，以推进该领域。关键问题包括需要改进的基准和度量来有效评估个性化，解决适应稀疏用户数据的冷启动问题，以及解决个性化输出中可能出现的刻板印象和偏见。还探讨了围绕用户特定数据的隐私问题，特别是在平衡个性化与隐私保护方面。此外，我们讨论了将个性化扩展到多模态系统的独特复杂性，在这些系统中，跨多样化输入类型整合用户偏好仍然是一个开放的挑战。

在文章的其余部分，我们首先提出了个性化LLMs使用的统一视角和分类法（第2节），然后深入研究了个性化LLMs的理论基础（第3节）。接下来，我们探讨了LLMs中的个性化粒度（第4节），并提供了个性化LLMs技术和分类法的全面调查（第5节）。然后我们对个性化LLMs的度量和评估方法进行分类（第6节），并提供了个性化LLMs数据集的详细分类法（第7节）。我们讨论了个性化LLMs的各种应用（第8节），最后，确定了关键挑战并提出了未来研究方向（第9节）。

2. 统一的个性化LLMs

为了弥合文献中两个不同工作方向之间的差距，我们提出了一个直观的分类法（见图1），将个性化LLMs的努力分为两个主要类别：个性化文本生成和下游任务个性化。在第一个类别中，个性化文本生成的目标是生成直接符合个人或群体偏好的文本（Salemi等人，2023；Kumar等人，2024）。例如，个性化的心理健康聊天机器人应该根据用户之前的对话生成富有同情心的回应，调整语气和语言以反映他们的情绪状态。重点是产生个性化的内容，通过评估生成文本本身的质量来评估，使用人类评估或可能需要用户编写文本的评估指标，因为生成的文本应该匹配或近似用户会产生的风格或内容。在第二个类别中，下游任务个性化，个性化LLMs被用来增强特定任务的性能，如推荐（Lyu等人，2023；Bao等人，2023）。例如，一个LLM增强的电影推荐系统可能通过分析用户的观看历史、偏好和与之前推荐的互动来建议新电影。在这种情况下，LLM可能生成增强系统在特定下游任务上性能的中间标记或嵌入。尽管这些中间标记没有直接评估，但它们是提高特定任务系统整体有效性的重要步骤。性能通过任务特定的指标如推荐准确性或任务成功率来评估。与第一类别不同，这条工作线侧重于改善任务结果，而不是文本生成过程本身。

直接个性化文本生成：尽管有许多类别技术用于从LLMs生成个性化文本，我们在定义中使用了一个简单的RAG（检索增强生成）框架。对于用户i，我们通常有一组用户文档（用户编写的文本）、可能静态的用户属性和用户互动，如图1所示。用户提供了文本输入x，通过查询生成函数ϕq获得用于检索用户数据的顶级元素的查询。检索模型R采用变换后的输入ϕq(x)、用户数据Di和参数k，指示返回的顶级条目数量。更正式地，

其中Di(k)是来自Di的用户i的顶级k个最相似数据集。注意，ϕq代表查询生成函数，例如这里引入的查询扩展；它也可以简单地是恒等函数，给出 Di(k)=R(x,Di,k)。我们还注意到两个其他方面。首先，尽管图1中显示的检索模型R仅针对用户i的数据，但一般来说，它可以针对任何有用的数据集，以改善为该用户生成的个性化文本。其次，检索模型R也可以分别用于每种数据类型（用户文档/书面文本、用户属性、用户互动等），然后以某种方式组合。也可能根据需要为每种数据类型使用不同的检索模型。

给定用户i的检索数据 Di(k)以及他们的输入文本x，我们使用个性化提示生成函数ϕp生成用户i和输入x的个性化提示，该函数结合了x与 Di(k)和Top K用户特定检索数据。更正式地，

其中 xˉ是基于初始用户输入x和检索到的用户数据 Di(k)为用户i个性化的新输入。

现在，给定用户i的个性化输入 xˉ来自方程2，我们可以利用任意LLM M来获得用户i的个性化文本生成y^。因此，生成的个性化文本是：

一些现有工作完全专注于生成这种个性化用户特定文本y^，然后使用用户y编写的实际文本来评估其质量（Salemi等人，2023）。这种方法直接使用生成的个性化文本y^。因此，生成的个性化文本y^直接与特定用户i编写的具体文本y进行评估，我们在图1中将其表示为E(y, y ˆ )。其中E是评估指标，如ROUGE-1、ROUGE-L、METEOR或任何其他专门为手头的个性化文本生成任务设计的未来指标。一般来说，E的目标是量化为用户i的输入x生成的个性化文本y^在多大程度上被捕捉，其中y是该用户实际编写的文本。

尽管评估生成的个性化文本 y^如何匹配已知的地面真实文本 y 至关重要，但由于高质量用户编写标签的数据集稀缺，这仍然是一个特别具有挑战性的任务。这可能有助于解释为什么文献中对个性化文本生成的基础任务的关注有限。相反，许多工作更关注于利用生成的个性化文本 y^间接地改进下游任务，如推荐或一般预测。值得注意的是，在这些间接方法中，重点是改进下游任务时，通常不会评估生成的个性化文本输出 y^,并且被认为不那么关键。关键的考虑是，当应用于下游任务时，生成的中间文本或其嵌入可以增强整体系统的性能。尽管这些间接方法缺乏对LLMs生成的中间信息的可解释性，但已经证明，通过这种信息增强系统通常可以提高下游个性化相关应用的性能。有关个性化LLMs评估的具体讨论，请参见第6节。

间接下游任务：许多工作不是研究如何直接为用户i生成文本 y^,而是利用 y^或其个性化嵌入 z 来改进下游任务，如推荐。图1提供了这些方法的基本步骤的直观概述。通常，这些方法利用嵌入 z 或 y^作为附加信息，并将其与下游任务相关的其他信息结合起来。在图1中，用户特定的嵌入 z 或中间文本 y^与另一个嵌入或任务特定文本 v（例如，连接或使用函数组合）结合起来，形成一个统一的表示，然后传递给下游任务模型F，它可以代表任何特定应用的模型，如推荐系统。尽管图1显示了一个嵌入或文本 v 与 z 或y^结合，但在实践中，可以应用多个或分层的组合。然后下游模型F产生预测 r^,可能包括推断的评分或分数等输出。

尽管直接个性化文本生成和下游任务个性化可能看起来不同，但它们共享许多底层组件和机制。这两种设置通常都涉及检索和利用用户特定数据，构建个性化提示或嵌入，并利用这些来增强模型输出。关键区别在于它们使用的数据集和评估方法：直接文本生成侧重于使生成的文本与用户编写的地面真实文本对齐，而下游任务个性化评估特定任务的改进。尽管这些差异存在，但两种方法可以互补。例如，直接个性化文本生成的进步可以提供更丰富、更细致的中间文本或嵌入，这可能会增强下游任务。反之，下游任务个性化模型的改进可以通知更好的方法来检索和利用直接生成任务中的用户特定数据。通过将这两种方法视为同一枚硬币的两面，这两个社区的研究人员可以从交叉授粉中受益。这种统一提供了一个机会，可以在这两方面的工作中分享最佳实践、数据集和技术，推动两个领域的进步。在下一节中，我们将深入探讨这些共享的基础，为个性化在LLMs中的有效实施和分析奠定基础。通过在全面的理论背景下框架化个性化，我们的目标是为这两个社区之间的跨学科合作建立一个共享的词汇和方法论，促进新的见解和个性化LLMs中的创新。

3. LLMs个性化的基础

尽管以前的研究（Yang & Flek，2021；Chen等人，2024c；b）已经探索了个性化LLMs的定义并分析了各个方面，但缺乏一个全面的理论框架来理解和形式化这些模型中的个性化。在这一节中，我们的目标是填补这一空白，通过建立基础原则、定义和形式结构来形式化LLMs中个性化的问题。我们系统地开发了必要的符号和概念框架来形式化问题和评估，为更深入地理解如何在LLMs中有效实施和分析个性化奠定了基础。

3.1 预备知识

设M是一个由参数θ参数化的大型语言模型（LLM），它接受一个文本序列 X=(x1,…,xm)∈X作为输入，并产生一个输出 Y^∈Y^其中Y^=M(X;θ)。Y^的形式取决于特定任务，Y^表示可能生成的输出空间。输入可以来自标记数据集 D=(X(1),Y(1)),…,，或者来自用于句子续写或完成的未标记提示数据集 D=X(1),…,X(N)。对于此和其他符号，请参见表2。

定义1（大型语言模型）。一个大型语言模型（LLM）M，由参数θ参数化，是一个具有数千亿（或更多）参数的多层Transformer模型。它可以具有仅编码器、仅解码器或编码器-解码器结构，并在包含大量自然语言标记的广泛语料库上进行训练（Zhao等人，2023；Gallegos等人，2024）。

定义2（下游任务）。下游任务 F是特定应用或任务，它们利用模型（如LLM）的输出来执行实际的现实世界功能。这些任务可以包括但不限于分类、翻译、推荐和信息检索。给定输入X和模型生成的输出 y^下游任务 F评估或利用 y^产生最终预测 r^:

目前，LLMs主要基于多层Transformer（Vaswani等人，2017），它在深度结构化神经网络内使用堆叠的多头注意力层（Zhao等人，2023）。基于原始Transformer架构的不同组件，LLMs可以分为以下三类：（1）仅解码器模型（例如，GPT系列（Radford等人，2018；2019；Brown等人，2020；Achiam等人，2023））（2）仅编码器模型（例如，基于BERT的模型（Devlin等人，2018；Liu等人，2019）），（3）编码器-解码器模型（例如，T5（Raffel等人，2020））。在这些类别中，仅解码器LLMs成为最受欢迎的类型，它针对下一个标记生成进行了优化。

在使用大规模未标记语料库进行无监督预训练后，得到的上下文感知词表示非常有效，可以作为广泛NLP任务的通用语义特征。通过指令调整（Ouyang等人，2022；Zhang等人，2023c；Longpre等人，2023；Zhou等人，2024a）和RLHF（Christiano等人，2017；Stiennon等人，2020b；Rafailov等人，2024）等技术的扩展，它们展示了许多新兴能力（Wei等人，2022a）。这使得LLMs即使在零样本方式下，也可以通过文本提示解决复杂任务并与人类进行自然对话，以执行广泛下游任务，如序列分类、文本生成和推荐（Qin等人，2023）。为了进一步增强LLMs在特定下游任务上的性能，通常会使用相对较少的任务特定数据进行微调，遵循“预训练，然后微调”的范式，这通常使LLMs适应特定任务并取得更好的结果（Bommasani等人，2021；Min等人，2023；Liu等人，2023b）。

定义3（提示）。提示 H是提供给语言模型的特定输入或一组指令，它指导其文本生成 Mθ(H)。提示可以从简单的单词或短语补全到详细的、结构化的上下文或问题，旨在引出特定类型的响应或执行某些任务。提示可以是多模态的，包括文本、图像、音频或视频输入。

系统提示：系统提示 Hsys是预定义的提示，用于初始化交互，设置语言模型的整体行为、风格或约束。它通常在整个交互过程中为模型如何响应后续用户提示提供一致的指令。这对于角色扮演或建立模型的语气和人格特别有用。
用户提示：用户提示 Husr 是用户在与语言模型交互期间提供的输入，通常寻求模型的特定信息、响应或操作。为简单起见，以下部分中我们将用户提示表示为x。

定义4（推荐系统）。推荐系统 RecSys是一个信息过滤系统，它通过根据用户对项目的偏好、兴趣或观察到的行为来过滤大量动态生成的信息，解决了信息过载问题。对于特定用户i，给定用户-项目交互历史 Ii，用户的个人资料属性 ai，以及用户编写的文本 ti，推荐系统旨在预测用户对新项目的偏好（Bobadilla等人，2013）。

3.2 个性化在LLMs中的定义

定义5（个性化）。个性化是指调整系统输出以满足个别用户或一组用户的个人偏好、需求和特征的过程。在LLMs的背景下，个性化涉及根据用户特定数据、历史互动和上下文信息调整模型的响应，以增强用户满意度和系统生成内容的相关性。

定义6（用户偏好）。用户偏好指的是个别用户或一组用户的特定喜好、厌恶、兴趣和优先事项。这些偏好通过指导个性化过程来通知系统关于输出的期望特征和属性。在LLMs的背景下，用户偏好可以从明确反馈、历史互动和上下文信号中派生出来，以量身定制响应并提高生成内容的相关性和满意度。

定义7（个性化大型语言模型）。个性化大型语言模型（Personalized LLM）Mp是一个已经适应以符合特定用户或用户组的个人偏好、需求和特征的LLM。这种适应涉及利用用户特定数据、历史互动和上下文信息来修改模型的响应，使它们对用户更加相关和令人满意。个性化LLMs旨在通过提供满足用户独特期望和要求的定制内容来增强用户体验。

定义8（用户文档）。用户文档 Du指的是由用户u生成的文本和写作的集合。这包括评论、评论、社交媒体帖子和其他形式的书面内容，这些内容提供了对用户的偏好、意见和情感的洞察。

定义9（用户属性）。用户属性 Au={a1,a2,…,ak}是与用户 u∈U相关联的静态特征和人口统计信息。这些属性包括年龄、性别、位置、职业和其他随时间相对恒定的元数据。

定义10（用户互动）。用户互动 Iu={i1,i2,…,im}捕获了用户 u∈U在系统内的动态行为和活动。这包括点击、查看、购买和其他参与数据等动作，反映了用户的偏好和兴趣。

个性化是弥合人类和机器之间差距的关键实践（Rossi等人，1996；Montgomery等人，2004；Chen等人，2024c）。这些体验可以包括与特定用户或用户组的偏好对齐，调整生成内容的风格或语气，以及基于用户与项目的互动历史提供推荐项目。用户可以是具有互动历史的实际个人，也可以是通过特定特征（如人口统计信息）描述的个人，使人类和机器都能更好地理解和满足他们的需求。在这项工作中，我们不仅仅关注单个个体用户的个性化，而是通过根据目标群体的大小对个性化目标进行分类，来形式化和澄清“个性化”一词。我们将个性化分为三个类别，基于它们的关注点：与个别用户的偏好对齐，与用户组的偏好对齐，或与一般公众的偏好对齐（第4节）。此外，这三个级别的个性化使不同类型的输入数据得以纳入，每种数据都独特地贡献于个性化过程。值得注意的是，并非所有微调都等同于个性化。例如，大多数有监督的微调实践是一个过程，其中模型在特定数据集上进行训练，以在下游任务上表现更好。然而，只有调整模型以迎合特定用户或用户组偏好的微调——例如，适应用户的写作风格或内容偏好——才算是个性化。相比之下，对一般语料库进行微调以提高整体任务性能并不是个性化的，因为它没有解决个体或群体的独特偏好。这种区别对于理解个性化LLMs在不同粒度级别的目标至关重要。

3.3 个性化数据

在这一部分中，我们提供了通常用于下游个性化任务的用户特定信息的各种格式的概述。理解此类数据对于利用用户信息并设计有针对性的个性化技术以增强LLMs在多样化应用中的性能至关重要。图2用具体示例说明了这一点。

3.3.1 静态属性

静态属性指的是关于用户和项目的信息，这些信息随时间相对恒定。这些属性形成了许多个性化策略的基础，通常用于对用户和项目进行细分，以实现更有针对性的推荐。除了分配给每个用户和项目的唯一标识符，如用户ID和项目ID外，常见的静态属性包括：

用户的人口统计信息：年龄、性别、位置和职业可以帮助推断偏好，并量身定制内容或产品推荐。
项目信息：对于推荐系统，项目特定数据，如标题、发布日期、类型和其他相关元数据，在理解用户偏好和做出准确推荐方面发挥着关键作用。

静态属性为长期个性化策略提供了可靠的基础。通常在用户注册或配置文件设置期间收集，以及在项目编目过程中收集此数据，这需要最少的人类努力进行注释。然而，静态属性并不能捕捉用户偏好或项目相关性随时间的变化，这限制了它们在下游个性化任务中的有效性。此外，收集和存储人口统计信息可能会引发隐私问题，需要谨慎处理并遵守数据保护法规。匿名化数据的技术（Samarati & Sweeney，1998）对于解决这些问题至关重要。

3.3.2 互动历史

互动历史捕获了基于用户与系统的互动的动态方面的用户行为和偏好。此数据对于理解用户偏好并实现实时个性化推荐至关重要。互动历史包括有关过去活动的信息，如观看的电影、听过的歌曲、购买的物品或阅读的文章。它还包括用户点击或查看的项目的互动，包括参与持续时间，这有助于推断兴趣和参与水平。此外，在与LLMs的互动中，此历史包括之前提示的内容、响应以及用户与生成输出的互动模式，所有这些都有助于定制未来的互动。

互动历史的优势在于其动态和最新的性质，提供了对用户偏好的实时洞察，并实现了及时和相关的推荐。详细的互动数据提供了丰富的上下文，有助于更深入地理解用户行为。然而，互动历史可能是庞大和复杂的，需要复杂的处理技术。此外，过去的互动可能并不总是准确反映当前偏好，需要仔细分析以保持相关性。

3.3.3 用户编写文本

用户编写文本包括用户生成的任何形式的书面内容，如评论、评论、对话或社交媒体帖子。这种类型的数据丰富了用户情感，并可以提供对用户偏好和意见的深入洞察。用户文本数据通常包括：

评论：对产品或服务的书面评估，通常包括评分和详细评论。例如，亚马逊评论数据（Ni等人，2019）包含2.331亿条评论，通过详细的文本反馈和评分提供对用户体验和偏好的洞察。
对话和交谈：用户与对话系统或其他用户的文本交流。ConvAI2数据集（Dinan等人，2020）包括参与者被分配人物并进行自然交谈的对话，这有助于理解用户互动模式并改进对话代理。
社交媒体帖子：在Reddit、Twitter或Facebook等平台上发布的短消息或评论，可以分析以了解用户情感和趋势。

在LLMs的背景下，这还包括通常用于少样本学习的人类编写的示例，反映了用户偏好或意图，以指导模型的响应。用户文本数据的潜在用途广泛。例如，可以执行情感分析（Medhat等人，2014；Wankhade等人，2022），以了解用户意见并改进产品供应或客户服务。可以通过分析用户对话来增强对话代理，使互动更自然、更具吸引力。用户文本数据的优势在于其深入的洞察力，提供了关于用户偏好、意见和情感的详细信息。它具有多功能性，适用于各种领域，从产品评论到社交媒体分析。然而，文本数据本质上是非结构化的，需要有效的NLP技术进行有效分析。此外，全面评估这种微妙的数据，特别是用于个性化，现有度量标准存在挑战。此外，用户生成的内容可能是嘈杂的，质量参差不齐，使得准确分析复杂。注释新的高质量数据点成本高昂，进一步增加了复杂性。

3.3.4 成对人类偏好

成对人类偏好指的是明确的用户反馈，表明他们从一组候选输出中首选的响应。这种数据格式通常涉及人类注释选择最期望的选项，使其成为训练模型以紧密符合个别用户需求和偏好的重要工具。与静态属性或互动历史不同，成对偏好提供了高度具体和直接的反馈，作为明确的指示，说明用户期望模型在给定场景中如何表现或响应。例如，用户可能指定他们希望响应易于被外行人理解，还是为专家量身定制。通过这种方式，用户可以明确说明他们的需求，减少歧义和隐含性，这可能导致更高的用户满意度和更有效的个性化。然而，设计适当的对齐策略仍然是个性化应用的重大挑战。大多数当前工作侧重于使模型与一般、聚合的人类偏好对齐，而不是多样化的、个体的观点（Jang等人，2023）。开发有效捕获和使用这些个体直接偏好的方法对于推进个性化系统至关重要。

定义11（对齐）。对齐 G是AI系统的目标 GA与人类价值观和意图 GH一致的过程或状态。数学上，对齐可以定义为确保AI系统的行为策略 πA最大化代表人类价值观的效用函数 (U

_H )。正式地，

其中 πA是AI系统的行为策略，Eπ[UH]是在策略 π 下的预期效用，arg⁡max⁡π表示最大化预期人类效用 UH的策略集。

3.4 个性化生成的空间

在这一部分中，我们简要形式化并分析个性化LLMs的问题及其解决方案空间。这有两个目的：提供问题难度的直觉，并描述与其他已研究问题相关的属性和独特优势。

首先，让我们建立个性化LLM问题的形式化。考虑一个通用输入示例 x∈X。我们用 g:Z×X→Y表示生成模型，其中 Z表示潜在空间，Y表示所有可能生成的空间。

给定 x∈X，所有可能生成的空间定义为：

为了全面理解个性化，我们区分以下集合：

所有可能生成的空间 Y。
给定输入 x 的高概率生成空间，表示为：

其中 P(y∣x)是给定输入 x时生成 y的概率，δ是代表高质量内容的阈值。

用户 ui∈U给定输入 x的用户特定生成空间，表示为：

其中 f(Pui,y)是一个量化生成 y与用户偏好 Pui对齐程度的函数，ϵ是用户特定相关性的阈值。

值得注意的是，用户特定生成空间 Si(x)与所有可能生成的空间 S(x)相比，显著更小且更有针对性。图3提供了特定用户个性化生成空间的直观概述。

3.5 个性化标准分类法

在评估LLMs中生成文本的个性化时，考虑几个关键方面以确保内容有效地针对个别用户是至关重要的。这些方面构成了个性化内容生成标准的全面分类法，包括个性化内容生成的各种维度。

语气和风格是个性化文本生成的基础方面之一，包括：

写作风格：写作风格应与用户的首选风格或之前的互动一致。例如，如果用户通常更喜欢简洁的风格用于电子邮件，生成的文本应反映这种偏好，确保无缝的用户体验。
语气：生成内容的语气应与用户的首选语气匹配，这可能因上下文而异。例如，语气可能是正式的、随意的、专业的或友好的，取决于用户过去的书面文本和情境要求。

相关性：个性化还需要生成的内容高度相关于用户的兴趣、偏好和当前需求。这种相关性在两个层面上评估：

内容相关性：此标准评估内容是否与用户的兴趣和偏好对齐。它确保生成的文本对用户相关且有价值，从而增强参与度和满意度。例如，如果用户最近对可持续性主题表现出兴趣，LLM应优先生成与绿色技术或环保实践相关的内容，用于相关上下文，如撰写博客文章或社交媒体更新。
上下文相关性：除了普遍兴趣外，确保内容适合用户将遇到它的特定上下文或情况也至关重要。例如，如果用户正在准备商务演示，LLM应专注于生成正式的、数据驱动的、与特定行业对齐的内容，而不是随意或不相关的话题。

准确性：准确性是个性化文本生成的另一个关键维度，确保提供的信息可靠和精确。这包括：

事实准确性：生成的内容应基于可靠信息，事实正确。这确保了内容的可信度并保持了用户的信任。例如，如果LLM正在生成有关最近市场趋势的报告，它应使用最新数据并引用可靠来源，避免过时或错误的信息。
用户数据准确性：个性化高度依赖于用于定制内容的用户数据的准确性。个性化内容必须基于最新和正确的用户数据，包括用户的偏好、过去的行为和互动。例如，如果用户最近将他们的职位从“经理”更改为“董事”，LLM应生成反映这一新角色及其相关责任的电子邮件或文件，而不是使用过时的信息。

这些个性化方面——语气和风格、相关性和准确性——形成了评估个性化LLMs的坚实分类法基础。每个标准在确保生成的内容有效定制方面发挥着关键作用，为用户提供独特且令人满意的体验。这个分类法不仅有助于系统地评估个性化LLMs，还突出了个性化的多面性。通过解决这些标准，研究人员和实践者可以开发更复杂、以用户为中心的语言模型，更好地服务于用户的多样化需求和偏好。

表1提供了这些标准的说明性分解，以及它们各自的描述和示例。

3.6 分类法概述

在这一部分中，我们提出了后续部分中提出的每个分类法的高级总结。

3.6.1 LLMs个性化粒度的分类法

我们提出了LLMs的三种不同个性化粒度级别，每个级别解决不同的个性化范围。这些级别有助于理解可以用LLMs实现的个性化深度和广度。三个级别是：

§4.1 用户级个性化：关注单个用户的独特偏好和行为。此级别的个性化利用有关用户的详细信息，包括他们的历史互动、偏好和行为，通常通过用户ID识别。

§4.2 人物级个性化：针对具有相似特征或偏好的用户组，称为人物。此级别的个性化基于这些组的集体属性，例如专业知识、信息性和风格偏好。

§4.3 全局偏好个性化：包括被公众广泛接受的一般偏好和规范，如文化标准和社会规范。

3.6.2 LLMs个性化技术的分类法

我们根据用户信息的使用方式对LLMs的个性化技术进行分类。这些技术提供了各种方法，将用户特定数据纳入LLMs以实现个性化。主要类别是：

§5.1 通过检索增强生成进行个性化：将用户信息作为外部知识库纳入，通过向量编码，并使用嵌入空间相似性搜索检索相关信息，用于下游个性化任务。

§5.2 通过提示进行个性化：将用户信息作为LLMs提示的上下文纳入，允许下游个性化任务。

§5.3 通过表示学习进行个性化：将用户信息编码到神经网络模块的嵌入空间中，可以通过模型参数或每个用户特定的显式嵌入向量表示。

§5.4 通过来自人类反馈的强化学习进行个性化：使用用户信息作为奖励信号，通过强化学习使LLMs与个性化偏好对齐。

3.6.3 个性化LLMs的评估方法分类法

个性化LLMs的评估指标可以根据它们如何衡量个性化的效果进行分类。这些指标确保个性化输出满足相关性和质量的期望标准。主要类别是：

定义12（内在评估）。内在评估 Ei是指基于预定义的指标 ψ(⋅)∈Ψ评估LLM Mp生成的个性化文本，这些指标衡量生成内容 y^∈Y^与地面真实数据 Y的质量、相关性和准确性。此评估直接在模型的输出上执行：

定义13（外在评估）。间接评估 Ee涉及通过其对下游应用 F 的影响来评估LLM Mp生成的个性化文本的效用。评估通过比较预测 r^ 与地面真实标签 r 使用应用特定指标来衡量生成内容的有效性：

其中 ψa(⋅)∈Ψa代表应用特定指标。

§6.1 内在评估：直接评估生成的个性化文本，关注个性化内容、写作风格等。

§6.2 外在评估：依赖于下游应用，如推荐系统，来展示从个性化LLM生成的文本的效用。

3.6.4 个性化LLMs的数据集分类法

我们提出了一个分类法，根据它们是否包含用户编写的具体文本，对个性化LLM数据集进行分类。这有助于理解数据在直接或间接评估个性化文本生成中的作用。主要类别是：

§7.1 包含地面真实文本的个性化数据集：包含用户编写的实际地面真实文本，允许直接评估个性化文本生成方法，而不是依赖于下游任务的性能。

§7.2 不包含地面真实文本的个性化数据集：适用于通过下游应用间接评估的常见数据集，因为它们不需要用户编写的具体地面真实文本。这些数据集通常用于通过任务如推荐、分类、对话和问答来评估个性化LLM技术。

4 LLMs的个性化粒度

定义14（个性化粒度）。个性化粒度指的是定义和实施个性化目标的详细程度。它决定了系统响应针对特定标准（如个别用户、具有某些共享人物的用户组或一般公众）的定制程度，影响个性化应用的精细程度或广泛程度。

在这一部分中，我们提出了基于个性化目标的LLMs的分类法。具体来说，可以根据其关注点将个性化LLMs分为针对个别用户的偏好、用户组的偏好或一般公众的偏好的类别。在本调查中，我们正式定义了以下个性化的区别：

用户级个性化（第4.1节）：这一级别关注单个用户的独特偏好和行为。此级别的个性化利用有关用户的详细信息，包括他们的历史互动、偏好和行为，通常通过用户ID识别。正式地，设 U表示用户集合，Pu={p1u,p2u,…,pnu}表示用户 u∈U的个性化偏好集合。下游任务的目标函数为 Ltask。此级别个性化的目的是最小化该函数：

其中 θ可以是LLM系统 f中的参数或提示。

人物级个性化（第4.2节）：这一级别针对共享相似特征或偏好的用户组，称为人物。此级别的个性化基于这些组的集体属性，例如专业知识、信息性和风格偏好。正式地，设 S表示人物集合，其中每个人物 s∈S由具有共享特征或偏好的用户子集 Us⊆U组成。设 Ps表示人物 s的个性化偏好集合。对于每个人物 s中的每个偏好 pi∈Ps和每个用户 u∈Us，都有 pi∈Pu。此级别个性化的目的是最小化该函数：

全局偏好个性化（第4.3节）：这一级别包括被一般公众广泛接受的一般偏好和规范。例如，广泛接受的文化标准和社会规范。正式地，设 Pglobal表示通用偏好集合。对于每个偏好 pi∈Pglobal和每个用户 u∈U，都有 pi∈Pu。此级别个性化的目的是最小化该函数：

4.1 用户级个性化

在本节中，我们讨论用户级个性化，它关注个体层面的数据。如图6(a)所示，这种类型的个性化专注于为每个由用户ID唯一标识的用户优化偏好。例如，在MovieLens-1M推荐数据集中，每个用户都有人口统计信息，如UserID、性别、年龄、职业和邮政编码，以及相应的电影互动（MovieID、评分、时间戳）。目标是基于每个用户的个人资料和观看历史推荐新电影。这种个性化级别的优势在于它提供了最细粒度的方法，最小化了其他用户的噪声。这在在线购物、工作推荐（Wu等人，2024）和医疗保健（Abbasian等人，2023；2024；Zhang等人，2024a；Jin等人，2024b）等领域特别有益，因为个别用户行为可能有很大差异，这种详细的个性化至关重要。这种个性化级别面临的一个主要挑战是“冷启动问题”，它指的是互动历史很少的用户，通常在推荐系统中被称为“潜伏者”（Sun等人，2024）。然而，许多研究（Salemi等人，2023；Rajput等人，2023；Xi等人，2023）选择在预处理阶段删除此类数据。这种排除可能削弱了系统的鲁棒性，因为它忽视了这些代表性不足的用户互动的细微差别和潜在见解。

4.2 人物级个性化

在本节中，我们形式化并讨论人物级个性化，其中输入包括由组或人物分类的用户偏好。如图6(b)所示，这种方法针对优化共享共同特征的用户组的偏好。一个自然语言描述封装了这些共享特征，代表提示或相关组件中的整个组。例如，Jang等人（2023）设计了三个不同的偏好维度：专业知识、信息性和风格，每个维度都有两个冲突的人物或偏好。例如，在专业知识维度中，一个人物偏好内容易于小学生理解，而另一个人物偏好内容只有特定领域的博士生才能理解。从这个例子中，我们可以观察到，与本地化用户特定个性化（第4.1节）相比，每个人物代表了一组用户的更广泛肖像，关注更一般的特征，而不是详细的用户特定信息。人物级个性化的优势在于其在共享特征显著且对下游任务至关重要的场景中的有效性，而用户特定属性的显著性较小。此外，一旦提取出这些代表性特征，这种数据格式更容易处理，无论是直接包含在提示中还是通过RLHF利用，都比冗长的用户特定配置文件更有效。然而，挑战在于使用自然语言描述提取这些代表性特征在实践中可能很困难。大多数当前工作仍然依赖于人类的领域知识来实现这一点。

4.3 全局偏好对齐个性化

在许多应用中，可能只有代表整个人口偏好的全局用户偏好数据可用，而不是个别用户。虽然这超出了本调查个性化的主要范围，但为了完整性，我们包括了对它的讨论。这些偏好通常包括预期被一般公众接受的人类价值观，如社会规范、事实正确性和遵循指令（Taylor等人，2016；Gabriel，2020；Liu，2021）。这种数据的常见格式包括给定指令、多个选项和由人类注释者标注的标签，指示哪个选项更受欢迎（Ethayarajh等人，2022；Stiennon等人，2020a；Nakano等人，2021；Bai等人，2022；Ganguli等人，2022）。这些数据集通常通过RLHF用于对齐LLMs。全局偏好对齐的优势在于其在安全性（Gehman等人，2020；Ge等人，2023；Anwar等人，2024；Ji等人，2024a）、社会规范（Ryan等人，2024）和道德问题（Liu等人，2021；Rao等人，2023）方面增强LLMs的潜力，确保它们与人类价值观一致。然而，缺点是它可能引入噪声，因为个人偏好可能有所不同，并不一定准确代表一般公众。此外，这种级别的对齐不捕获细粒度的用户特定个性化。

4.4 讨论

LLMs中的个性化粒度涉及精确度、可扩展性和个性化体验丰富度之间的权衡。用户级个性化提供高精确度和参与度，但面临数据稀疏性和可扩展性挑战。人物级个性化高效且具有代表性，但粒度较粗，并且需要定义人物的领域知识。全局偏好个性化提供广泛的适用性和简单性，但缺乏特异性，并可能引入聚合数据的噪声。未来，混合方法可能利用每种方法的优势，同时减轻它们的弱点。例如，分层个性化框架可以结合频繁用户的用户级个性化、偶尔用户的个性化以及新用户的全局偏好。这通过根据用户互动水平平衡精确度和可扩展性，定制体验。另一个想法是上下文感知个性化，它从人物级个性化开始，并随着更多数据的可用性过渡到用户级，解决冷启动问题。这种方法允许系统最初提供相关的个性化，并随着详细的用户特定数据的可用性逐渐细化它。这种自适应系统可以动态调整个性化粒度，根据用户参与度、上下文和数据可用性，提供平衡且有效的用户体验。这些系统可以在个性化级别之间切换，通过使用最适合每种情况的最适当的粒度，为用户提供平衡且有效的体验。整合不同粒度的信息可能进一步增强个性化。用户级数据可以细化人物定义，使其更准确、更具代表性。反之，人物级见解可以通知用户级个性化，通过提供共享特征的上下文。全局偏好可以作为基线，确保个体和人物级个性化与广泛接受的规范和价值观一致。目前，这三个级别的数据集通常是正交的且不相关的。开发涵盖用户级、人物级和全局偏好的数据集至关重要。这样的数据集将使不同个性化级别的更无缝集成和过渡成为可能，增强LLMs满足多样化用户需求的健壮性和有效性。总之，选择个性化粒度应由特定应用要求指导，平衡精确度、可扩展性和提供丰富个性化体验的能力。混合方法和集成数据集是实现最佳个性化结果的关键。

5 LLMs个性化技术的分类法

在这一部分中，我们提出了一个基于用户信息使用方式的LLMs个性化技术的分类法。具体来说，个性化LLMs的技术可以分为以下几个类别：

通过检索增强生成进行个性化（第5.1节）：这一类方法将用户信息作为外部知识库纳入，通过向量编码，并使用嵌入空间相似性搜索检索相关信息，用于下游个性化任务。
通过提示进行个性化（第5.2节）：这一类方法将用户信息作为LLMs提示的上下文纳入，允许下游个性化任务。
通过表示学习进行个性化（第5.3节）：这一类方法将用户信息编码到神经网络模块的嵌入空间中，可以通过模型参数或每个用户特定的显式嵌入向量表示。
通过来自人类反馈的强化学习进行个性化（第5.4节）：这一类方法使用用户信息作为奖励信号，通过强化学习使LLMs与个性化偏好对齐。

以下部分对实现个性化下游任务的不同技术进行了描述。请注意，这些方法大多数是正交的，意味着它们可以在同一系统中共存。我们在表3中使用提出的分类法直观地总结了个性化技术。

5.1 通过检索增强生成进行个性化

检索增强生成（RAG）通过使用语义相似性计算从外部知识库中检索相关信息段来增强LLM性能。这种方法在信息检索和推荐系统中广泛使用。虽然RAG可以通过基于检索的事实内容来减少生成过程中的臆造（Shuster等人，2021；Li等人，2024c），但这些检索模块也可以用来检索个性化信息，从而生成定制化的输出。

定义15（检索模型）。检索模型 R是一个系统，旨在响应查询 q∈Q从大型外部数据库 D 中识别并返回相关信息。给定查询 q，检索模型旨在找到文档或数据点 d∗∈D，以最大化相关性函数 r(q,d)：

其中 d 表示 D中的单个文档或数据点。

定义16（检索增强生成）。检索增强生成（RAG）是语言模型 M利用检索模型 R来增强其生成能力的过程。给定用户 i的输入 Xi，检索模型 R识别来自数据集 D 的 k 个相关外部数据点或文档。然后将这些检索到的数据点整合到输入文本中，形成转换后的输入 xˉ用于语言模型 M生成基于原始输入和检索信息的输出 y^i。

形式上，该过程可以描述如下：

其中 ϕq是检索模型 R用来查找相关文档的查询构造函数，ϕp是将检索到的信息整合到原始输入 Xi中的提示构造函数。输出 y^i表示基于原始输入和检索信息生成的文本。

对于个性化任务，大型用户配置文件通常充当外部知识库，因为它们不能完全纳入提示中，由于LLMs的上下文限制。因此，RAG在个性化LLM系统中被广泛使用。在本节中，我们讨论并分类利用RAG的个性化技术。我们根据检索器将这些基于RAG的个性化技术分类为以下两个主要类别：

稀疏检索（第5.1.1节）：这一类方法使用基于频率的向量对查询和用户信息进行编码，然后用于检索下游个性化任务。由于这种方法只需要统计计算，如频率计数，因此非常高效。这些方法在信息检索任务中表现出强大的性能，经常作为RAG系统的基线。
密集检索（第5.1.2节）：这一类方法使用深度神经网络，包括基于LLM的编码器，为检索任务中的查询和文档生成连续嵌入。这些编码层可以直接用于下游任务，无需调整其参数，或者可以包含可训练的参数，这些参数可以针对检索任务进行特别调整。

另一种检索方法，如黑盒检索，涉及使用外部API，如Google或Bing，这通常通过工具使用集成到基于LLM的代理框架中。尽管这在特定场景中对个性化非常有价值，但由于其黑盒性质，我们不详细探讨它，这限制了用户信息使用方式的透明度，以及如何实现个性化。此外，这种设计往往高度特定于工具，减少了其通用性。值得注意的是，许多方法还采用混合方法，结合了稀疏和密集检索的元素。

5.1.1 稀疏检索

稀疏检索将查询和文档编码为稀疏向量，通常基于词频和重要性。它通过匹配查询中的术语与文档中的术语来操作，专注于精确的术语重叠。由于其简单性和有效性，稀疏检索长期以来一直是信息检索系统的基础方法。最常用的两种稀疏检索器是TF-IDF（词频-逆文档频率）和BM25（最佳匹配25）。

TF-IDF：这种方法根据相对于整个文档集合中出现频率的术语频率对文档进行评分。它计算为：

其中查询词 qi在文档 D中的词频（TF）为：

逆文档频率（IDF）为：

这里，f(qi,D)是查询词 qi在文档 D中的频率，∣D∣是 D中术语的总数，N是集合中文档的总数，n(qi)是包含查询词 qi的文档数。为防止除以零并减弱非常罕见术语的影响，通常使用不同的平滑版本。

BM25：BM25是更高级的稀疏检索方法，通过包含文档长度归一化和词频饱和控制扩展TF-IDF模型。BM25对文档 D相对于查询词 qi的评分计算为：

其中 qi是第 i个查询词，f(qi,D)是 qi在文档 D中的词频，∣D∣是文档 D的长度，avgdl是集合中文档的平均长度，k1和 b是控制词频饱和和文档长度归一化的参数，典型值为 k1=1.2和 b=0.75。

由于其通用性、有效性和简单性，稀疏检索器通常作为基于检索的个性化方法的基线。例如，Salemi等人（2023）使用BM25作为检索器之一，获取相关用户信息，然后将其纳入LLMs的提示中，以在LaMP数据集（Salemi等人，2023）上进行评估。Richardson等人（2023）通过整合BM25检索与用户数据摘要，增强了LLMs的个性化，实现了在LaMP任务上的改进性能，同时将检索数据量减少了75%。在另一项工作中，Li等人（2023b）提出了一个受写作教育启发的多阶段多任务框架，以增强LLMs中的个性化文本生成。在初始检索阶段，BM25用于检索相关的历史用户文档，然后进行排名和总结，以生成个性化文本。

稀疏检索作为许多个性化系统的基石，特别是在涉及大量用户信息且效率至关重要的场景中。然而，尽管像BM25和TF-IDF这样的稀疏检索技术在一般检索任务中表现出色，但它们在个性化方面存在固有的局限性。这些方法的词汇匹配性质难以捕捉术语之间的语义关系，这可能阻碍它们在复杂的个性化任务中的性能。这个问题在用户偏好或行为需要超越关键词重叠的更深层次理解的场景中尤为相关。

5.1.2 密集检索

密集检索器利用深度神经网络为查询和文档生成连续表示，使得在密集嵌入空间中通过基于相似性的搜索进行检索成为可能。一些工作（Sun等人，2024）利用预训练的LLM编码器，如OpenAI的text-embedding-ada系列和Sentence-BERT（Reimers & Gurevych，2019），无需微调其参数。其他方法侧重于训练针对检索的嵌入。例如，密集通道检索（DPR）（Karpukhin等人，2020）在双编码器框架中使用密集嵌入，使用BM25硬负样本和批内负样本来有效地检索开放域问答的相关段落。Contriever（Izacard等人，2021）是一个无监督的密集检索器，使用对比学习进行训练，其中从文档中随机裁剪的两个片段独立形成正样本对进行训练。在个性化背景下，一些工作提出了专门的训练数据构造（Mysore等人，2023a；b）和训练策略（Mysore等人，2023a；Salemi等人，2023；2024），以增强密集检索器检索更相关用户信息的能力，改善使用LLMs的下游个性化任务的性能。Salemi等人（2023）使用Fusion-in-Decoder（Izacard & Grave，2021）在编码器-解码器模型如T5（Raffel等人，2020）上，它检索并连接多个相关文档的编码嵌入，然后进行解码。Mysore等人（2023a）使用规模校准的KL散度目标训练预训练的MPNET模型（Song等人，2020），在个性化开放式长文本生成任务上显示出卓越的性能。Salemi等人（2024）使用LLMs的反馈与策略梯度优化和知识蒸馏一起训练Contriever模型，以个性化LLMs。Zeng等人（2023）引入了UIA，这是一个灵活的密集检索框架，它结合了个性化的注意力网络，以增强各种信息访问，如关键词搜索、基于示例的查询和补充项推荐。其他密集检索器，如Sentence-T5（Ni等人，2021）和基于T5的通用密集检索器（GTR）（Ni等人，2022），也经常用于下游个性化任务。通常，尽管密集检索器需要在下游任务上进行训练，使其更具成本效益和时间效率（Richardson等人，2023），但它们在下游个性化任务中通常比稀疏检索器实现更好的性能。然而，为下游个性化任务构建有效的训练数据、设计合适的损失函数以及将LLMs整合到训练过程中以优化检索器，仍然是开放的挑战。

5.2 通过提示进行个性化

定义17（提示工程）。提示工程是设计、细化和优化提示以从语言模型获得所需输出的过程。这涉及对提示进行迭代测试和调整，以增强模型在各种任务上的性能，提高响应的准确性，并使模型的输出与用户期望或特定应用要求保持一致。

提示作为生成AI模型的输入，指导其生成的内容（Meskó，2023；White等人，2023；Heston & Khun，2023；Hadi等人，2023；Brown等人，2020；Schulhoff等人，2024）。实证表明，更好的提示可以增强LLMs在广泛任务上的性能（Wei等人，2022b；Liu等人，2023c）。因此，越来越多的研究致力于设计更有效的提示以实现更好的结果，这一领域被称为提示工程。在这一部分中，我们将利用提示工程的个性化技术分为三个主要类别：

上下文提示（第5.2.1节）：这些方法直接将用户历史信息纳入提示中，使LLMs能够基于此上下文数据执行下游个性化任务。
基于人物的提示（第5.2.2节）：这些方法将特定的人物（如人口统计信息）引入提示中。通过鼓励LLMs扮演这些人物，旨在提高下游个性化任务的性能。
配置增强提示（第5.2.3节）：这些方法侧重于设计提示策略，通过利用LLMs的内部知识来丰富原始用户历史信息，从而改善下游个性化任务。
提示细化（第5.2.4节）：这一类方法侧重于开发健壮的框架，迭代细化初始手工制作的提示，增强下游个性化。

5.2.1 上下文提示

随着当前LLMs展示出日益增强的能力和扩展的上下文长度（Jin等人，2024a；Ding等人，2024；Lin等人，2024b），一种简单的方法是直接在提示中包含一部分过去的用户信息，并要求LLMs预测用户在下游任务上的行为（Di Palma等人，2023；Wang & Lim，2023；Sanner等人，2023；Li等人，2023d；Christakopoulou等人，2023）。例如，Kang等人（2023）研究了多个LLMs在用户评分预测任务中的表现，通过直接将用户的过去评分历史和候选项目特征纳入零样本和少样本方式。这项工作发现，LLMs在零样本设置中的表现不如传统推荐系统，但在使用最少的用户互动数据进行微调时，可以达到相当或更好的结果。更大的模型（100B+参数）表现出更好的性能和更快的收敛，突显了LLMs在推荐任务中的数据效率和潜力。类似地，Liu等人（2023a）研究了ChatGPT作为通用推荐模型的潜力，通过直接将用户信息注入提示中，并评估其在五个推荐任务上的表现：评分预测、顺序推荐、直接推荐、解释生成和评论摘要。该研究发现，尽管ChatGPT在生成解释和摘要方面表现良好，但在评分预测方面表现参差不齐，在顺序和直接推荐方面表现不佳，表明需要进一步探索和改进。这些研究表明，直接将过去的用户信息纳入LLM提示作为上下文输入可能是广泛个性化下游任务的有前途的解决方案。然而，这种方法在处理大量非结构化用户数据时面临可扩展性挑战，因为LLMs可能难以有效解释此类数据（Liu等人，2024a）。此外，尽管它提供了更好的可解释性，但与传统非LLM方法相比，可能不会实现显著的性能提升。

5.2.2 基于人物的提示

LLMs已被广泛用于角色扮演和模仿人类行为，主要是通过在提示中指定所需的人物（Aher等人，2023；Horton，2023；Kovač等人，2023；Argyle等人，2023；Dillion等人，2023；Woźniak等人，2024；Li等人，2024d）。一般来说，人物表示模拟和再现的观点和行为的实体。这种人物可以包括相对稳定的特征（例如，种族/民族），逐渐演变的特征（例如，年龄），或短暂和情境性的特征（例如，情绪状态）（Yang，2019）。Chen等人（2024b）将人物分为三种类型：人口统计人物，代表人口细分的聚合特征（Huang等人，2023a；Xu等人，2023；Gupta等人，2023）；角色人物，包括来自真实和虚构来源的知名角色（Shao等人，2023；Wang等人，2023c；2024e）；以及个体化人物，从个体行为和偏好数据构建，以提供个性化服务，这在第5.2.1节中讨论。例如，为了在LLMs中诱导外向人物，Jiang等人（2023）使用了“你是一个非常友好和外向的人，喜欢与他人在一起。你总是愿意参加聚会，喜欢成为聚会的中心”的提示，这在人类心理评估中（如五大性格测试）取得了更一致的结果（Barrick & Mount，1991）。通过这种类型的提示注入，LLMs可以偏离其内在的“个性”，并在提示要求的一致性下，在其响应中表现出改变的特征。另一种方法是使用LLMs来模仿知名人物（例如，埃隆·马斯克）。先前的工作通过在提示中包含角色属性描述——如身份、关系和个性特征——或提供反映角色的语言、认知和行为模式的代表性行为示例来实现这一点（Han等人，2022；Li等人，2023a；Chen等人，2023a；Zhou等人，2023；Shen等人，2023；Yuan等人，2024；Chen等人，2024a）。尽管基于人物的角色扮演可以有效地反映某些人物，可能通过动态调整以适应用户特定的行为和偏好随时间变化，从而改善适应性个性化，但它也引起了重大关注。“人物提示”可能导致诸如“角色幻觉”等问题，模型表现出与模拟人物的知识或行为不一致，还可能引入偏见（Gupta等人，2023；Zhang等人，2023d；Wang等人，2024a；Ziems等人，2024），毒性（Deshpande等人，2023），潜在的越狱（Chao等人，2023；Liu等人，2023g；Xu等人，2024b），生态谬误（Orlikowski等人，2023），以及容易陷入漫画化（Cheng等人，2023b）等风险。

5.2.3 配置增强提示

在许多个性化数据集中，用户配置文件数据库存在两个主要问题。首先，用户数据的大小通常如此之大，以至于它可能超过了模型的上下文长度或包含大量无关信息，这可能会分散模型的注意力（Shi等人，2023；Liu等人，2024b）。其次，尽管数据量很大，但用户配置文件数据库经常包含不完整或不足的信息（Perez等人，2007；Dumitru等人，2011）以及稀疏的用户互动（例如，冷启动）。例如，电影推荐数据集通常只包含主要演员和简短的剧情摘要，但通常忽略了关键细节，如类型、基调和主题深度，导致推荐效果不佳。另一个例子可能是“潜伏者”，即互动历史很少的用户，这是推荐系统中的常见场景，使得提供个性化响应变得困难。为了解决这些问题，一系列工作侧重于利用LLMs的内部知识来增强现有的用户配置文件（Zheng等人，2023b；Wu等人，2024）。Richardson等人（2023）提出了一种通过在提示中扩展检索增强个性化的方法，通过LLMs生成的任务感知用户摘要。Liu等人（2024c）的ONCE通过提示LLMs总结从用户浏览历史中提取的主题和感兴趣区域，帮助LLMs捕捉用户偏好以用于下游任务。Lyu等人（2023）提出了LLM-REC，它采用四种提示策略来增强原始项目描述，这些描述通常包含不完整的推荐信息。这些增强的描述随后与后续推荐模块的输入连接，引入相关上下文并帮助更好地与用户偏好对齐。Xi等人（2023）使用因子分解提示从用户配置文件中提取细微的用户偏好和项目细节，并采用混合专家适配器将这些知识转换为现有推荐模型的增强向量。Sun等人（2024）引入了PersonaDB，通过提示LLMs从互动历史中构建用户人物的层次结构，并通过整合来自类似用户的协作细化过程，提高个性化响应预测的准确性和效率。

5.2.4 提示细化

大多数使用提示工程的个性化任务依赖于手工制作的提示，这需要人类专业知识并且可能成本高昂，其有效性只能通过试错来验证。一些研究工作旨在训练模型来细化这些手工设计的提示，增强其个性化能力。在个性化背景下，Li等人（2024a）提出了一种方法，训练小型LM（如T5（Raffel等人，2020））来修订文本提示，并使用黑盒LLMs增强个性化文本生成。他们的方法结合了监督学习和强化学习来优化提示重写。Kim & Yang（2024）提出了FERMI（Few-shot Personalization of LLMs with Mis-aligned Responses），这是一种通过迭代细化基于用户配置文件和过去反馈的输入提示的方法，同时还将错误对齐响应的上下文纳入其中，以增强个性化。优化过程包括三个步骤：根据用户反馈对提示进行评分，更新高分提示及其上下文的记忆库，并生成新的改进提示。此外，该方法通过为每个测试查询选择最相关的个性化提示来细化推理，导致各种基准测试的性能显著提高（Santurkar等人，2023；Durmus等人，2023；Salemi等人，2023）。

5.3 通过表示学习进行个性化

个性化表示学习旨在学习能够准确捕捉每个用户行为的潜在表示，应用于个性化响应生成、推荐等（Li & Zhao，2021；He等人，2023；Tan & Jiang，2023）。在本节中，我们讨论并分类利用表示学习的个性化技术为以下主要类别：

全参数微调（第5.3.1节）：这一类方法侧重于开发训练策略和策划数据集，以更新LLM的所有参数，增强其执行下游个性化任务的能力。
参数高效的微调（PEFT）（第5.3.2节）：这一类方法避免通过更新一小部分附加参数或一组预训练参数来微调所有参数，从而使LLMs适应下游个性化任务。这种选择性微调允许有效地编码用户特定信息。
嵌入学习（第5.3.3节）：这一类方法侧重于学习表示输入文本和用户信息的嵌入，使模型能够更有效地将个性化特征和偏好纳入学习过程。

5.3.1 全参数微调

定义18（微调）。微调是适应特定任务的过程，通过在预训练阶段之后在较小的、针对性的数据集 Di上进一步训练LLM M。这更新了模型的参数 θ 以改进指定下游任务的性能。形式上，微调可以表示为：

其中 Xi是输入数据，Yi是相应的输出。微调后的模型 M与参数 θ∗优化了生成期望响应。

“预训练，然后微调”的范式已被广泛采用，使得开发可以在一系列应用中适应的通用模型成为可能，这些模型在从大型语料库预训练中获得一般知识后（Bommasani等人，2021；Min等人，2023；Liu等人，2023c）。对于目标场景，当模型参数可用且相关成本可以接受时，微调LLMs通常在大多数任务上实现更好的结果（Gao等人，2023）。例如，微调允许LLMs适应特定的数据格式，并以特定风格生成响应，这对于许多个性化任务至关重要（Du & Ji，2022）。实证上，它在一些个性化任务上比零样本或少样本提示的现成LLMs实现更好的性能（Kang等人，2023）。Li等人（2023b）使用辅助任务“作者区分”，通过在教育语料库上预训练并使用T5-11B模型（Raffel等人，2020），训练其更好地区分两个文档是否来自同一作者，以获得更好的个性化表示。Yin等人（2023）首先使用ChaGPT通过提示工程融合异构用户信息，构建指令调整数据集，并使用此数据集微调ChatGLM-6B（Du等人，2021），实现增强的推荐性能。在这条工作线中，一种常见的方法是提供包括用户互动历史和潜在项目候选的任务指令，以及表示用户是否偏好的“是”或“否”的标签。在这样的指令调整数据集上微调LLMs，如LLaMA（Touvron等人，2023），通常在推荐任务上比提示LLMs和传统方法实现更好的性能（Hidasi等人，2015）。Yang等人（2023）微调了一个LLaMa 7B，使用提供指令的指令调整数据集，用于生成用户可能互动的“未来”项目的列表，基于过去的互动列表，或从候选项目列表中检索目标“未来”项目。

5.3.2 参数高效的微调

定义19（参数高效的微调）。参数高效的微调（PEFT）是一种通过更新模型的一小部分参数 θt⊂θ或引入一组有限的新参数 θnew来适应LLMs特定任务的技术，同时保持大多数原始参数 θ 不变。

形式上，给定LLM M与参数 θ, PEFT寻求最小化在一组减少的参数上的损失函数 L：

其中 Xi是输入数据，Yi是相应的输出，θfrozen表示在微调期间保持固定的参数，θnew可能为空，如果没有引入新参数。

Tan等人（2024b）介绍了One PEFT Per User (OPPU)，这是一种方法，它使用个性化的PEFT模块，如LoRa（Hu等人，2021）和提示调整参数（Lester等人，2021），来封装用户特定的行为模式和偏好。基于OPPU，Tan等人（2024a）进一步提出了PER-PCS，这是一个框架，通过允许用户协作共享和组装个性化的PEFT片段，实现LLMs的有效和细粒度的个性化。Dan等人（2024）介绍了P-Tailor，它通过使用专门的LoRA专家混合来个性化LLMs，以模拟五大性格特征。Huang等人（2024）提出了选择性提示调整，通过适应输入上下文选择适合LLMs的软提示，改进个性化对话生成。

5.3.3 嵌入学习

定义20（嵌入）。嵌入是通过嵌入函数 Emb(⋅)生成的连续空间中的向量，它将离散数据（如标记）映射到连续向量空间。这种转换允许以适合机器学习模型的格式表示文本。给定标记 w，嵌入函数产生向量 e∈Rd，其中 d是嵌入空间的维度：

定义21（用户特定嵌入学习）。用户特定嵌入学习涉及从用户互动数据中创建捕捉个体用户偏好和行为的嵌入。这些嵌入用于个性化模型输出。

形式上，给定用户互动 Ii，嵌入 ei通过以下方式获得：

然后将嵌入整合到模型中以生成个性化响应：

其中 Xi是输入数据，M是模型。这种方法通过适应模型的响应以适应个体用户特征，增强了个性化。

Cho等人（2022）提出了一个个性化的对话生成器，它使用条件变分推断检测隐式用户人物，基于对话历史产生用户特定的响应，增强用户参与度和响应相关性。HYDRA（Zhuang等人，2024）通过模型分解增强黑盒LLM个性化，捕获用户特定行为模式和共享的通用知识。它采用两阶段检索-然后-重新排名工作流程，并训练适配器以使模型输出与用户特定偏好对齐。Ning等人（2024b）提出了USER-LLM，它利用用户嵌入来动态上下文化LLMs。这些用户嵌入通过自监督预训练从多样化的用户互动中提取潜在用户偏好，并通过跨注意力和软提示整合，增强各种任务的个性化和性能，同时保持计算效率。

5.4 通过来自人类反馈的强化学习进行个性化（RLHF）

LLMs在多个阶段学习（Ouyang等人，2022）：在大量文本上预训练，对特定领域数据进行微调，并与人类偏好对齐。虽然对齐通常用于捕获一般用户偏好和需求，但它也可以用于个性化，以符合个别用户的期望和要求。用于对齐的一系列算法技术称为来自人类反馈的强化学习（RLHF），我们接下来回顾这些技术。

在经典强化学习（RL）（Sutton & Barto，1998）中，代理学习政策以从奖励信号中优化长期目标。这可以通过直接学习政策（Williams，1992；Baxter & Bartlett，2001；Schulman等人，2015；2017），学习价值函数（Bellman，1957；Sutton，1988），或两者的结合（Sutton等人，2000）来完成。在RLHF中，代理学习政策由LLM表示（Ouyang等人，2022；Ahmadian等人，2024；Rafailov等人，2024；Xu等人，2024a），该政策基于对其输出的人类偏好反馈进行优化。偏好反馈根植于社会科学，并可以是二元的（Bradley & Terry，1952）或涉及多个选项（Plackett，1975；Zhu等人，2023）。RLHF帮助LLM与人类价值观对齐，促进更符合道德和社会责任的AI系统（Kaufmann等人，2023）。对齐LLMs的第一种方法基于从人类反馈中学习代理奖励模型（Nakano等人，2021；Ouyang等人，2022；Bai等人，2022；Dubois等人，2024；Lin等人，2024a；Chakraborty等人，2024）。这可以视为应用于捕捉一般人群偏好的奖励模型的奖励塑造（Ng等人，1999）。现代对齐技术（Rafailov等人，2024）直接从人类反馈中优化LLM。

除了通用偏好外，一些工作（Jang等人，2023）还研究了LLMs与个性化人类偏好的对齐。这项任务的动机是，即使对于相同的提示，不同的用户也可能希望有不同的输出，个体偏好可以在不同维度上有所不同（Casper等人，2023）。例如，当被问及“LLM是什么？”时，NLP的博士生可能更喜欢详细的技術解释，而非专家可能寻求简化和简洁的定义。Jang等人（2023）将这个问题框架为多目标强化学习（MORL）任务，其中多样化和可能冲突的用户偏好被分解为多个维度，并独立优化。它可以有效地独立训练并结合参数合并后有效地结合。Li等人（2024e）提出了Personalized-RLHF（P-RLHF）框架，其中用户特定模型与语言或奖励模型一起联合学习，以基于个体用户偏好生成个性化响应。该方法包括开发个性化奖励建模（P-RM）和个性化直接偏好优化（P-DPO）目标，在文本摘要数据上进行测试，与非个性化模型相比，显示出与个体用户特定偏好的改善对齐。Park等人（2024a）解决了RLHF中人类偏好的异质性挑战，通过表示学习和聚类以及基于社会选择理论和概率意见汇总的偏好聚合技术，使用个性化奖励模型。Kirk等人（2024）介绍了PRISM对齐项目，这是一个新颖的数据集，将1500名来自75个国家的多样化参与者的社会人口统计和偏好映射到他们与21个LLMs的8000多次实时对话中的反馈。这个数据集旨在通过纳入广泛的人类视角，特别是关于价值驱动和有争议的话题，来增强AI系统的对齐。Lee等人（2024）提出了一种通过系统消息泛化将LLMs与多样化的人类偏好对齐的方法，利用名为Multifaceted Collection的综合数据集训练模型JANUS，有效地适应广泛的个性化用户偏好。Yang等人（2024a）提出了Rewards-in-Context，通过在监督微调期间条件化响应于多个奖励来微调LLMs，实现推理时间的灵活偏好适应。这种方法实现了跨多样化目标的帕累托最优对齐，与传统的MORL方法相比，使用显著较少的计算资源。Poddar等人（2024）提出了变分偏好学习（VPL），这是一种个性化RLHF的技术，通过用户特定的潜在变量模型使AI系统与多样化用户偏好对齐。VPL结合了变分编码器，推断隐藏用户偏好的潜在分布，使模型能够根据用户特定上下文调整其奖励函数并适应策略。在模拟控制任务中，VPL展示了对多样化偏好的有效建模和适应，与标准RLHF方法相比，增强了性能和个性化能力。另一个想法是提供演示作为二元偏好的有效替代，允许用户通过示例完成或编辑直接展示他们期望的行为。这种方法，如DITTO（Shaikh等人，2024）所展示的，使个体偏好与有限的用户输入迅速且精细地对齐，使其成为个性化LLMs的强大工具。

6 个性化LLMs的评估指标分类法

在这一部分中，我们介绍了个性化LLM技术的评估分类法。具体来说，我们将评估分为内在评估（第6.1节）生成的个性化文本或依赖于下游应用（如推荐系统）来展示从个性化LLM生成的文本的实用性的外在评估（第6.2节）。

个性化LLM在下游应用（例如，为特定用户生成个性化电子邮件或由特定用户生成摘要）的性能应使用适当的评估指标来量化。例如，在个性化文本生成的直接评估任务中，必须考虑个性化评估生成文本的多个方面。这些方面在图4和表1中说明。图7说明了相同信息如何以不同的写作风格和语调个性化表达，这些应由所用指标衡量。

定义22（评估指标）。对于任意数据集 D，存在一个子集的评估指标 ψ(D)⊆Ψ可以用于 D，其中 Ψ是所有指标的空间，ψ(D)是适用于数据集 D的指标子集。

更正式地，设 Ei表示内在评估，Ee表示外在评估。设 y^=M(X;θ)表示从数据集 D的输入 X生成的内容，Y表示 D的地面真实输出。类似地，设 r^=F(y^)是基于 y^的下游任务预测，r是下游任务的地面真实输出。

内在评估（第6.1节）：正式地，内在评估指标可以定义为 ψ(D)={Ei∣Ei(y^,Y)}。许多广泛使用的指标属于这一类别，包括BLEU（Papineni等人，2002）、ROUGE-1（Lin & Hovy，2003）、ROUGE-L（Lin & Och，2004）、METEOR（Banerjee & Lavie，2005）、BERTScore（Zhang等人，2019）和Hits@K。BLEU主要用于文本生成任务，如机器翻译。ROUGE-1和ROUGE-L属于ROUGE系列（Lin，2004），最初设计用于摘要评估。ROUGE-1测量预测和参考摘要之间的单词召回率，而ROUGE-L考虑它们之间的最长公共子序列。METEOR最初是为机器翻译评估而开发的，侧重于字符串对齐。BERTScore测量由BERT模型（Devlin等人，2019）生成的上下文嵌入之间的相似性。Hits@K计算测试项出现在前k个返回答案中的百分比。这些指标的分数越高，表示模型性能越好。
外在评估（第6.2节）：外在评估指标可以表示为 ψ(D)={Ee∣Ee(r^,r)}。这些指标用于基于其在下游任务中的有效性来评估生成内容，如推荐或分类。对于推荐任务，常见指标包括召回率、精确度和归一化折扣累积增益（NDCG）。在典型的推荐系统中，个性化LLMs返回前k个项。召回率和精确度评估预测的前k个项是否与预期的前k个项匹配，而NDCG考虑了推荐的排名。对于分类任务，通常使用召回率、精确度、准确率和F1分数等指标来衡量性能。

表4提供了个性化LLMs的评估指标分类法。

6.1 内在评估

当存在地面真实文本数据时，内在评估指标主要用于评估生成内容的质量。在LaMP（Salemi等人，2023）中，使用BLEU、ROUGE-1和ROUGE-L来评估模型在个性化新闻标题生成、个性化学术标题生成、个性化电子邮件主题生成和个性化推文释义等任务上的表现。最近，LongLaMP（Kumar等人，2024）基准测试被提出，用于评估个性化LLM技术在更长形式的个性化文本生成中的表现。类似地，ROUGE-1、ROUGE-L和METEOR指标被用来评估个性化LLMs在（1）个性化摘要生成，（2）个性化主题写作，（3）个性化评论写作和（4）个性化电子邮件写作等任务上的表现。此外，win rate指标（Hu等人，2024）被用来评估个性化响应在医疗援助（Zhang等人，2023b）中的表现，Hits@K被应用于评估对话中个性化响应（Mazaré等人，2018）。Word Mover’s Distance是另一种用于评估个性化评论生成（Li & Tuzhilin，2019）的指标。EGISES（Vansh等人，2023）是第一个明确设计用来评估摘要模型对用户特定偏好的响应性的指标。它通过使用Jensen-Shannon散度来量化预期用户特定摘要与生成摘要之间的偏差，从而衡量模型生成摘要对读者配置文件变化的不敏感程度。这种方法允许EGISES在准确性之外捕捉个性化，为评估摘要模型如何适应个体化偏好建立了一个基线。在EGISES的基础上，PerSEval（Dasgupta等人，2024）引入了一个改进的指标，它不仅评估个性化，还整合了准确性考虑，以更好地反映实际性能。PerSEval通过引入有效DEGRESS惩罚（EDP），对摘要准确性的下降和摘要之间的一致性不一致进行惩罚。这种设计平衡了与用户偏好的对齐和准确性，确保高度的响应性不会掩盖较差的准确性，这是EGISES的一个局限性。

LLMs越来越多地被用作评估者，以减少对人工劳动的依赖。例如，MT-bench和Chatbot Arena（Zheng等人，2023a）使用强大的LLMs作为评估者，直接从LLMs获得答案，以评估这些模型在开放式问题上的表现。然而，关于LLMs作为评估者的可靠性仍然存在疑问。Chiang & Lee（2023）首次将LLM评估定义为向LLMs提供与人类评估者相同的指令和问题，并直接从LLMs获得答案的过程。Judge-Bench（Bavaresco等人，2024）提供了实证研究，比较LLM评估分数与人类判断，得出LLMs尚未准备好完全取代NLP任务中的人类评判者，因为它们的评估性能高度不稳定。EvalGen（Shankar等人，2024）通过允许用户对LLM生成的提示和代码进行评分，将人类偏好纳入其中。这种方法基于用户反馈迭代细化评估标准，帮助验证生成内容的质量。在代码生成的具体情况下，通常使用通过率指标进行自我评估。在个性化背景下，据我们所知，目前仍然缺乏专门为系统评估个性化应用而设计的LLM-as-a-judge框架。开发这样一个框架可能是未来研究的一个有前途的方向。此外，人类评估在这一领域仍然至关重要。方法如人类偏好判断和成对比较通常用于评估生成内容与用户特定要求之间的一致性。尽管LLMs可以协助评估或注释过程（Li等人，2023c），但人类评估仍然是确保个性化输出真正满足用户期望的关键，尽管其实际成本较高。

6.2 外在评估

外在评估指标评估个性化LLMs在下游任务中的质量，如推荐和分类。对于推荐任务，一个常见的例子是top-k推荐，其中个性化LLMs预测要推荐的top-k项。然后将预测的推荐与参考项（地面真实）进行比较。常用的指标包括召回率、精确度和NDCG。召回率衡量从参考集中检索的相关项的百分比，而精确度表示在推荐中正确检索的项的百分比。NDCG评估推荐项的排名与地面真实排名的接近程度。对于其他推荐任务，如评分预测，通常使用均方误差（MSE）、均方根误差（RMSE）和平均绝对误差（MAE）等指标。

在分类任务中，个性化LLMs将输入文本（如个人资料或描述）分类到几个候选类别中，可能涉及二元或多元分类。例如，个性化LLMs可能将患者与合适的临床试验相匹配，其中输入包括患者健康记录和试验描述，输出指示是否匹配（Yuan等人，2023）。在这种情况下，使用召回率、精确度和F1分数等指标来评估匹配的质量。这些指标也类似地应用于其他分类任务，包括实体识别和关系提取（Tang等人，2023）。此外，准确率和微F1分数等指标通常用于评估分类输出的质量。例如，个性化LLMs可能根据其个人资料将电影分类到特定类别（Salemi等人，2023），使用准确率和微F1分数来衡量分类性能。除了提到的任务之外，广泛的个性化任务可能需要其他特定任务的指标进行评估。

7 个性化LLMs的数据集分类法

我们还根据这些数据集是否可以用于直接评估通过某种个性化LLM方法生成的文本，或者生成的文本是否通过下游应用间接评估，对各种任务的数据集进行了分类。直接评估个性化文本生成的数据集相对较少，但至关重要，因为它们允许直接评估个性化文本生成方法，而不是依赖于下游任务的性能。适用于通过下游应用间接评估的个性化数据集更为常见，因为它们不需要用户编写的具体地面真实文本，而是可以利用用户属性和其他互动数据来生成个性化文本，然后使用此文本增强其他任意模型，如推荐方法。这种评估策略使我们能够利用任何通常用于各种个性化任务（如推荐、分类等）的常见数据集。然而，这种方法的批评是，我们只能证明使用文本对下游应用有用，而不能证明文本对用户真正有意义或相关。例如，生成的文本可能是一串随机单词，我们可以从中获得一个嵌入，然后将现有用户嵌入与生成文本的嵌入结合起来，证明使用此额外信息可以提高下游任务的性能。

表5 提供了各种个性化任务及其关键属性的全面总结。对于每个基准数据集，我们指出数据是否经过筛选，只包括具有大量先前活动的用户（例如，至少审查了100个产品的用户，发送了至少100封电子邮件，或至少评价了k部电影），这对于解决冷启动问题相关。我们还总结了数据集是否包含用户编写文本、数值属性（如评分）和其他分类属性，如观看电影的类型。此外，我们注意到数据集是否包括文本描述（例如，电影的描述），这些描述不是用户编写的，但可能仍然有助于个性化LLM技术，尽管它们不是用户特定的。

7.1 包含地面真实文本的个性化数据集

就包含用户编写文本的个性化数据集而言，它们可以用于直接评估通过某种个性化LLM方法生成的文本，而不是依赖于下游任务的性能。表5中个性化文本生成的类别包括短文本生成和长文本生成。例如，长文本生成的评论生成基准包括用户编写的所有评论、每条评论的标题以及每条评论的评分，而大多数表5中的短文本生成数据集主要只包括新闻文章或电子邮件的标题。值得注意的是，输出长度列突出了短文本生成和长文本生成任务之间的区别。特别是，个性化短文本生成数据寻求生成非常短的文本，只有几个单词（例如，9-10个单词），类似于释义和摘要，因为这些数据集中的大多数都寻求生成论文、新闻文章、电子邮件等的标题。相比之下，长文本生成基准测试数据用于评估个性化长文本生成技术，这要复杂得多，因为目标是生成通常有数百或数千个单词的较长文本片段。然而，所有在我们提出的分类法中提出的类别中的数据集，无论是短文本生成还是长文本生成，都可以用于直接评估生成的文本，以及使用提供的用户特定文本进行训练或微调LLMs。

7.2 不包含地面真实文本的个性化数据集

适用于通过下游应用间接评估生成文本的个性化数据集更为常见，因为它们不需要个别用户编写的具体地面真实文本集，而是可以利用用户属性和其他互动数据来生成个性化文本，然后使用此文本增强其他任意模型，如推荐方法。这种评估策略使我们能够利用任何通常用于各种个性化任务（如推荐、分类等）的常见数据集。然而，这种方法的批评是，我们只能证明使用文本对下游应用有用，而不能证明文本对用户真正有意义或相关。例如，生成的文本可能是一串随机单词，我们可以从中获得一个嵌入，然后将现有用户嵌入与生成文本的嵌入结合起来，证明使用此额外信息可以提高下游任务的性能。

此外，我们强调了一些数据集，尽管它们最初不是为个性化任务设计的，但包含了丰富的用户特定信息和用户生成文本，使它们适合于下游个性化任务。值得注意的例子包括PRISM对齐数据集（Kirk等人，2024），它将来自不同参与者的调查响应和人口统计信息与他们与各种LLMs的互动联系起来，以及Empathic Conversations数据集（Omitaomu等人，2022），它包括丰富的多轮对话，附有详细的人口统计和个性资料，对话前后的数据，以及逐轮注释。这些数据集对于个性化QA、对话生成、同理心感知响应和语言模型中的用户特定情感建模等任务非常有价值。

8 个性化LLMs的应用

在这一部分中，我们探讨了个性化LLMs显示出显著潜力以增强用户体验和改善结果的各种用例。

8.1 个性化AI助手

8.1.1 教育

个性化LLMs在促进个性化教育体验方面显示出有希望的潜力，无论是对学生还是教师（Gonzalez等人，2023；Wang等人，2024b；Jeon & Lee，2023；Huber等人，2024；Wang & Demszky，2023；Joshi等人，2023；Yan等人，2024b；Leong等人，2024），并且越来越多的工作（Sharma等人，2023；Elkins等人，2023；Ochieng，2023；Olga等人，2023；Phung等人，2023）提出了这样的想法。例如，它们可以分析学生的写作和回应，提供量身定制的反馈，并建议与学生的特定学习需求一致的材料（Kasneci等人，2023）。EduChat（Dan等人，2023）通过在教育语料库上进行预训练，并通过指令调整刺激各种技能，使用工具使用和检索模块，为教育应用量身定制LLMs。它为苏格拉底式教学、情感咨询和论文评估等任务提供定制支持。Tu等人（2023）使用ChatGPT创建用于教授社交媒体素养的教育聊天机器人，并研究ChatGPT追求多个相互关联的学习目标的能力，适应用户特征（如文化、年龄和教育水平）的教育活动，并采用多样化的教育策略和对话风格。尽管ChatGPT显示出一定的能力，根据用户特征适应教育活动，并采用多样化的教育策略，但该研究确定了挑战，例如有限的对话历史、高度结构化的回应以及ChatGPT输出的可变性，这有时可能导致聊天机器人角色从教师意外转变为治疗师。Park等人（2024b）提出了一个个性化辅导系统，该系统利用LLMs和认知诊断建模为英语写作概念提供量身定制的指导。该系统结合了学生评估，涵盖认知状态、情感状态和学习风格，以通知通过提示工程实施的适应性练习选择和个性化辅导策略。尽管他们提出的系统在适应个别学生方面显示出潜力，但作者确定了将评估转化为有效策略和维持参与度的挑战，指出了LLM基础个性化教育中的进一步研究领域。总体而言，个性化LLMs在教育中的挑战包括版权和剽窃问题、模型输出中的偏见、学生和教师的过度依赖、数据隐私和安全问题、开发适当的用户界面，以及确保跨语言和社会经济背景的公平获取（Kasneci等人，2023）。

8.1.2 医疗保健

LLMs在各种医疗保健相关任务中表现出显著的熟练度（Liu等人，2023e；Wang等人，2023b；Liu等人，2023h；Yang等人，2024b），为它们潜在地整合到个性化健康援助中铺平了道路。Belyaeva等人（2023）介绍了HeLM，这是一个框架，使LLMs能够利用个体特定的多模态健康数据进行个性化疾病风险预测。HeLM使用单独的编码器将非文本数据模态（如表格临床特征和高维肺功能测量）映射到LLM的标记嵌入空间，允许模型一起处理多模态输入。Abbasian等人（2023）介绍了openCHA，这是一个基于LLM的强大框架，用于会话健康代理，通过整合外部数据源、知识库和分析工具，实现个性化医疗保健响应。该框架具有协调器，用于规划和执行信息收集行动，并结合多模态和多语言功能。在openCHA的基础上，Abbasian等人（2024）整合了特定的糖尿病相关知识，以增强领域内下游任务的性能。Zhang等人（2024a）介绍了MaLP，这是一个新颖的框架，用于个性化LLMs作为医疗助手。该方法结合了受人类记忆过程启发的双过程增强记忆（DPeM）机制和PEFT，以提高LLMs提供个性化响应的能力，同时保持低资源消耗。Jin等人（2024b）提出了一个基于Health-LLM的管道，使用RAG提供个性化的疾病预测和健康建议。该系统使用上下文学习从患者健康报告中提取特征，使用医学知识为这些特征分配分数，然后使用XGBoost进行最终疾病预测。

8.1.3 其他领域

除了个性化LLMs已经被广泛使用的两个领域之外，这一部分探讨了具有较少关注但对应用个性化LLMs具有显著潜力的领域。在这些领域中，专门的LLMs或代理框架正在出现，但它们通常缺乏对个性化方面的关注——这是可以大大增强用户体验的一个方面。

金融：除了LLMs在金融领域的一般进步（Araci，2019；Wu等人，2023b），个性化LLMs在提供量身定制的金融建议方面显示出显著潜力，超越了一般的投资建议。例如，Liu等人（2023d）介绍了FinGPT，这是一个提供个性化金融建议的模型，考虑了个人用户偏好，如风险承受能力和财务目标。此外，Lakkaraju等人（2023）通过提出13个与个人财务决策相关的问题，评估了LLMs作为金融顾问的性能。该研究强调，尽管这些基于LLM的聊天机器人生成流畅且看似合理的回应，但它们仍然面临关键挑战，包括执行数值推理的困难、缺乏视觉辅助、对多样化语言的支持有限，以及需要在更广泛的用户背景范围内进行评估。未来在金融领域应用个性化LLMs的应用可能包括一系列专门服务。这些可能包括个性化财富管理策略，LLMs提供动态建议，涉及资产分配和退休规划；量身定制的风险评估工具，提供定制的风险概况和实时监控；以及税务优化策略，帮助个人和企业最小化税务负担。此外，LLMs可以部署在个性化的保险解决方案、信用管理（包括定制的贷款建议和信用评分优化）以及适应个人财务习惯和目标的支出和预算工具中。这些应用可以显著增强个性化LLMs在金融部门的相关性和实用性。

法律：越来越多的LLMs（Nguyen，2023；Huang等人，2023c；Cui等人，2023）已经为法律应用专门开发，在这些模型中，这些模型已被证明在协助法官进行决策、简化司法程序和提高整体司法效率方面非常有用（Lai等人，2023；Trautmann等人，2022；Blair-Stanek等人，2023；Yu等人，2022；Nay，2023；Fei等人，2024）。DISC-LawLLM（Yue等人，2023）使用法律三段论提示策略对LLMs进行微调，并通过检索模块增强它们，提供广泛的法律服务，可能利用个人历史数据。He等人（2024b）介绍了SimuCourt，这是一个司法基准测试，包含420个真实世界的中国法院案例，用于评估AI代理的司法分析和决策能力。SimuCourt整合了AgentsCourt，这是一个新颖的多代理框架，模拟法庭辩论，检索法律信息，并使用LLMs完善判决。这个框架允许将不同的角色整合到各种代理中，使个性化互动贯穿整个法律过程。展望未来，我们预计个性化LLMs将显著协助法律专业人士，满足他们的特定需求：对于律师，个性化LLMs可以用于个性化案例分析，它们分析法律案例，考虑到律师过去的案例、偏好和典型策略。这可以导致更有效的论点制定和策略制定，以适应律师的风格。此外，个性化LLMs可以增强客户互动，通过适应每个客户的独特需求来调整沟通风格、内容和语言。这不仅提高了客户满意度，还有助于维护长期的客户关系。此外，LLMs可以帮助起草法律文件，如合同和协议，通过整合特定条款、语言和律师或其公司偏好的法律标准。对于法官，个性化LLMs可以支持他们的案件管理，确保一致和公平的裁决。具体来说，它们可以生成突出最相关细节的个性化案件摘要，基于法官过去的裁决和关注领域，如法定解释或案例法先例。此外，个性化LLMs可以提供与法官的法律原则和先前决定一致的定制裁决建议，促进司法结果的一致性。对于客户，个性化LLMs可以使法律服务更容易获得并针对个人需求进行定制。这些模型可以通过分析客户的特定情况、法律历史和目标，提供个性化法律咨询，提供既相关又易于理解的建议。个性化LLMs还可以为客户定期更新他们的案件，提供清晰的解释和进度报告，使他们了解并参与法律过程。总之，个性化LLMs有潜力通过为不同角色提供定制支持，转变法律领域，提高效率、准确性和客户满意度。

编码：随着LLMs的不断进步，特别是那些在特定于代码的数据集上进行微调的模型（Roziere等人，2023；Chen等人，2021），它们生成高质量代码的能力已经显著提高。这激发了越来越多的AI驱动的助手的发展，旨在增强程序员的编码体验（Zhang等人，2024b；Wang等人，2024d；c；Xia等人，2024）。然而，这些应用通常忽略了个性化这一关键方面。对于个性化代码生成，Dai等人（2024）提出了MPCODER，这是一种新颖的方法，用于为多个用户生成与他们个人编码风格一致的个性化代码。这种方法使用显式编码风格残差学习来捕获语法标准和隐式风格学习来捕获语义约定，以及一个多用户风格适配器，通过对比学习来区分用户。作者引入了一个新的评估指标，称为编码风格得分，以定量评估编码风格的相似性。个性化在编码协助中的实现可以通过多种方式实现。首先，程序员和团队通常有独特的编码风格。例如，中学生可能更喜欢易于理解且注释良好的代码，而在科技公司的软件工程师可能更重视性能、可扩展性，并严格遵守行业标准。个性化LLM可以从用户随时间的行为中学习，并调整其建议以匹配用户的技能水平、首选框架和常用编码模式，这将显著增强其实用性。其次，基于上下文的调试是个性化可以产生实质性影响的另一个领域。个性化LLMs可以基于程序员典型的错误和首选调试策略提供定制的调试协助。第三，执行与团队标准一致的代码指南，如命名约定、架构模式和工具集成至关重要，在协作环境中尤其如此。这确保了代码库的一致性和可维护性，这在专业环境中尤其关键。最后，个性化LLMs可以大大改善协作和代码审查流程，通过考虑个人和团队偏好提出建议。实现这种级别的个性化需要先进的技术，如RAG或在用户特定数据上进行微调，使模型适应不同程序员的独特需求和偏好。这代表了未来研究和开发AI驱动编码助手的有前途的方向。

8.2 推荐

个性化LLMs已经在各种推荐任务中得到广泛应用，包括直接推荐、顺序推荐、对话推荐、可解释推荐、评分预测和排名预测（Dai等人，2023；Du等人，2024；Hou等人，2024；Liu等人，2023a；2024c；Ji等人，2024b）。这些应用旨在增强电子商务等推荐领域的用户体验（Tan & Jiang，2023；Chen等人，2024c）。根据Wu等人（2023a），将LLMs整合到推荐系统中可以分为三种主要方法：（1）通过LLM嵌入增强传统推荐系统，如协同过滤（Schafer等人，2007；Resnick等人，1994）；（2）通过使用LLM生成的输出作为特征来丰富传统推荐系统；以及（3）直接将LLMs作为下游推荐任务中的推荐器。这三种方法都可以从第5节中讨论的个性化技术中受益。为了使用个性化的LLMs增强传统推荐系统，PALR（Yang等人，2023）利用LLMs生成自然语言用户档案，检索相关项目候选，并使用微调的LLM对项目进行排名和推荐。Chat-Rec通过使用LLMs提高传统推荐系统的互动性和可解释性。它将用户档案和历史互动转换为提示，允许LLMs通过上下文学习了解用户偏好，并生成更个性化的推荐。对于直接将个性化的LLMs作为推荐器的用途，InstructRec（Zhang等人，2023a）将推荐任务框架为LLMs的指令遵循任务。它设计了一个灵活的指令格式，结合了用户偏好、意图和任务形式，并生成了一个大型的个性化指令数据集，以微调用于推荐任务的LLM。同样，GeneRec（Wang等人，2023a）利用LLMs基于用户指令和反馈进行个性化内容创建，旨在补充传统的基于检索的推荐系统。尽管个性化LLMs在推荐系统中得到了广泛的应用，并在少样本和零样本设置中表现出卓越的性能，并具有增强的可解释性，解决了冷启动问题（Liu等人，2023a；Dai等人，2023；Hou等人，2024），但仍然存在重大挑战，包括对隐私、成本和大规模部署的延迟的担忧，突显了持续研究和创新的需要。

8.3 搜索

最近，随着它们在摘要和指令遵循方面的能力不断增强，LLMs已经被整合到搜索引擎中（如新的Bing（Microsoft，2023）和SearchGPT（OpenAI，2024）），这可以提供一个引人入胜的对话过程，帮助用户更有效地找到信息（Spatharioti等人，2023；Joko等人，2024）。整合个性化可以进一步根据个别用户的搜索历史、兴趣和上下文定制结果，这可以导致更相关和高效的搜索体验（Bennett等人，2012；Harvey等人，2013；Cai等人，2014；Song等人，2014；Vu等人，2014；2015；Zhou等人，2021）。大量工作（Dou等人，2007；Sieg等人，2007；Carman等人，2010；Teevan等人，2011；White等人，2013）在LLMs出现之前专注于如何更好地个性化搜索引擎。在LLMs时代，Zhou等人（2024b）提出了认知个性化搜索（CoPS），这是一种结合了LLMs和受人类认知启发的认知记忆机制的个性化搜索模型。CoPS利用感觉、工作和长期记忆组件有效地处理用户互动，并在不需要训练数据的情况下改善搜索个性化。此外，Jiang等人（2024）介绍了协作STORM，这是一个通过让用户参与多轮搜索会话并整合他们的互动历史来个性化搜索体验的系统。然而，尽管LLM增强的搜索引擎取得了进步，但仍有一些挑战需要解决。特别是，Sharma等人（2024）发现，LLM驱动的搜索用户比传统网络搜索用户表现出更偏见的信息查询和意见极化，尤其是当LLM加强现有观点时。这种现象，被称为“回音室”效应（Pariser，2011；Sharma等人，2024；Lazovich，2023；Garimella等人，2018），强调了在个性化与需要多样化和客观信息检索之间平衡的挑战。

9 未解决的问题和挑战

尽管在个性化LLMs的应用方面取得了显著进展，但仍有许多未解决的挑战和开放的研究问题。在这一部分中，我们探讨了需要进一步调查和创新的关键问题，以推进该领域。这些挑战涉及个性化的各个方面，包括开发可靠的基准和评估指标、解决持续的冷启动问题、解决个性化模型中的刻板印象和偏见问题、确保用户特定数据处理中的隐私，以及将个性化扩展到多模态系统。每个领域都提出了独特的挑战，必须克服这些挑战才能实现更健壮、公平和有效的个性化LLMs。

9.1 基准和指标

有效的基准，结合全面的指标，对于评估LLMs的各种方面至关重要，包括它们生成个性化输出的能力。然而，现有的个性化基准主要来自推荐系统，其中重点主要放在最终预测上，如评分、推荐项目或排名。这些基准通常忽略了LLMs输出生成中的中间过程，这对于评估输出是否真正个性化至关重要。LaMP（Salemi等人，2023）是少数专门针对评估LLMs生成个性化输出的基准之一。然而，LaMP的范围仅限于文本分类和短单轮文本生成任务。它缺乏真实世界互动的复杂性，这对于个性化AI助手等应用至关重要。这一差距突显了需要新的基准，以在更真实的场景中评估LLMs的个性化输出生成。这些基准还应将个性化视角整合到LLMs的其他关键能力中，包括推理、规划、指令遵循和长上下文理解，从而提供更全面的评估。此外，目前还没有全面的定量指标来评估LLM生成输出中的个性化程度。大多数现有指标是特定于任务的，并且严重依赖于下游任务公式和地面真实标签的质量。因此，它们通常无法捕捉个性化的多样化维度，如图4所示。最近使用LLMs作为评估器的趋势，由于它们的多功能性，为个性化评估提供了一个有前途的方法。设计一个具有个性化标准评分的LLM-as-a-Judge框架，可以提供对LLM输出中个性化程度的更细致的评估。然而，这种方法仍然未被充分探索，需要解决不稳定性和潜在偏见等挑战，使其成为一个可靠的评估方法。

9.2 冷启动问题

冷启动问题是在推荐系统中普遍且具有挑战性的问题，系统必须为尚未被数据集中任何用户评分的项目生成推荐，或者当关于用户偏好的信息很少时（Schein等人，2002；Guo，1997）。以前，大量方法（Lam等人，2008；Li等人，2019；Park & Chu，2009；Lee等人，2019；Wei等人，2017）已被提出以解决传统推荐系统中的此类问题。尽管LLMs通过上下文学习和指令提示的角色扮演展示了强大的少样本能力，但在通过微调有效适应稀疏用户特定数据的个性化LLMs方面仍然存在重大挑战。这个问题进一步复杂化，因为许多下游数据集被预处理以排除有限用户互动历史的实例——通常过滤掉记录少于五次互动的数据点。因此，个性化LLMs在处理低资源场景的潜力相对未被充分探索，需要更先进的技术来改善它们对稀疏数据设置的适应。Persona-DB（Sun等人，2024）通过分层构建过程更有效地解决冷启动问题，该过程从有限的用户数据中提取抽象的、可概括的人物，然后是协作细化阶段，利用用户之间的相似性来填补知识空白，允许系统从互动历史更丰富的用户那里提取相关见解，以个性化新用户或不频繁用户。鉴于个性化LLMs的有限数量的工作，我们提出了两个潜在的研究方向：（1）基于Persona-DB范式，通过提示和抽象的阶段逐步提炼和概括用户人物，可能改善跨多样化应用的个性化。（2）利用合成数据生成，这已在增强各种LLM能力方面显示出希望（Chan等人，2024；Zhang等人，2024c；Tong等人，2024）。LLMs可以用来从稀疏的种子数据生成大规模的用户特定数据。然而，确保数据的多样性和在规模上保持高质量仍然是这种方法的关键障碍。

9.3 个性化中的刻板印象和偏见问题

LLMs的个性化引入了关于放大和持续刻板印象和偏见的重大关切（Zhang等人，2023d；Ziems等人，2024；Gallegos等人，2024；Li等人，2023e）。当LLMs生成个性化输出时，它们依赖于可能固有包含与性别、种族、民族、文化和其他敏感属性相关的社会偏见的数据。个性化可能会无意中通过定制与模型训练的数据或提示中包含的有偏见数据一致的内容来加强这些偏见，从而加剧问题。例如，最近的研究（Gupta等人，2023；Deshpande等人，2023；Cheng等人，2023a；Wan等人，2023）表明，为LLMs分配特定人物，如“残疾人”，可以意外地改变它们在包括与分配身份看似无关的任务（如一般知识或数学推理）中的表现。此外，个性化系统创建的反馈循环可以进一步固化偏见。随着LLMs继续根据用户互动进行调整，它们可能会迎合现有的偏好和观点，减少接触多样化或纠正性观点的机会。这可能导致回音室效应的加深，用户反复接触有偏见或刻板印象的信息，而没有纠正的机会。尽管越来越多的努力致力于减轻LLMs中的偏见（Lu等人，2020；Han等人，2021；Ghanbarzadeh等人，2023；Zhang等人，2023d），但关于个性化如何与这些偏见相交的研究有限。He等人（2024a）介绍了上下文引导（CoS），这是一种无需训练的方法，通过在推理时量化和调节上下文信息对模型输出的影响来增强个性化并减轻LLMs中的偏见。CoS通过计算有无上下文的模型之间的标记预测可能性差异，然后使用这种差异在生成过程中调整上下文的影响。Vijjini等人（2024）介绍了LLMs中的个性化偏见概念，即LLM性能根据交互过程中提供的用户人口统计身份而变化。它提出了一个框架来评估和量化这种偏见，通过测量不同用户身份的安全性-效用权衡，使用广泛使用的数据集。该研究展示了在开源和闭源LLMs中普遍存在个性化偏见，并且尽管它探索了偏好调整和基于提示的防御等缓解策略，但它得出结论，完全消除这种偏见仍然是一个开放的挑战，突显了需要在这一领域进行进一步研究。总体而言，设计积极考虑公平性和包容性的个性化系统至关重要，确保个性化输出不加强有害的刻板印象或持续有偏见的观点。未来的工作应该探索在个性化过程中检测偏见的技术，在个性化管道中纳入公平性约束，并确保在用户特定输出中代表多样化观点。解决这些挑战将需要仔细考虑个性化与公平性之间的权衡，以及开发强大的评估框架，不仅衡量个性化的程度，还衡量对偏见和刻板印象传播的影响。最终，确保个性化LLMs促进包容性和公平性对于构建对所有用户都有社会责任感和有益的系统至关重要。

9.4 隐私问题

隐私，特别是关于个人身份信息（PII），是LLM个性化应用中的关键关切，其中个性化和隐私的目标经常发生冲突。当前的LLMs容易受到隐私泄露的影响，因为它们可以准确地从非结构化文本中推断个人属性（例如，位置、收入、性别），即使采用了常见的缓解措施，如文本匿名化和模型对齐（Staab等人，2023）。此外，对抗性攻击，如提示注入（Liu等人，2023f；Zhan等人，2024；Ning等人，2024a）和越狱（Xu等人，2024b；Wei等人，2024a），可能导致LLMs生成不适当的内容或泄露其训练数据中的敏感信息。尽管越来越多的研究关注解决LLMs中的隐私泄露问题（Behnia等人，2022；Lukas等人，2023；Chen等人，2023b；Yao等人，2024；Yan等人，2024a；Kuang等人，2024；Feng等人，2024），但专门针对个性化和隐私交叉点的工作有限（Zhao等人，2024a）。为了应对这一差距，至关重要的是正式定义个性化和隐私之间的界限，这可能因任务而异，并且对不同用户来说可能是主观的。此外，设计专门的模块以防止在LLM个性化的各个阶段（如数据处理、模型训练和检索过程）发生明确和隐含的隐私泄露至关重要。理想的解决方案将允许灵活调整，实现个性化程度和隐私保护之间的平衡权衡，根据个别用户偏好和特定应用上下文量身定制。

9.5 多模态

个性化大型多模态模型（LMMs）特别复杂，因为它们处理的数据多样性，如文本、图像、音频和视频。这些模型旨在处理多种输入类型，并以有意义的方式融合它们，以改善各种领域的任务性能。然而，在这种背景下个性化引入了独特的挑战，因为它必须同时考虑跨多种模态的个体用户偏好或特征。在个性化多模态模型中，关键挑战在于有效地整合用户特定数据（如偏好或互动历史），以调节模型的响应，使其在上下文上适当。这些用户特定数据点可能来自不同的模态。例如，在个性化的图像生成任务中，模型必须能够生成与用户特定视觉偏好一致的图像，同时理解相关的文本或听觉线索。最近的工作，如统一多模态个性化（Wei等人，2024b），展示了如何适应跨多个任务和模态的LMMs的个性化。这个框架统一了偏好预测、解释生成和图像生成等任务的个性化，利用多模态学习的优势，根据文本、图像和可能的其他输入类型的组合预测用户特定的结果。另一个值得注意的例子是针对文本到图像模型的多主题个性化的作品（Jang等人，2024），它专注于个性化生成的图像，以代表单个图像中多个主题的用户偏好。类似地，已经提出了个性化的多模态生成模型（Shen等人，2024）来处理多种模态，通过将用户行为数据转换为自然语言以进行进一步的个性化，扩展了LLMs在多模态场景中的实用性。个性化的多模态模型还提出了显著的计算挑战。融合模态需要更复杂的架构，能够联合学习多个数据流，而不牺牲个性化的保真度。例如，将视觉嵌入插入传统的推荐系统和个性化的图像生成模型利用LMMs来增强个性化过程，通过嵌入来自文本和视觉输入的用户偏好。为了进一步推动多模态个性化的边界，将模态如视频或音频整合到以用户为中心的应用中，如推荐系统和内容生成，提出了另一层复杂性。处理模态之间的同步、确保一致的用户表示以及在动态内容中平衡个性化仍然是开放的挑战。

10 结论

本调查提供了对快速发展的个性化LLMs领域的统一和全面的视角。它弥合了两个主要研究方向之间的差距——直接个性化文本生成和利用个性化LLMs进行下游应用——通过提出个性化LLM使用的新型分类法，并形式化它们的理论基础。对个性化粒度的深入分析突出了用户级、人物级和全局偏好对齐方法之间的权衡，为未来可以动态适应用户需求和数据可用性的混合系统奠定了基础。此外，本调查对个性化LLMs的技术进行了详细审查，揭示了每种方法的优势和局限性。我们探讨了检索增强生成的各种提示策略、有监督的微调方法、嵌入学习方法以及通过RLHF从个性化反馈中学习的不断发展的领域，强调了需要更健壮和细致的方法。最后，我们对评估方法和数据集的全面调查突出了为评估个性化LLM输出而专门设计的新基准和指标的关键需求。尽管在个性化LLMs方面取得了显著进展，但仍有许多挑战和开放问题。未来研究的关键领域包括解决低资源场景中的冷启动问题、减轻个性化输出中的刻板印象和偏见、确保个性化管道中的用户隐私，以及将个性化扩展到多模态系统。个性化LLMs领域正在迅速发展，有潜力彻底改变多样化领域中的人-AI互动。通过理解本调查中概述的基础、技术和挑战，研究人员和实践者可以为开发更有效、公平和社会负责任的个性化LLMs做出贡献，以满足多样化用户需求和偏好。

作者：张长旺，图源：旺知识

参考资料

标题：Personalization of Large Language Models: A Survey

作者：Zhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

单位：Dartmouth College, Adobe Research, Stanford University, University of Massachusetts Amherst, Pattern Data, Vanderbilt University, Dolby Research, University of California San Diego, Cisco Research, University of Oregon

标签：#LargeLanguageModels #Personalization #NaturalLanguageProcessing #AI #MachineLearning

概述：本文全面调查了大型语言模型（LLMs）的个性化方法，提出了一个系统分类法来组织不同的个性化技术，并探讨了个性化LLMs在多个领域的应用。文章还详细讨论了个性化技术的挑战，包括数据隐私、模型偏见和冷启动问题，并提出了未来研究的方向。

链接：https://arxiv.org/pdf/2411.00027

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验