摘要
大规模预训练模型,也被称为“基座模型”或“大模型”,目前被认为是通用人工智能技术的核心引擎,已经成为了全球科技竞争焦点。
本文归纳总结了以聊天生成预训练转换器(ChatGenerative Pre-trained Transformer,ChatGPT)为代表的生成式大模型技术研究现状和发展趋势,从大模型基座、大模型人类偏好对齐、大模型推理与评价、多模态大模型、大模型安全可控五个方面讨论了当前大模型研究的现状和挑战,并结合我国人工智能研究特点,简要分析了大模型未来的重点发展方向。
1 大模型技术及研究进展
1.1 大模型基座
2020年 OpenAI首次提出“规模定律”,指出模型的性能随着参数量、数据量、训练时长的指数级增加而呈现出线性提升,并且该提升对架构和优化超参数的依赖性非常弱。从此研究人员逐步转移研究重心至大语言模型基座,并开展了大量相关研究。
GPT 系列模型的发展标志着大型预训练语言模型时代的到来。除了 GPT 系列模型,谷歌、Meta等公司同样开始不断发布百亿到千亿的大型语言模型, 例如 Gopher、Chinchilla、PaLM,但是这些模型都不开源。
当前代表性的开源大模型有 Meta的 OPT、 LLaMA-2以及国内的 GLM-130B、ChatGLM2。发展示意图如图1所示:
在模型架构方面,国内外的大模型普遍为 Transformer架构。模型的基座设计大体上可以分为以下三种:
(1)仅包含解码器(Decoder-only),即自回归(Autoregressive)模型。 代表模型是 GPT和 LLaMA,其训练目标是从左到右的文本生成,常用于无条件长文本生成,如对话生成、故事生成等; (2)仅包含编码器 (Encoder-only),即自编码(Autoencoder)模型。 代表模型是 BERT、ALBERT、DeBERTa,自编码模型是通过去噪任务(如利用掩码语言模型)学习双向的上下文编码器,训练目标是对文本进行随机掩码,然后预测被掩码的词,常用于自然语言理解,如事实推断、语法分析、文本分类等; (3)编码器—解码器(EncoderDecoder),即完整的Transformer结构。 代表模型是T5和 BART,包含一个编码器和一个解码器,接受一段文本,从左到右地生成另一段文本,常用于有条件的生成任务,如机器翻译、摘要生成、事实性对话等。考虑到训练效率、推理需求和下游实际应用任务,大模型通常采用仅包含解码器的架构,通过自回归预训练高效地生成优质内容。
在训练数据上,我国开放给大模型的数据集主要是中文语料库,但在数据量、内容多样性和质量方面,仍有进一步提升的空间。
截至目前,常见的开源预训练数据集有:GLM系列的悟道数据集,CLUE 社区的开源中文数据集 CLUE Corpus 2020,里屋社区的开源数据集MNBVC。
国外开源数据集数量更多且内容较丰富。例如,PB 级的 CommonCrawl的网页数据、1.6TB 多语数据集 ROOTS、825G的数据集ThePile等。
1.2 大模型人类偏好对齐
大模型在预训练阶段的主要任务是将世界知识融入模型中,是模型学习知识的过程。对齐大模型与人类偏好的目标是激发模型理解、适应人类意愿和解决问题的能力,强调的是使模型能够有效地应 用预训练阶段获取的知识,从而使其具有多样化的能力,能够解决各种问题。另一方面,大模型在训练 阶段可能会学习到数据中的偏见和歧视性信息,导 致模型的行为表现出预期外的特征。为了纠正模型 的表现,使模型反映出人类的价值观,避免出现不可预测的输出,需要实现大模型与人类偏好的对齐。
目前主要通过两种方法实现:有监督微调和人类反馈的强化学习算法 (RLHF),如图2所示:
有监督微调(SFT)是主要的大模型人类偏好对齐方法。该过程利用人类偏好一致的指令数据来训练大模型。
尽管大语言模型在多种任务中表现出强大的能力,但它们也存在生成“幻觉”内容的倾向,生成与用户输入、之前的上下文或者已知的世界知识不一致的内容。这一挑战对大模型在实际应用中的可靠性 构成威胁。幻觉问题不是新现象,最初在机器翻译系统中已被提出。但在大模型环境下,这个问题变得更为复杂。幻觉不仅对用户信任造成破坏,还 能通过简单的搜索轻易地被触发。为减少幻觉的出现,研究人员已经采用了包括数据增强和动态系统在内的多种方法,尝试降低大模型幻觉内容生成的频率。
大模型具有强大的通用性,但往往缺乏特定领域的专业知识。
为解决这些问题,已有研究提出结合内外部知识,利用模型自身的通用能力从外部知 识库中检索相关信息,同时提供完整的检索路径以 增加可解释性。另一方面,在执行复杂任务时, 可以通过工具调用、链式思维、搜索决策树等方式增强模型的规划和推理能力。这些方法不仅提高 了大模型在特定任务中的表现,也为其在实际应用 中的可靠性和可解释性提供了有力支持。
1.3 大模型推理与评价
在大模型的实际应用场景中,推理效率和生成质是两个关键的维度。
一方面,大模型的高效推理是实现工程应用的关键技术。和训练环节相比, 推理环节在计算精度、算力消耗量等方面的要求较 低,但依然依赖于高性能的 GPU 显卡。此外,显存 瓶颈、通信延迟和硬件内存带宽约束仍然限制着模 型的推理效率。 另一方面,模型训练阶段常用模型 损失作为评价模型性能好坏的基准。然而,这种单 一维度的评价方法在实际应用中往往无法全面反映 模型在多维度任务性能上的优劣,因此需要对模型 的评价进行更加精细的设置。
在大模型推理加速方面:
一种有效的策略是对模型框架和运算进行优化。 另一种策略是采用模型压缩技术。
在大模型评价方面,目前主要分为人工评价与自动评价两种方式。
自动评价
作为一种普遍且广泛应用的评估机制,一般依赖于预定的标准化指标和工具来评估模型的性能。
人工评价
通过人类专家的参与评价模型生成结果的质量和准确性。与自动评价相比,人工评价更接近实际应用场 景,可以提供更全面和准确的反馈,但仍然存在主观性、差异性和不稳定性等问题。
在实际应用中,具体使用哪种评价方式需要根据具体的使用场景进行综 合考量。
1.4 多模态大模型
多模态大模型(Multimodal Large Models)通过 整合多种类型的数据(如文本、图像、音频等),提升 机器理解和生成复杂内容的能力。
早期的多模态模 型通常需要在特定数据集上微调才能胜任相关的任 务,如图文检索双塔模型 (CLIP)和 图文生成模型(Oscar)等。
当前的多模态大模型具有更强的通用问题求解能力,主要分为以下三种:
1、将大语言模型作为中央处理器来执行多模态任务,通过调用其他功能模块来实现任务目标。 2、直接通过图像和文本信息训练多模态大模型。 3、如图3所示,结合跨模态编码器等结构与大语言模型,能进一步发掘大模型的推理检索能力和存储的知识库信息。
1.5 大模型安全可控
大模型安全可控主要集中于大模型的训练和推理两方面。针对训练阶段的可控研究主要通过对预 训练语言模型进行网络重构、修改训练任务或增加 微调任务以实现有约束的生成过程。
早期研究在预训练文本序列首部添加多种表征文本信息的特殊符号以实现可控生成过程。另有研究者不限于知识符号,而是基于多个人类评价维度(如有效性、安全性)对模型进行可控微调。近期一些研究使用基于人类反馈的强化学习策略推进大模型的自主可控性,通过使用奖励模型学习人类评价模式,进而对大模型进行自动微调。针对推理阶段,典型研究通过在推理过程中增加约束信息或是直接针对模型输入输出增加控制模块以有效实现有约束的生成过程。近期,通过在输入中增加显示或隐式控制信息作为 Prompt的做法同样取得了较好的效果。
在大模型安全性方面,生成式大模型面临着包括模型窃取、数据窃取、对抗攻击、后门攻击、Prompt攻击和数据投毒等多方面威胁。
模型窃取方面:
近期研究发现可通过本地模型访问 OpenAI 的 API部分窃取现有大模型在特定任务上的性能。
数据窃取方面;
存在一种差分隐私训练策略避免使用者进行大模型的数据窃取。
对抗攻击方面;
研究发现大模型对于对抗性文本和分布外文本 的抵御效果优于传统模型,但依然存在鲁棒性不足 的问题。
后门攻击方面:
研究发现通过在人 类反馈强化学习的奖励模型训练阶段增加后门, 可以通过后门触发文本控制模型输出;另外,可通过 大模型产生包含后门触发器的训练数据,从而对 其他模型植入后门。
在 Prompt攻击方面;
有研究者设计了一套通过大模型生成恶意 Prompt的攻击 流程,可达到绕过大模型安全限制、下游应用Prompt窃取等恶意攻击目的。
在数据投毒方面:
可以借助大模型实现指令微调数据的自动投毒,从而 操纵或毒害其他模型。
2 大模型领域未来重点发展方向
大模型需要多方合作发展,包括产、学、研、用、 资、政等多个领域,对提升我国科技核心竞争力具有 关键性作用。
在此,我们选取除了算力以外我国大 模型发展的三个具有代表性方向进行讨论。
2.1 自然语言引领大模型基础通用理论
大模型随着模型参数和训练数据的增加,由量变到质变,涌现出通用智能的能力,使人类真正从信息社会进入智能社会。自然语言在大模型中发挥着重要的引领作用,自然语言是传递和表达语义认知和知识的最重要方式,通过处理自然语言数据,大模型可以学习到丰富的语义表示和世界知识。
本方向主要包括:
(1)下一代大模型基础架构。
利用丰富的外部知识,建立数据与知识双轮驱动研究新范式。以中文为核心、以通用人工智能为目标,设计更加高效、准确、可扩展的新一代语言模型,并以此为基础搭建 新一代人工智能理论框架体系。
(2)大模型可解释性和模型机理。
目标在于突破“黑箱”问题的束缚,实现大模型行为的动态追踪、知识提取过程的深度分析以及决策过程的人类干 预,从而提升模型可解释性,建立可解释、鲁棒的人工智能理论和方法。同时深入剖析大规模预训练语言模型的实现机理,以揭示涌现现象背后的科学原理,完善理论体系。
(3)大模型的持续学习与演化能力。
研究增量学习技术和动态知识库,使模型能够持续适应新数据、更新知识与表达,并通过强化学习技术使模型能够根据环境反馈进行自我改进。探索通用人工智能 驱动的智能算法,从而实现模型自主学习与人机协同学习的持续演化。
2.2 多模态大模型智能交互方法
本方向主要包括:
(1)大模型驱动的多模态信息表征和理解。
研究如何通过多种预训练任务对不同模态数据间的相关性进行不同粒度的对齐和交互,有效增强大模型对多模态信息的表征能力。改进理解任务相关的多模态特征融合技术,利用自监督学习、半监督学习、元学习、迁移学习等新型学习范式,提升模型鲁棒性和学习效率。
(2)基于具身学习的多模态大模型。
通过高效的人机交互、融合感知、执行和交互等技术,帮助多模态大模型更好地理解真实世界,获取实时的环境反馈;结合具身学习研究面向智能机器人的多模态大模型构建与应用方法。
(3)轻量化多模态大模型的设计。
通过面向硬件条件限制的多模态大模型设计,减少模型规模以及计算和存储需求,从而满足不同的硬件环境,扩大大模型的应用场景。研究模型剪枝、模型量化,以及知识蒸馏等深度模型压缩方法,实现自适应的轻量化多模态大模型设计。
2.3 大模型安全理论与实践
大模型的发展和应用必须着重考虑安全性和可 控性。尤其在涉及用户隐私、数据安全、道德规范和 合法合规的情况下,大模型的操作必须符合社会规 则和伦理道德,必须具有正确的价值观。大模型在 理解和生成内容时可能出现偏见,这可能导致信息 误导、产生虚假信息,或被恶意利用。
本方向主要包括:(1)大模型供应链安全 (2)大模型安全性评估 (3)大模型生成内容安全
3 结论与展望
大模型技术开启了通用人工智能时代,具有划时代意义,将重新定义信息社会。本文基于我国大模型技术的研究现状,探讨了大模型基础理论、智能交互方法、安全理论与实践中的重点发展方向。大模型技术研究刚刚起步,还有非常多亟待解决的问题,其红利和贡献还远未被发掘。总之,从基础研究角度看,基座模型和下一代大模型技术的自主可控 是目前我国大模型研究的两大核心任务。
—THE END—
参考文献:刘学博, 户保田, 陈科海. 大模型关键技术与未来发展方向——从 ChatGPT谈起[J].中国科学基金, 2023, 37(5): 758-766.
感谢对本公众号的支持,点个“在看”收藏一下吧~
如需购买视频课程资源,请联系:forwardtszs