大模型关键技术与未来发展方向———从 ChatGPT 谈起

百科 2024-09-20 23:43 安徽

摘要

大规模预训练模型,也被称为“基座模型”或“大模型”,目前被认为是通用人工智能技术的核心引擎,已经成为了全球科技竞争焦点。

本文归纳总结了以聊天生成预训练转换器(ChatGenerative Pre-trained Transformer,ChatGPT)为代表的生成式大模型技术研究现状和发展趋势,从大模型基座、大模型人类偏好对齐、大模型推理与评价、多模态大模型、大模型安全可控五个方面讨论了当前大模型研究的现状和挑战,并结合我国人工智能研究特点,简要分析了大模型未来的重点发展方向。

1 大模型技术及研究进展

1.1 大模型基座

2020年 OpenAI首次提出“规模定律”,指出模型的性能随着参数量、数据量、训练时长的指数级增加而呈现出线性提升,并且该提升对架构和优化超参数的依赖性非常弱。从此研究人员逐步转移研究重心至大语言模型基座,并开展了大量相关研究。

GPT 系列模型的发展标志着大型预训练语言模型时代的到来。除了 GPT 系列模型,谷歌、Meta等公司同样开始不断发布百亿到千亿的大型语言模型, 例如 Gopher、Chinchilla、PaLM,但是这些模型都不开源。

当前代表性的开源大模型有 Meta的 OPT、 LLaMA-2以及国内的 GLM-130B、ChatGLM2。发展示意图如图1所示：

在模型架构方面,国内外的大模型普遍为 Transformer架构。模型的基座设计大体上可以分为以下三种:

(1)仅包含解码器(Decoder-only),即自回归(Autoregressive)模型。
代表模型是 GPT和 LLaMA,其训练目标是从左到右的文本生成,常用于无条件长文本生成,如对话生成、故事生成等;
(2)仅包含编码器 (Encoder-only),即自编码(Autoencoder)模型。
代表模型是 BERT、ALBERT、DeBERTa,自编码模型是通过去噪任务(如利用掩码语言模型)学习双向的上下文编码器,训练目标是对文本进行随机掩码,然后预测被掩码的词,常用于自然语言理解,如事实推断、语法分析、文本分类等;
(3)编码器—解码器(EncoderDecoder),即完整的Transformer结构。
代表模型是T5和 BART,包含一个编码器和一个解码器,接受一段文本,从左到右地生成另一段文本,常用于有条件的生成任务,如机器翻译、摘要生成、事实性对话等。考虑到训练效率、推理需求和下游实际应用任务,大模型通常采用仅包含解码器的架构,通过自回归预训练高效地生成优质内容。

在训练数据上,我国开放给大模型的数据集主要是中文语料库,但在数据量、内容多样性和质量方面,仍有进一步提升的空间。

截至目前,常见的开源预训练数据集有:GLM系列的悟道数据集,CLUE 社区的开源中文数据集 CLUE Corpus 2020，里屋社区的开源数据集MNBVC。

国外开源数据集数量更多且内容较丰富。例如,PB 级的 CommonCrawl的网页数据、1.6TB 多语数据集 ROOTS、825G的数据集ThePile等。

1.2 大模型人类偏好对齐

大模型在预训练阶段的主要任务是将世界知识融入模型中,是模型学习知识的过程。对齐大模型与人类偏好的目标是激发模型理解、适应人类意愿和解决问题的能力,强调的是使模型能够有效地应用预训练阶段获取的知识,从而使其具有多样化的能力,能够解决各种问题。另一方面,大模型在训练阶段可能会学习到数据中的偏见和歧视性信息,导致模型的行为表现出预期外的特征。为了纠正模型的表现,使模型反映出人类的价值观,避免出现不可预测的输出,需要实现大模型与人类偏好的对齐。

目前主要通过两种方法实现:有监督微调和人类反馈的强化学习算法 (RLHF),如图2所示：

有监督微调(SFT)是主要的大模型人类偏好对齐方法。该过程利用人类偏好一致的指令数据来训练大模型。

尽管大语言模型在多种任务中表现出强大的能力,但它们也存在生成“幻觉”内容的倾向,生成与用户输入、之前的上下文或者已知的世界知识不一致的内容。这一挑战对大模型在实际应用中的可靠性构成威胁。幻觉问题不是新现象,最初在机器翻译系统中已被提出。但在大模型环境下,这个问题变得更为复杂。幻觉不仅对用户信任造成破坏,还能通过简单的搜索轻易地被触发。为减少幻觉的出现,研究人员已经采用了包括数据增强和动态系统在内的多种方法,尝试降低大模型幻觉内容生成的频率。

大模型具有强大的通用性,但往往缺乏特定领域的专业知识。

为解决这些问题,已有研究提出结合内外部知识,利用模型自身的通用能力从外部知识库中检索相关信息,同时提供完整的检索路径以增加可解释性。另一方面,在执行复杂任务时, 可以通过工具调用、链式思维、搜索决策树等方式增强模型的规划和推理能力。这些方法不仅提高了大模型在特定任务中的表现,也为其在实际应用中的可靠性和可解释性提供了有力支持。

1.3 大模型推理与评价

在大模型的实际应用场景中,推理效率和生成质是两个关键的维度。

一方面,大模型的高效推理是实现工程应用的关键技术。和训练环节相比, 推理环节在计算精度、算力消耗量等方面的要求较低,但依然依赖于高性能的 GPU 显卡。此外,显存瓶颈、通信延迟和硬件内存带宽约束仍然限制着模型的推理效率。
另一方面,模型训练阶段常用模型损失作为评价模型性能好坏的基准。然而,这种单一维度的评价方法在实际应用中往往无法全面反映模型在多维度任务性能上的优劣,因此需要对模型的评价进行更加精细的设置。

在大模型推理加速方面：

一种有效的策略是对模型框架和运算进行优化。
另一种策略是采用模型压缩技术。

在大模型评价方面,目前主要分为人工评价与自动评价两种方式。

自动评价

作为一种普遍且广泛应用的评估机制,一般依赖于预定的标准化指标和工具来评估模型的性能。

人工评价

通过人类专家的参与评价模型生成结果的质量和准确性。与自动评价相比,人工评价更接近实际应用场景,可以提供更全面和准确的反馈,但仍然存在主观性、差异性和不稳定性等问题。

在实际应用中,具体使用哪种评价方式需要根据具体的使用场景进行综合考量。

1.4 多模态大模型

多模态大模型(Multimodal Large Models)通过整合多种类型的数据(如文本、图像、音频等),提升机器理解和生成复杂内容的能力。

早期的多模态模型通常需要在特定数据集上微调才能胜任相关的任务,如图文检索双塔模型 (CLIP)和图文生成模型(Oscar)等。

当前的多模态大模型具有更强的通用问题求解能力,主要分为以下三种:

1、将大语言模型作为中央处理器来执行多模态任务,通过调用其他功能模块来实现任务目标。
2、直接通过图像和文本信息训练多模态大模型。
3、如图3所示,结合跨模态编码器等结构与大语言模型,能进一步发掘大模型的推理检索能力和存储的知识库信息。

1.5 大模型安全可控

大模型安全可控主要集中于大模型的训练和推理两方面。针对训练阶段的可控研究主要通过对预训练语言模型进行网络重构、修改训练任务或增加微调任务以实现有约束的生成过程。

早期研究在预训练文本序列首部添加多种表征文本信息的特殊符号以实现可控生成过程。另有研究者不限于知识符号,而是基于多个人类评价维度(如有效性、安全性)对模型进行可控微调。近期一些研究使用基于人类反馈的强化学习策略推进大模型的自主可控性,通过使用奖励模型学习人类评价模式,进而对大模型进行自动微调。针对推理阶段,典型研究通过在推理过程中增加约束信息或是直接针对模型输入输出增加控制模块以有效实现有约束的生成过程。近期,通过在输入中增加显示或隐式控制信息作为 Prompt的做法同样取得了较好的效果。

在大模型安全性方面,生成式大模型面临着包括模型窃取、数据窃取、对抗攻击、后门攻击、Prompt攻击和数据投毒等多方面威胁。

模型窃取方面：

近期研究发现可通过本地模型访问 OpenAI 的 API部分窃取现有大模型在特定任务上的性能。

数据窃取方面；

存在一种差分隐私训练策略避免使用者进行大模型的数据窃取。

对抗攻击方面；

研究发现大模型对于对抗性文本和分布外文本的抵御效果优于传统模型,但依然存在鲁棒性不足的问题。

后门攻击方面：

研究发现通过在人类反馈强化学习的奖励模型训练阶段增加后门, 可以通过后门触发文本控制模型输出;另外,可通过大模型产生包含后门触发器的训练数据,从而对其他模型植入后门。

在 Prompt攻击方面；

有研究者设计了一套通过大模型生成恶意 Prompt的攻击流程,可达到绕过大模型安全限制、下游应用Prompt窃取等恶意攻击目的。

在数据投毒方面：

可以借助大模型实现指令微调数据的自动投毒,从而操纵或毒害其他模型。

2 大模型领域未来重点发展方向

大模型需要多方合作发展,包括产、学、研、用、资、政等多个领域,对提升我国科技核心竞争力具有关键性作用。

在此,我们选取除了算力以外我国大模型发展的三个具有代表性方向进行讨论。

2.1 自然语言引领大模型基础通用理论

大模型随着模型参数和训练数据的增加,由量变到质变,涌现出通用智能的能力,使人类真正从信息社会进入智能社会。自然语言在大模型中发挥着重要的引领作用,自然语言是传递和表达语义认知和知识的最重要方式,通过处理自然语言数据,大模型可以学习到丰富的语义表示和世界知识。

本方向主要包括:

(1)下一代大模型基础架构。

利用丰富的外部知识,建立数据与知识双轮驱动研究新范式。以中文为核心、以通用人工智能为目标,设计更加高效、准确、可扩展的新一代语言模型,并以此为基础搭建新一代人工智能理论框架体系。

(2)大模型可解释性和模型机理。

目标在于突破“黑箱”问题的束缚,实现大模型行为的动态追踪、知识提取过程的深度分析以及决策过程的人类干预,从而提升模型可解释性,建立可解释、鲁棒的人工智能理论和方法。同时深入剖析大规模预训练语言模型的实现机理,以揭示涌现现象背后的科学原理,完善理论体系。

(3)大模型的持续学习与演化能力。

研究增量学习技术和动态知识库,使模型能够持续适应新数据、更新知识与表达,并通过强化学习技术使模型能够根据环境反馈进行自我改进。探索通用人工智能驱动的智能算法,从而实现模型自主学习与人机协同学习的持续演化。

2.2 多模态大模型智能交互方法

本方向主要包括:

(1)大模型驱动的多模态信息表征和理解。

研究如何通过多种预训练任务对不同模态数据间的相关性进行不同粒度的对齐和交互,有效增强大模型对多模态信息的表征能力。改进理解任务相关的多模态特征融合技术,利用自监督学习、半监督学习、元学习、迁移学习等新型学习范式,提升模型鲁棒性和学习效率。

(2)基于具身学习的多模态大模型。

通过高效的人机交互、融合感知、执行和交互等技术,帮助多模态大模型更好地理解真实世界,获取实时的环境反馈;结合具身学习研究面向智能机器人的多模态大模型构建与应用方法。

(3)轻量化多模态大模型的设计。

通过面向硬件条件限制的多模态大模型设计,减少模型规模以及计算和存储需求,从而满足不同的硬件环境,扩大大模型的应用场景。研究模型剪枝、模型量化,以及知识蒸馏等深度模型压缩方法,实现自适应的轻量化多模态大模型设计。

2.3 大模型安全理论与实践

大模型的发展和应用必须着重考虑安全性和可控性。尤其在涉及用户隐私、数据安全、道德规范和合法合规的情况下,大模型的操作必须符合社会规则和伦理道德,必须具有正确的价值观。大模型在理解和生成内容时可能出现偏见,这可能导致信息误导、产生虚假信息,或被恶意利用。

本方向主要包括:(1)大模型供应链安全 (2)大模型安全性评估 (3)大模型生成内容安全

3 结论与展望

大模型技术开启了通用人工智能时代,具有划时代意义,将重新定义信息社会。本文基于我国大模型技术的研究现状,探讨了大模型基础理论、智能交互方法、安全理论与实践中的重点发展方向。大模型技术研究刚刚起步,还有非常多亟待解决的问题,其红利和贡献还远未被发掘。总之,从基础研究角度看,基座模型和下一代大模型技术的自主可控是目前我国大模型研究的两大核心任务。

—THE END—

参考文献：刘学博, 户保田, 陈科海. 大模型关键技术与未来发展方向——从 ChatGPT谈起[J].中国科学基金, 2023, 37(5): 758-766.

感谢对本公众号的支持，点个“在看”收藏一下吧~

如需购买视频课程资源，请联系：forwardtszs

http://mp.weixin.qq.com/s?__biz=Mzg2ODYzMTYwNQ==&mid=2247490305&idx=1&sn=fb4ea902f018c2256eda75b21de2c35a

滚动轴承故障诊断与寿命预测

与旋转设备故障诊断的那些事儿...专注数字信号处理、深度学习以及故障特征提取有关的研究内容。

最新文章

GPT-4o在科研中有哪些你不知道的黑科技？

基于深度学习和信息融合的电机电流信号轴承故障诊断

平台推荐 | HF511-1 材料力学综合试验平台

基于融合知识迁移网络的变工况轴承故障模式识别

基于深度学习的风力发电机组故障预警方法研究综述

平稳和非平稳振动信号的若干处理方法及发展

大模型关键技术与未来发展方向———从 ChatGPT 谈起

工业大数据驱动的故障预测与健康管理（下篇）

平台推荐 | HF321-1 桥门式起重机可靠性试验平台

基于叶尖定时（BTT）技术的叶片振动监测-1

预测性维护政策相关 | 加快数字化绿色化协同转型发展

什么是模态分析？

工业大数据驱动的故障预测与健康管理（上篇）

平台推荐 | HF311-1起重机故障植入试验平台

基于多通道融合的滚动轴承剩余寿命预测

基于数字双驱动判别的图学习网络跨域轴承故障识别

SCI 论文写作技巧（一）

变工况条件下三相异步电机匝间短路故障诊断

根据电气特征对感应电机中的机械故障进行状态监测：不同技术的回顾

基于模型预测控制的牵引电机高鲁棒性故障诊断技术

平台推荐 | HF231-1内燃机曲轴系统扭振试验平台

平台推荐 | HF221-1发动机减振及故障植入试验平台

故障机理辅助的滚动轴承多域对抗迁移故障诊断模型

【论文】一种时频谱幅值调制方法及其在滚动轴承故障诊断中的应用

采用深度学习的永磁同步电机匝间短路故障诊断方法

基于低延迟可解释性深度学习的复杂旋转机械关键部件知识嵌入与诊断方法研究

基于电流残差矢量模平方的永磁同步电机匝间短路故障鲁棒检测与定位方法研究

平台推荐 | HF211-1柴油发动机振动及互拖试验平台

基于ASSA-WFEE的新型VMD优化策略及其在滚动轴承故障诊断中的应用

异步电机负序分量融合方法及其在定子匝间短路故障诊断中的应用

免费直播预告之数字孪生 | 基于IFC/STEP标准的UDC数字底座及智能应用主题分享邀您参加

基于增强的时频分析方法的变转速轴承故障诊断（下篇）

基于增强的时频分析方法的变转速轴承故障诊断(上篇）

平台推荐 | HF114C-1齿轮箱传动特性试验平台

数字孪生驱动的离心泵机组故障诊断方法研究

数字孪生与平行系统的异同及发展趋势

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉