文 / 上交所技术有限责任公司 陈洪炎 胡跟旺 卓航星
金融领域拥有天然的大量数据积淀,为大模型在金融领域的应用提供了良好的数据基础,因此金融行业大模型相较于其他行业的垂直大模型中落地速度相对较快。同时金融领域大模型的应用场景较多,大模型有助于从不同角度提升原有从业人员及机构的工作效率。大模型在金融领域的实践需要考虑多方因素,除了大模型技术框架对现有金融业务的效率提升以外,金融业务的专业性、严谨性、安全性及合规性要求对大模型在金融领域的应用实践也提出了更加严格的风险防控措施要求。
1.大模型架构。大模型最早诞生于自然语言处理领域,最开始自然语言模型通过神经网络预测单词,加入注意力机制后,使单词之间建立关系而考虑整句语言的含义,从而建立Transformer架构。谷歌和微软分别针对Transformer的编码部分以及解码部分进行研究从而产生了两条技术路线,即以BERT为代表的仅用编码器部分的路线和以GPT为代表的仅用解码器部分的路线。BERT与GPT都用到了预训练范式,预训练范式是指利用大量的数据训练一个基础模型,然后在下游任务上进行一点微调就能够在相应的任务上得到很好的性能表现。通过不断叠加数据并增加模型参数规模以及优化模型的提示工程,不仅可以解决更复杂的任务,同时也拥有了更强大的文本涌现能力。仅用编码器架构的大模型擅长对文本内容进行分析、分类,包括情感分析和命名实体识别,如BERT。仅用解码器架构通常用于序列生成任务,如文本生成、机器翻译等需要生成序列的任务,如GPT。为结合编码器和解码器的优点,出现了编解码器架构如T5和GLM。为了解决仅用解码器架构时内存占用高、响应慢等问题,微软提出双解码器Decoder-Decoder新型架构YOCO(You Only Cache Once),两个解码器分为自解码器(Self-Decoder)和交叉解码器(Cross-Decoder)两部分,以此来降低内存开销,提高性能及吞吐率。
2.大模型在金融领域的应用。随着硬件能力发展,算力已满足大模型的计算要求,大模型逐渐进入公众视野,大模型应用迎来了蓬勃发展,并在媒体影视、电商、广告营销、游戏、医疗、教育及金融等各行各业中得到广泛应用。大模型浪潮爆发后,国内各企业纷纷推出自研大模型。金融领域拥有天然的大量数据积淀,从而为大模型应用提供了良好的数据基础,大型科技企业如华为推出了盘古金融大模型,蚂蚁集团发布了金融大模型AntFinGLM。
金融行业的专业性、严谨性、合规性等特点,在把大模型技术应用到金融领域面临挑战,如:通用大模型的缺乏金融专业知识,通用大模型缺乏金融情境下上下文理解能力,通用大模型无法满足金融合规及监管等要求。金融机构在应用大模型到金融业务场景的过程中,一般需要经过两个主要步骤:一是从通用大模型进一步训练调优出专业的大模型;二是以大模型为核心,结合金融专业知识库、金融专业工具库、智能体、安全合规组件等构成一个可满足金融领域安全应用要求的应用系统,来支撑在金融大模型各场景中的应用。
3.金融大模型的开发框架。通用大模型在金融领域的适配一般需要经历数据收集、数据处理、在金融语义语境中训练通用大模型、参数微调、提高复杂推理能力、优化性能、减少幻觉、模型部署、模型评测、模型应用等流程。金融大模型开发框架(见图1)大致分为5个层次,即数据层、训练层、部署层、推理层和应用层。
图1 金融大模型开发框架
(1)金融数据收集。金融数据收集包括预训练数据、金融指令和安全数据。预训练数据主要包括广泛金融背景知识、语义语境认知等金融语料。预训练数据来源广泛,数据格式多样化,一般需要支持多模态输入处理。金融指令包括金融术语、指标计算、规范等专业知识。安全数据是为了满足安全合规要求,为保证大模型输出内容符合金融安全底线,遵从金融价值观而提供的必要输入数据。
(2)微调技术。从大模型参数规模来看,大模型微调分两种技术:一是全量微调(FFT),是对模型的所有参数进行训练;二是高效参数微调(PEFT)仅对部分参数进行训练。在金融大模型训练中较常使用的是PEFT,PEFT可以解决FFT带来的问题,即:FFT的训练成本很高,一般大模型的参数量较多,FFT相当于对模型进行了一次重新训练,FFT进行全参重训之后的大模型能力可能会变更差。PEFT的目的是能够在可控成本的前提下,尽可能地提升大模型在特定领域的能力。
(3)思维链增强。思维链(Chain of Thought,CoT)是通过让大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程,通过构建模型来模拟人类思考过程,形成一个连贯并符合逻辑的思维过程。CoT被认为是一种开创性且最具影响力的提示工程技术。但传统的CoT一般是线性链式结构,这限制了金融大模型在处理复杂金融领域任务时的推理能力,因此需要采用思维链增加技术(见表1)来提高推理能力。
表1 思维链CoT增加技术
(4)智能体。智能体是指能够自主感知环境、做出决策并执行行动的系统。智能体具备自主性、交互性、反应性和适应性等基本特征,能够在复杂多变的环境中独立完成任务。金融领域智能体可以分为三大模块:感知、记忆和行动。感知是从外界获取信息,记忆是存储知识、处理信息并做出决策,行动是向外界反馈信息。智能体自我反思是对智能体之前的活动进行回顾性思考,以纠正之前错误认知并完善行动决策。
大模型在金融领域的实践需要考虑多方因素,除了大模型技术框架对现有金融业务的效率提升以外,金融业务的专业性、严谨性及合规要求对大模型在金融领域的应用实践也提出了更加严格的风险防控措施要求。金融大模型安全挑战主要分为内生安全及应用安全。内生安全是金融大模型在研发过程中设计的基础设施、数据、模型、算法、训练过程、部署等环节中遇到的安全风险,而应用安全是金融大模型的不合理应用、滥用或恶意使用而引入的决策失控风险。内生安全问题应由大模型研发团队关注,应用安全则需要法律法规和行业管理规范来监管和控制。
1.金融大模型内生安全。金融大模型的研发生命周期可分为数据收集处理、模型训练、模型部署和模型落地应用四个阶段。其中数据收集处理阶段主要收集、处理、储存大模型训练需要的预训练数据、安全数据和金融指令等;模型训练阶段对海量数据进行预训练、调参、对齐、构建智能体等;模型部署是将训练好的大模型适配特定的硬件资源,并尽量提高大模型的实时性和推理效率;模型落地应用是用大模型解决各种实际的金融任务。
金融大模型的内生安全风险在不同的生命周期阶段有所不同,也有部分安全风险贯穿在全研发生命周期中(见表2)。在数据收集处理阶段,潜在数据泄漏、数据投毒等风险;在模型训练阶段,潜在后门攻击、数据泄漏、数据污染、模型篡改、模型窃取攻击、AI组件漏洞等风险;在模型部署阶段潜在平台漏洞、硬件漏洞、供应链投毒等风险;在模型落地应用阶段,潜在事实性错误、隐私泄漏、提示注入、对抗攻击、内容安全、大模型滥用、伦理安全等风险。
表2 金融大模型常见内生安全风险举例详解
2.金融大模型内生安全应对。金融大模型的安全风险多种多样,既有模型内部天然具有的不安全性,如数据泄露、隐私安全等风险也有外部的恶意攻击、大模型滥用等风险。为提升金融大模型的安全性、可靠性、公平性、隐私性、可解释性和鲁棒性,需要有相应的安全应对策略。内生安全应对可以从提升数据质量、强化模型学习、减少幻觉、安全评测和提升硬件安全等几个方面进行研究,以保证金融大模型的数据安全稳定、算法可解释、模型决策可信,应用合法合规和环境安全可靠。对于外部风险主要由国家法律法规和行业管理规范来进行监管规范。金融大模型安全框架是从全局视角剖析大模型训练、生产及应用中存在的安全风险问题,为大模型的研发及应用提供安全指导,其安全目标是构建可信、可控、可解释、可溯源的金融大模型,安全框架(见表3)主要包括大模型安全管理、数据安全、模型安全、环境安全和攻防安全。
表3 金融大模型安全框架内容详解
当前金融大模型发展尚不成熟,面临着诸多安全隐患与风险。可以预见,随着深度学习技术的发展和研究逐渐深入,未来大模型的攻防将在动态抗衡中不断升级,金融大模型需要应对的新型安全威胁将不断涌现和升级,建立完善统一的大模型安全评估框架、探索有效的防御机制、实现金融模型安全监管和可控生成,以及促进大模型安全生态的建设等任务迫在眉睫。
(此文刊发于《金融电子化》2024年10月上半月刊)
新媒体中心
主任 / 邝源
编辑 / 姚亮宇 傅甜甜 张珺 邰思琪