《银行科技研究社》(作者 木子剑):两年前,ChatGPT发布,在科技舞台的帷幕上“撕开”了一个巨大的口子,让我们看到了AGI的曙光。两年来,众多企业纷纷投身大模型,在极短的时间里就让国内大模型行业呈现出“百花齐放”的盛况。大模型是新一代“工业革命”的论断,从人工智能领域迅速扩散到社会的各个角落;利用大模型赋能业务发展,是智能化升级最核心的路径,也已成为各行业的共识。
金融行业是典型的数据密集型行业,数字基础设施完备,且对智能化服务有天然需求,是最适合大模型落地的领域之一。但金融行业具有很强的专业性,想要用大模型实现降本增效,提升用户体验,必须让其具备专业的金融能力。行业通用的做法是先利用通用训练语料对模型进行预训练,让模型获得基本的语言或数据处理能力,然后再用金融领域专业数据在预训练模型的基础上进行微调,提升模型的金融能力。
这种训练方式虽然能够有效提升模型在金融任务上的表现,但却会损失模型的通用能力,且金融能力提升得越多,通用能力下降得越厉害,很容易将模型变成某个场景的专有模型。而这将会极大增加金融机构应用大模型的成本。
因此,如何实现“两条腿走路”让模型既有专业性又不乏通用性,成为了大模型落地应用的关键。
Baichuan4-Finance在多个金融评测中超GPT-4o等模型,排名第一
12月23日,百川智能发布全链路领域增强大模型Baichuan4-Finance,实现了金融能力和通用能力的同步提升,或能成为助力金融行业智能化转型的一剂“良药”。
以实际的评测数据说话。在中国人民大学财政金融学院发布的最新金融评测体系(FLAME)中,Baichuan4-Finance在2个方向上均取得了评测第一的成绩。
FLAME的2个评测方向分别为:面向金融专业能力评测的FLAME-Cer,以及侧重模型场景应用能力评测的FLAME-Sce,既测试模型的专业表现,也衡量模型的实用性。
Baichuan4-Finance在FLAME-Cer评测中大幅领先当下的通用能力标杆模型GPT-4o和国内首个开源中文金融大模型XuanYuan3-70B-Chat,在银行、基金、证券、期货等多个资格认证领域的准确性均突破95%,整体准确率达到93.62%,超出GPT-4o近20%。
而在FLAME-Sce评测中,Baichuan4-Finance在一级核心金融业务场景的模型整体可用率,同样领先GPT-4o、XuanYuan3-70B-Chat等模型,其金融数据计算、金融知识理论等应用场景的可用率超90%,整体可用率达84.15%,充分展现出了其在实际场景的应用能力。
另外,在专注于金融领域评测的FinanceIQ上,Baichuan4-Finance整体准确率达79.23%,领先GPT-4o近13个百分点。
同步提升金融能力和通用能力,首创的领域自约束训练方案是关键
Baichuan4-Finance之所以能够取得如此亮眼的成绩,是因为百川智能研发了一套全链路领域增强的解决方案。这是一套覆盖了数据集构建、模型预训练、模型微调、强化学习等从模型研发到场景应用的全流程“组合拳”,其首创的“领域自约束训练方案”更是这一方案的“杀手锏”。
上文提到为提升大模型的专项能力,业界一般采用通用训练语料与领域数据相结合的CPT训练方式,但是这存在“如何确定最优的数据混合比例”“如何选择合适的训练策略”两大挑战。
百川智能在进行大量实验后发现,传统的固定配比直接训练方式,虽然会提升金融专业能力,但也导致通用能力下降。而通用能力影响着大模型的泛化性、鲁棒性,因此不能“顾此失彼”。
为了保持大模型的通用能力,百川智能在Baichuan4-Finance训练过程中,提出领域自约束的训练方案。在基础领域模型训练过程中,构建了一个和基础模型同参且参数不更新的“reference model”来指导金融模型训练的过程,从而达到通用能力不降、领域能力增长的效果。
此外,数据准备、数据处理、大模型微调等也都会影响大模型的能力。这就涉及到Baichuan4-Finance“组合拳”中的其他招数。
众所周知,数据是打造大模型的基础,数据的质量决定了模型的能力表现。像有些机构就专门成立大模型语料数据联盟,针对“数据”下功夫。在这些联盟的助力下,大模型可以通过训练更高质量、更丰富多样的语料数据,在提高泛化能力的基础上,生成更准确的内容。由此可见好数据的重要性。
同时,金融业是强监管的行业,数据安全问题一直是悬在金融机构头上的一把剑。今年3月22日,国家金融监督管理总局发布《银行保险机构数据安全管理办法(征求意见稿)》,对数据安全方面提出了多项具体要求,一个合格的金融大模型确保数据合规是底线。
为了保证数据合法合规,在数据准备阶段,Baichuan4-Finance建立了一套完整的数据处理体系,在数据收集过程中采用严格数据脱敏方法,通过规则识别和模型抽取相结合的策略,对数据样本中的敏感信息进行系统性脱敏处理。同时应用了智能数据去噪技术、高效数据去重机制、多层级的数据质量评估体系,进一步确保训练数据的高质量。
在此基础上,百川智能为Baichuan4-Finance构建了一个高质量的专业金融数据集,既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据,也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据。
拥有了高质量数据集之后,在模型训练部分,除了领域自约束训练方案,百川智能还加入“loss scaling law + metric scaling law”双重预测推演、多维度测试等工作,动态监控和模拟模型训练趋势,全方位测试Baichuan4-Finance的能力。
不仅如此,在大模型微调部分,百川智能还通过合成数据、指令数据对模型进行有监督的微调;且在强化学习策略中,针对数学计算等金融领域特别关注的场景进行样本增强,进一步提升了模型性能。
“多面手”Baichuan4-Finance或为金融领域智能化转型最优解
实现了金融专项能力与通用能力同步增长之后, Baichuan4-Finance无疑打开了助力金融行业智能化升级的大门,能够为客服、金融数据分析、金融产品营销、文档合规审核等诸多场景提供全方位助力。
比如银行每日需处理大量的客户咨询,传统人工客服存在无法24小时工作、客服人员情绪不稳定、专业能力参差不齐以及在高峰期需要客户排队等问题,这些都会影响用户体验。而据《银行科技研究社》之前的体验评测,多数银行现阶段的智能客服/数字人客服,要么专业能力较差“答非所问”,要么通用能力较差听不懂“人话”,在智能程度上还有较大的提升空间。未来,基于Baichuan4-Finance的智能客服将会是一个良好的解决方案。
再比如某些大型金融机构每天需要处理数千份业务文档的合规审核,但是人工审核存在效率低、粗心易遗漏等问题。而通过Baichuan4-Finance的智能合规审核方案,能对文档进行解析,提取关键信息,并与机构内部知识库中的资料进行多维度对比,自动识别潜在的风险点,并给出法律法规依据,可提升工作效率。
另外,养老金融作为“五篇大文章”之一,相关产品愈加受到关注。金融机构在开展养老理财产品营销过程中,可能面临客户需求理解不足、营销话术比较“固化”等挑战,因此获客成本高。通过Baichuan4-Finance构建的智能营销辅助系统,能基于客户信息构建更全面的画像,从而在产品库中进行智能匹配,同时可生成个性化的营销话术和投资建议。
写在最后
据《银行科技研究社》了解,百川智能成立于2023年4月10日,距今仅有600多天。作为大模型初创公司“六小虎”之一,百川智能的发展速度是有目共睹的。成立以来,其陆续推出了包括Baichuan 7B/13B、Baichuan2-192K、Baichuan4-Turbo/AIR等在内的14款大模型。此前还推出了一站式解决方案,使企业在多元场景下的可用率达96%,助力企业低成本完成私有化部署,受到行业认可。
本次百川智能推出的Baichuan4-Finance只是其技术创新在金融领域的一次成功实践,未来一定会外溢到更多的行业,助力更多企业、组织智能化升级。身处这个科技爆炸时代,无论是身处科技前沿的初创企业,还是已经创造了巨大经济价值的传统企业,都是技术进步的推动者、参与者和受益者,这可能就是科技的魅力所在。
银行业金融科技社群,有兴趣的朋友请添加群主:yktworld 备注:公司+姓名+职务+银行入群。仅限银行科技工作人员。