对话InfoQ | 文因互联鲍捷:场景融合与ROI考量,金融大模型落地的困境破局

财富   2024-07-24 18:06   安徽  


内容来源:InfoQ《超级连麦. 数智大脑》x FCon 直播对话内容整理,篇幅有删减。


“FCon上海2024全球金融大会”将在2024年8月16日至8月17日,于上海召开。文因互联鲍捷博士为大会“前沿金融科技探索与应用”的专题出品人,与多位行业专家一起,分享前沿金融科技在金融行业的探索和应用,包括数字人民币的应用现状和实践探索等话题。


主办方给的专属福利:

扫码添加小助手,说出暗号「鲍捷」,立减1折!


金融行业被视为大模型应用的理想领域,从内因看,是因为金融本身具有专业知识密集、数据驱动、业务流程复杂性三个显著特点,而三大特点恰好与大模型理解能力、记忆能力、逻辑推理等优势高度吻合。从外因看,在政策驱动和市场热度的双重助力下,对于每一家金融机构来说,不采用大模型几乎是不可能的。

但是,在技术具体落地过程中仍然有很多阻力和困境。比如,技术能不能与业务场景紧密结合从而给企业带来实际的效益提升,巨大的成本投入带来的ROI是否划算,大模型技术底层能力是否足够满足对合规安全有着严苛要求的金融业务需求等等。


落地现状:不能跟场景紧密结合的技术没有出路

InfoQ:

传统金融机构由于业务的特殊性,对于新技术的引入一直是“既激进又保守”,请问鲍老师,从您的角度来看,现阶段国内金融领域的大模型落地进展处于什么阶段?


鲍捷博士:

去年,我们大家都处于学习阶段,因为缺乏必要的硬件资源,比如显卡,所以基本上大家都在学习和准备。那时候有个笑话说,去年真正赚到钱的只有卖显卡的和卖课的。但到了去年年底,随着预算的到位,今年我们开始看到各种场景下大模型的具体落地实施。

这个落地过程,正如你所说,是“既激进又保守”。之所以说激进,是因为大模型已经成为国家战略的一部分,对于每一家金融机构来说,不采用大模型几乎是不可能的。即便他们的基础条件还不够成熟,为了避免落后,大家都会尝试引入一些大模型相关的技术。但在实际落地过程中,大家又表现得非常保守,因为按照技术发展的一般规律,新技术通常会先在领先的机构中尝试,然后逐步渗透到其他机构,这个过程可能需要3到5年的时间,从头部客户到腰部客户,再到长尾客户。

但这次大模型的落地有所不同,它受到了市场的疯狂炒作,所以几乎每家机构在应用尚未完全成熟的情况下都不得不尝试引入大模型。在这种背景下,大家在引入过程中自然会采取保守的策略。那么,什么策略是一定不会错的呢?那就是先提升算力。所以我们最近看到了许多大额的算力订单,有的上千万,有的上亿。但这些大单背后的实际应用却相对较小。

我最近走访了许多客户,包括金融客户和制造业客户。我问他们,作为国内行业领先的企业,愿意为国内头部大模型厂家的基础大模型基座落地投入多少资金?结果发现,即使是100万、50万他们都不愿意投入。从这个角度来看,他们的态度是非常保守的。但同时,也有大规模的应用正在发生,这些应用一定是基于业务需求的。

从激进的角度来看,大家肯定会尝试引入大模型。但从保守的角度来看,大模型无论是开源的还是闭源的,如果没有很强的业务属性,是不可能拿到百万以上的订单的。比如我们最近在做反洗钱的应用,如果我只是做一个纯粹的知识库应用,那又有什么竞争力呢?核心在于,你是否熟悉反洗钱的业务规则、法规解析和建模,以及常规的反洗钱套路。只有将这些纯业务性的东西与大模型技术深刻结合,才有可能实现落地。

我最近统计了一下,从去年大模型开始到现在,我们已经有数十个大模型落地案例了,聚焦在两个行业里,一个是金融,一个是航空。这些案例都是基于强业务驱动的,不是那种只卖显卡、卖算力的,而是真正在业务场景中发挥作用。所以从这个角度来说,大家说今年是大模型应用的元年,我相信这是对的。在金融领域是这样,在其他领域也是如此,只有紧密结合应用和领域场景,才能有广阔的发展空间。


InfoQ:

从目前来看,大模型技术应用主要集中在哪些金融业务场景?


鲍捷博士:

底层的核心是构建各类知识库,包括法规知识库、投研知识库等。这些知识库能够对金融文档,尤其是PDF文档,以及各种信披材料、说明书和市场文档进行解析和搜索。相对而言,更复杂的应用是各类核查,如法务核查、财务核查、合同核查和银行流水核查。这些核查在大模型出现之前就已存在,但大模型显著提升了核查的泛化能力。以往的系统相对固定,数据模式和schema需要事先定义。而大模型提供了即时的、实时的数据生成和业务规则更新能力,这是以往难以实现的。因此,上半年在这一领域取得了显著的发展。

另一个发展迅速的领域是写作协作场景。如今,券商和银行的每个部门都有写作需求。实际上,自2016年以来,我们已经开发了大量的机器自动化写作应用。许多人可能没有意识到,监管机构发出的问询函底稿都可以是机器生成的。四五年前,我们与中国头部券商合作,当时还没有使用大模型技术,投行底稿的80%以上内容都是机器生成的。最近,我们与另一家头部投行合作,复制了相同的过程,但与四年前相比,业务模型转化为代码的消耗减少了90%。这是大模型技术为整个行业带来的生产能力的巨大提升。

当然,还有许多其他应用场景,如客户问答场景中的问答机器人,包括客服、投研助手或内部运维管理助手。在大模型出现之前,数字员工、远程银行等已经存在。有了大模型之后,这些应用变得更加丰富和多样化。

目前大模型的应用主要集中在内部提效方面。例如,在内部IT部门,大模型可以发挥重要作用,帮助他们编写代码、SQL查询,以及进行更好的商业智能(BI)分析。客服领域由于监管机构的严格要求,目前大家普遍持谨慎态度,不敢轻易使用自动化工具。


InfoQ:

鲍老师提到文因互联目前服务的客户主要分为两大类:航空业和金融业。这两个行业之间存在显著的差异,我们在提供服务过程中会面临哪些不同的挑战?或者说,我们提供的产品具有较好的通用性能够同时满足这两个行业的特定需求?


鲍捷博士:

自2015年以来,我们在金融领域深耕了七八年时间,专注于这一领域,不断沉淀经验。我们发现,工具层面需求基本相似,比如阅读、编写和查询文档,只是每个领域都有其特殊性。例如,在金融领域,我们需要阅读信披材料;而在航空领域,则需要阅读维修手册、飞行员手册和标准操作程序列表。不同领域中存在相似的系统和问题。

在航空领域,例如,有飞行品质控制系统,飞机每秒可以产生3000个到20000个数据点,这些数据点需要根据业务规则进行分析。例如,飞机着陆时如果加速度超过1.8g,就可能造成过载,损害起落架。而在金融领域,我们每天都在处理类似的合规问题,即某个指标超过阈值时的应对策略。无论是航空还是金融,本质上都涉及到数据的变化和语义理解。在金融领域,我们进行指标对齐,而在航空领域,则需要进行数据译码,我们也在这个过程中开发了中国首个国产化的飞机数据译码器。

这些过程无论是数据理解还是业务知识建模,本质上都是知识库管理系统的一部分。不同行业的适配核心在于:一是理解数据的语义,二是将行业知识快速转化为可计算的规则。大模型在这里发挥了核心作用,尤其是在业务规则建模方面。以前,这需要昂贵的业务分析师、产品经理、算法工程师和应用工程师共同完成,并且必须在设计时就固定下来。在新业务规则的实时添加方面存在很大困难。而大模型可以帮助我们将底层业务系统变成一个可以接受自然语言描述的系统,业务分析师可以实时地将业务规则以自然语言的形式添加到生产系统中,实现了热插拔和系统演化,将原本静态的业务分析系统转变为动态的,这大大提升了我们的跨领域服务能力。


挑战与出路:“死抠”成本和ROI


InfoQ:

从去年到现在AI大模型在金融行业的应用实践探索主要还是集中在非核心业务场景,要进入核心业务场景,目前面临的主要障碍是什么?要充分发挥大模型的潜力,还需要解决哪些问题呢?


鲍捷博士:

新技术的出现和普及总是伴随着挑战和问题,大模型也不例外。以后,大模型可能不再流行,新的技术将取而代之。这是一个普遍现象,技术发展总是伴随着业务、技术需求的双轮驱动。然而,在当前阶段,业务需求是推动技术应用的主要动力,因为如果仅依靠技术驱动,最终可能只会是硬件销售(如显卡)。

目前一个核心问题是商业模式。我最近拜访了许多大模型公司,我们自身也是应用大模型的公司,但我发现,即使是行业内的专家,也难以给出一个令人满意的大模型商业模式的答案。至少在国内,基础大模型的商业模式似乎尚未找到。

应用大模型的落地核心在于成本控制。我们必须从用户的角度出发,考虑成本问题。例如,目前显卡的价格成本非常高,这并不是所有客户都能承受的,尤其是腰部和长尾客户。

另一个问题是投资回报率(ROI)。目前,许多应用无法准确计算ROI,即客户投入资金后能获得多少回报。此外,还有总体拥有成本(TCO),这不仅包括算力和基础模型的成本,还包括运营成本、推理成本、人力成本。因为如果大模型没有进行业务上的深度定制,其数据处理的准确度通常不会超过70%,这在ToB应用中是不可接受的,尤其是在金融领域。

目前市场上的卡点在于,许多人过于关注算法、算力和数据,而忽视了业务细节。基础大模型厂商可能还在尝试早期的商业模式,但其报价可能与市场现实脱节,导致他们不得不与大型硬件厂商合作,一起走单。这是当前市场上最真实的卡点。

解决大模型应用问题的理想途径是通过众多的“草根应用”来实现,让这些技术在成千上万甚至上百万的小应用中得到实践,从而积累人才和应用经验。然而,现实情况并非如此。

由于政策、投资和采购等多方面的原因,当前市场并不丰富,缺乏草根层面的创新和应用。这导致了整个市场过于集中力量办大事,而应用的广度和深度都不够充分,也没有给予足够的时间来让这些应用自然成长和成熟。在这种背景下,一些技术和解决方案被迫快速上马,而不是经过充分的测试和优化。这种做法可能会造成问题,因为它没有允许市场通过广泛的实践来发现和解决应用中的卡点。


InfoQ:

在FCon大会上,鲍老师将带来《精益地打造金融专家智能体》的议题分享,那么这样的金融专家智能体主要应用于哪些金融业务场景呢?


鲍捷博士:

从具体场景来看,大模型的应用不仅限于工具层面,还深入到各种业务场景中。例如,我们最近在帮助某银行构建托管系统,该系统涉及到大量的对账、指令分拣和合同比对等工作。虽然在大模型出现之前,这些工作也在进行,但现在我们可以以更低的成本完成这些任务。目前有许多Agent平台,通过这些平台的流程自动化,可以大幅提升工作效率。我们还与某个证券交易所合作,帮助他们开发公告的自动化处理系统。这项工作我们从2017年就开始了,现在我们用大模型重新开发,完全基于提示工程,不需要编写代码。对于核心公告类型,我们纯大模型部分已经达到87%的准确度,并且通过后处理进一步提高准确度。我们交付给交易所的最终准确率是99.99%

我们计算了成本,发现实现这种智能体构造的成本与2017年相比下降了100倍,即使与2021年相比也下降了10倍。这表明大模型确实为这一领域带来了巨大的生产力提升。这种技术开发过程的平民化也是一个显著进步。2017年,我们的团队由海归博士领导,团队成员至少是985高校的硕士。而现在,一些优秀学校的实习生就能够参与这项工作,这是工具链成熟带来的巨大飞跃。

尽管如此,业务系统的难度并没有减轻,业务知识的建模依然是一个高度复杂的过程。例如,在银行内部的智能化运营中,包括监管报送等复杂系统,如1104报表系统,涉及数百种不同表格和上千个具体表格,这些表格之间存在复杂的关联关系,识别和自动化处理这些表格是一个高度复杂和业务化的任务。以前没有大模型时,将这些复杂的业务逻辑转换为新的表格需要编写大量的Java代码。有了大模型之后,也可以简化90%以上的工作。

此外,还有各种投研底层工具的构建,如研报检索系统、摘要系统,以及底层资产的信息披露材料的自动化生成。

总的来说,大模型的写作应用可以归纳为三种类型的写作系统:从底稿到新底稿的生成、从数据到新底稿的生成,以及从思路到新底稿的生成。这些场景在投研、券商合规、发行等银行信评报告生成中都有广泛应用。金融领域中现在已经看到的智能体可能有上百种不同的细分场景,可以使用统一的平台来处理。

打造金融智能的关键在于能否以比传统方法更低的成本实现,这最终关系到能否盈利。商业模式能否通过提高效率来实现盈利,比如相比过去提高10倍的效率或相比同行提高两倍的效率。因此,我们的核心任务是降低成本,提高每个细分环节的效率,使用技术提升每个场景的效率。这不仅仅是算法和算力的问题,还包括用户界面的构造,用户界面可以极大地提高提示工程师的效率,这些最终都可以转化为经济效益。通过快速迭代和精益分解,以实现这一目标。


InfoQ:

金融行业文档的内容比较固定,文因也在这个领域做了很久,切换到大模型的时候还要不要等待所谓“智慧涌现”?


鲍捷博士:

这是一个工程问题,而非科学问题。现在,即使是刚刚毕业的年轻人,通过使用简单的提示工程,也能够使系统达到60%到70%的效果,如果运气好,甚至可以达到80%。因此,这件事情的门槛已经大大降低。包括以前那些特别复杂的表格处理,现在通过多模态能力,即使不理解PDF底层引擎的解析方式,也能够快速实现70%到80%的效果。

真正的挑战在于如何将系统的效果提高最后的10%到20%,尤其是在金融领域交付专业级文档体系时。例如,我们与交易所合作时,他们要求的是"四个九"即99.99%的准确率,这不是任何普通系统都能做到的。为了达到这样的高标准,可能需要在底层进行一些微调,微调之上还需要大量的预处理和后处理工作,尤其是预处理,这涉及对各种不同文档结构的细粒度理解。这里面没有所谓的智能涌现,而是需要进行大量枯燥的工程工作,包括数据的处理和清洗。

我们具体来看两个问题:首先是提示词的编写。假设针对一份招股书,招股书中可能有94个章节,涉及2400多个小类的数据点,那么你是使用一种提示词,还是使用2400种提示词?2400种提示词的管理是一个挑战,可能需要对不同类型的数据进行相应的归类。如何进行归类,这就涉及到业务属性的问题。其次,提取出的数据如果不加以控制,可能有30%以上是编造的。在金融领域,这是绝对不允许的。那么,如何发现数据是编造的呢?这就需要进行幻觉检测和控制,需要数据溯源的技巧。所有这些工作都是在大模型之外进行的。

所以对于工程师而言,需要把大量的业务知识和专业技能注入到系统中,从而将一个只能达到60%到70%效果的系统提升到99.99%的准确率。这是一个需要深入理解和精心设计的工程挑战。


InfoQ:

通用大模型在面对大多数 TOB 场景问题时有哪些局限性?落地金融专家智能的挑战又是什么?


鲍捷博士:

所谓的通用大模型底座,并不意味着它本身具有通用性,而是它具有成为通用基础的潜力。从这个意义上说,通用大模型底座在任何特定领域的初始表现都不够完美。它的优势在于,通过技术手段的叠加,可以使其适配并服务于不同的业务系统。

当前行业面临的一个关键问题是如何降低适配的成本。业界对此有不同的看法:一些人认为仅通过提示工程即可,一些人认为需要进行微调,还有一些人认为下一代模型出现后微调将不再有效。这些观点不一定谁对谁错,因为实际情况取决于具体的应用场景。例如,在进行微调时,真正的成本并不仅仅是算力,而是微调所需的数据。获取这些数据才是真正的挑战。你需要设计微调的数据集,考虑数据量的大小,是100万条还是10万条,以及这些数据是否具有代表性。微调之后,需要评估准确度是否提升,是否减少了幻觉(错误的推断),以及是否需要相应的测试集来验证微调的效果,而测试集的构建本身也是一个挑战。这些因素才是微调过程中真正的成本所在。随着模型版本的迭代,底座模型可能会不断更换,但微调的数据可能成为你最宝贵的资产。因此,关键在于如何平衡通用性、模型的演进性以及成本,这是一个非常复杂的工程过程。

多年前,我曾在InfoQ上提出,人工智能的核心在于工程,我反对仅从算法角度来看待人工智能系统。有些投资人可能会认为人工智能应用应该是算法的创新,而不是工程上的创新。他们可能不太看重在一线真正从事工程工作的人员,但我认为,所有这些美妙的成果都是工程带来的,而不是抽象的科学。


InfoQ:

为什么您会提出“精益迭代”这样的理念?企业又具体如何实现“精益地迭代”?


鲍捷博士:

比如创建一个基于大模型的写作系统,人们可能会首先考虑拥有一个尽可能强大的基座模型。例如,如果可以使用72B参数的模型,就不会选择14B参数的模型。但这种做法往往并不实际。你需要考虑实际的硬件需求,如显卡的数量和性能。显卡不仅运行时噪音大,而且发热量大,这就要求客户拥有适当的机房设施。并非所有客户都有这样的条件。如果客户仅使用4090显卡就能解决问题,他们何必要非使用A100显卡呢?在设计系统时,必须为客户考虑这些实际问题,包括显存大小、是否采用4比特量化版本或FP16浮点版本,以及这些选择对效果的影响。例如,效率可能降低3个百分点,客户是否接受?此外,还需要考虑客户使用场景的环境温度,以及他们是否有空调设备等工程问题。

当客户需要一个写作模板时,他们会询问是否需要自己配置模板。如果需要40个模板,客户可能会觉得太繁琐,因为他们可能没有人员能够配置这些模板。这时,你需要考虑如何以低成本自动化生成模板,以及如何填充模板所需的数据。数据的来源和准确性如何?如果客户要求99.99%的准确度,但系统只能达到96%,这就需要额外的数据校验和核查,这将带来成本。在整个过程中,你都需要死抠每一个细节,以降低成本。例如,如果数据校验需要投入成本,你需要告诉客户可能出错的数据在哪里,以便他们进行核查。如果数据不满足要求,客户可能需要一个置信度系统,以大幅降低人工校验成本。


机器与机器、人与人、人与机器的未来协作模式


InfoQ:

我们观察到现阶段越来越多的企业实际上在将传统人工智能技术与大模型相结合,以满足业务场景的需求。那么,传统AI技术与大模型各自的优势是什么,以及两者之间如何有效地将它们的优势结合起来,以更好地服务于金融业务场景?


鲍捷博士:

技术的发展是一个继承而非取代的过程。因此,我们不能简单地说小模型和大模型哪个更优或更劣。例如,正则表达式已经存在了50年,我预计在未来50年它仍将继续存在。而大模型只有大约5年的历史,我们无法保证它在未来50年后仍然流行。

在很多场景中,如果传统机器学习已经能够很好地解决问题,那么就没有必要使用大模型。认为所有问题都应该用大模型来解决是一个错误的想法。我们应该从这个思路出发,更清晰地理解技术的应用的演化脉络:从小数据起步,逐步发展到大数据系统,再到大知识系统。

大模型系统本质上是大规模的知识库。它标志着我们从数据时代进入了知识时代。今天所谓的大模型,可能在未来五到十年后看来并不算大。核心问题在于我们如何从数据时代过渡到知识时代。数据本质上是表格化的、二维的结构,而知识则包括了更多复杂结构,如树形、网状结构和复杂的语义结构,我们称之为本体。传统知识库系统的构建非常复杂,因为它依赖于逻辑系统。而大模型系统则将这些高成本的逻辑系统转变为基于数据驱动的系统,能够进行相对简单的知识建模。

当前的大模型系统存在严重的逻辑缺陷,例如在进行基本的四则运算时可能会出现问题。这是因为它们是基于预测下一个 token 词元的系统,依赖于概率,如果不引入特定的机制如 LangChain 或 Agent,它们无法处理递归结构生成的问题。而大多数科学语言和数学语言都是递归结构。如果未来五到十年内出现一种新的系统,能够让大模型处理递归结构,那么我们可能会发现今天的大模型系统并不如我们想象的那么强大。它处理的数据其实非常简单。技术的本质不在于规模大小,而在于处理的语义结构是否足够丰富。从这个角度来看,不同的应用和不同的侧面需要不同的模型来配合,我们不必纠结于是否使用大模型。


InfoQ:

进一步来看,在大模型时代,除了机器与机器的协作,人与人、人与机器的协作模式也将面临巨大的变化,作为金融机构和技术从业者,为了应对这种变化现在如何做好准备?


鲍捷博士:

我们的一些预想与实际情况并不完全相符。最初,我们设想人类从事创造性工作,而机器处理管理性任务,但现在情况似乎颠倒了。我特别关注的一个未来趋势是可穿戴设备的发展。虽然现在我们看到了机器人和其他智能设备,但人机交互界面的自然化可能是大模型技术带来的最深远的影响。

设想未来,像项链、耳环或耳机这样的日常配饰可能就是大模型的终端设备。当你走进家中,墙壁本身可能就是一个大模型终端,集成了传感器和新型显示设备,甚至成为建筑材料的一部分。未来的显示设备可能与大模型直接相连,当你进入车辆时,车联网也可能直接接入大模型。我们对智能设备的接触已经从大型机器演变到小型机、个人电脑、手机,再到现在的可穿戴设备和智能手表。未来,这些设备可能会更无缝地集成到我们的生活中,生活中的一切可能都将自动化,我们的生命将被记录和存储。

这种全面的智能化可能带来科幻般的变化,例如《全面记忆》一书中描述的全方位记忆能力,这可能会记录我们一生的每个细节。这将对我们人类的运行机制和社会组织产生深远影响,无论是积极的还是消极的。

从ToB的角度来看,大模型技术将极大地转变我们的生产力。过去三四十年里,尽管计算机设备变得更快,但办公室生产力并没有发生根本性的变化。大模型技术可能真正实现办公室生产的自动化,即大模型驱动的办公自动化。我相信这种自动化将带来经济上的巨变,称之为“第四产业”——不再是物质的生产与分发,而是信息(特别是知识)的生产与分发。目前,第四产业在经济总量中占比约为30%,但在未来几十年内,可能会增长到80%。这是人工智能可能带给我们的经济未来。


1、企业专家智能体,从数据到知识(2)| “JIT”——企业内部知识管理的新范式

2、腾讯TVP专访文因互联鲍捷:大模型时代里的「盲目自信」与「人间清醒」

3、企业专家智能体 | “从数据到知识”,大模型时代的知识库建设

4、实战精要:大语言模型信息抽取面临的5个挑战(5/N)

文因互联
领域大模型实践者
 最新文章