前情
2023 年伊始,文因互联携手某头部证券交易所,应用大语言模型技术实时处理、分析海量文档,构建高质量的资本市场知识基础设施。此前,我们也对“知识管理”保持高度专注。基于近年在 AI领域的语料数据、场景应用中的各种实践,我们沉淀了一些思考,和大家一起分享、探讨!
导读
今天的分享,将基于实践经验的总结,关注技术“落地”,大家可以带着这样几个问题一起加入探讨:
1、语料到底有什么“魅力”,让大家竞相追逐?
2、企业进化,需要关注的核心工作是什么?
3、什么样的人工智能可以适配“活的”业务规则?
之前和大家聊过文因的大模型落地“四大工程”:语料工程、提示工程、质控工程、运维工程,主要用来解决大模型落地的最后一公里问题。而“四大工程”的第一个重要的工程就是“语料”,语料为什么重要?
01
语料为“王”背后,到底在追逐什么?
2023年是大模型元年,2024年是大模型场景应用元年。人们越来越认同“得语料者得天下”的观点:喂什么样的语料给大模型,就会产出什么样的内容质量。在思考语料为什么重要之前,先一起回忆:语料从哪里来?
1.1
先有数据,再有人工智能
人工智能的发展是多方面的,包括数据处理和运用的进步、算法的创新、硬件的增强、理论研究的深入以及在多个领域的应用。在讨论语料的重要性之前,我们需要明确数据和语料的定义。从出现时间上看,数据的出现早于语料,但从宏观来看,语料可以视为数据的一种特殊形式。现阶段,大模型的训练和评估需要数据集和语料库。
数据集包含了大量标注数据和无标注数据,随着深度学习在 NLP 领域的广泛应用,出现了许多无监督学习数据集,通过互联网抓取,形成覆盖广泛的领域和语言的丰富资源库。所以作数据集是基础,但并不涵盖很多复杂的知识。
语料库包含了大量真实世界的文本数据,它的质量会对模型产出的内容有重要影响。早期的一些语料库,会从公开资讯、文学作品、公开网站获取内容,后来为了在应用场景中更加贴合需求,大家开始构建更加具有各领域知识或者需求方向的语料库。
因此,随着检索、问答、生成等交互形式的普及应用,人工智能的人机交互友好的需求只增不减,在各个场景中对于专业知识的需求也会不断增加,且对语料数据的质量要求更高。语料库,作为包含领域知识的宝贵数据,是影响内容产出的关键资源。
1.2
抽丝剥茧:知识的储存与运用
从原始的符号,到文字,再到数据,人类一直在试图“留下”记忆。不论是数据还是语料,都是为了传递记忆中的知识。在记录之后如何储存并运用这些知识,是数字化转型中我们真正应该思考和需要解决的问题。
机构在数字化转型的前期阶段,会面临大量非结构化的数据,在这其中的知识往往只能通过口传心授,总结出文档进行记录保存,很难保存很多细节的业务经验。同时,在知识的传递过程中,也会存在损耗、流失的问题。
数字化逐渐深入,机构内出现了结构化数据与非结构化数据并存的情况。过渡时期格外需要关注知识储存的兼容性和完整性,通过领域语料内的知识沉淀,不断赋能数据价值的挖掘和利用。复杂、非结构化的数据往往要经过一个“选矿”、“初炼”的过程,方得让大模型有效利用。
特别是在很多工业领域中,生产制造的过程中,机器产生大量的数据,我们仅仅对其中一部分进行利用,就会在业务上产生可观的运营效果提升。所以我们讨论语料、数据或者讨论大模型,本质上都是在讨论关于“知识”的一些工作,大模型本身就是知识。
1.3
大模型时代,互联世界的知识
知识管理,经历了专家系统、语义网、知识图谱等几个阶段。随着大模型和 Agent 的落地应用,大家逐渐产生一个疑问:知识图谱已经不被需要了吗?Agent已经取代以前的技术了吗?
其实不是。知识图谱作为一种高度浓缩的数据形式,相当于数据的"打折卡",这样的数据一直是必需的。传统知识图谱建模方法成本较高,而大模型本身就是一种非常有效的知识图谱创建方式,大大降低了这个成本。
大模型本身在逻辑性问题上有很多不足,例如算数计算、业务规则推理、递归法表示(例如计数法),知识图谱可以有效不足单模型在这些方面的不足。
Agent 其实也不是“新技术”,可能很多人没有意识到,技术发展是一个循环。40 年前,大家做专家系统,发现太难做了,于是在 30 年前,发明了一种新技术——智能体(agent)。20 年前,发现智能体也太难做了,把它简化成了语义网。10 年前,发现语义网还是太复杂了,继续简化为了知识图谱。
现在,我们发现知识图谱依然过于复杂了,于是又把它简化成了现在基于大模型的专家系统。历史完成了一次完整的循环。因此,并不是一种技术取代另一种技术。回头一看,我们始终在做关于“知识”的工作。
02
知识管理的发展:三种范式
从数据,到语料,到知识,我们在知识管理领域摸爬滚打了十几年,总结了历史的2种范式,并提出了我们自己的新范式,也许会更适合现阶段企业的发展需要,和技术的落地环境。
2.1
第一种范式:SOTA系统(预定规则的系统)
Rule-based,瀑布式的建设过程,“死”的业务分析。
这种系统的特征是由业务规则驱动,依赖预先定义的业务规则,所以想要确保系统的业务可用性,就必须让业务规则准确且全面。也正是由于对业务规则的高要求,通常需要定制化建设来满足特定业务需求,当业务需求发生变化时,系统规则也需要进行对应调整。由此带来高昂的开发、维护成本。但在生产中,真实能达到B端业务要求的,预定规则系统依然是SOTA。
尽管这种模式在一定程度上能满足90%的业务需求,但总有一些特殊情况和需求是预先定义的规则所无法涵盖的。这就导致了剩下的10%的需求无法被满足,进一步增加了系统的复杂性和成本。且由于在不同业务场景下的定制化开发,不仅繁琐耗时,且在使用时刻无法演化,在迭代过程中不免带来很多重复劳动和成本增加。
2.2
第二种范式:端到端系统(LLM-based)
EOE(End-to-End)端到端,基于大模型实现通用知识建模。
在SOTA系统之后大模型的兴起带来了另一个思路,提出了一种理想中的端到端系统(EOE系统),希望通过大模型直接处理问题。虽然大模型在广泛的场景中具有较强的泛化能力,能处理各种类型的问题。然而,大模型目前并不可靠。由于其深度学习的本质,因此很难在 ToB 场景中实现幂等性、可靠性、经济性。
自回归式大模型系统中存在的幻觉问题、F1 低都使其在业务应用中难以实现高效和可靠的结果,且使用大模型时的高费用,使得其整体拥有成本居高不下(TCO高),对于许多企业来说也是难以承受的。
2.3
第三种范式:JIT 系统
JIT(just in time)即时知识更新能力——“活”的业务分析
在知识管理发展阶段中,我们基于前两个系统类型的归纳,和实践中遇到的问题分析与经验总结,在现有技术阶段,我们创新提出新范式“JIT”。知识管理也好,数据应用也好,本质上还是做关于软件工程的工作。企业的业务是“活”的,所以需求千变万化也是“活”的,如果用的软件是“死”的,又怎么会合适呢?
企业需要软件系统的工作有高可用性,业务规则需要实时调整。在新范式中,用提示工程辅助快速建模,业务分析师即可进行快速建模,实现提速的同时降低建模成本。
在数据层面,用大型语言模型(LLM)进行数据处理时,也提高了数据处理的效率。同时,实时更新系统内知识库和业务规则。
在业务分析层面,使用大型语言模型(LLM)进行分析通常成本很高,JIT系统通过优化调用机制,减少不必要的模型调用次数,并根据最新的数据和信息动态调整业务规则,确保业务流程的持续优化和改进。
最终在应用层面实现:可演化、高可用(高F1、低幻觉)。大幅降低开发维护成本,让企业真正感受到大型语言模型(LLM)赋能带来的效率提升与业务优化。
所以,文因互联结合现阶段的企业知识管理需要,以大模型技术为基座,结合自然语言处理(NLP)、提示工程、知识图谱等技术,帮助企业进行知识管理,实现数据价值的挖掘和利用。
技术更新和应用,目的是解决问题。虽然基于大模型端到端的范式很有吸引力,但目前还达不到实际落地的业务质量要求。在大模型技术不断演进的今天,我们更应深入思考算力与数据之间的相互作用,探索与当前阶段相适应的发展策略和技术应用。
回到对于企业进化和数据运用的思考,我们致力于收集、存储数据和语料,不仅是为了保存知识,根本目的是为了激活知识的力量。
03
跳出“技术时尚”,找到企业进化主旋律
企业进化的核心来源于记忆与知识的传递。数字化转型的“精髓”,是找到企业进化真正的主旋律——知识的传承与应用。
大模型的真正价值,在于数据的深度、精细处理的能力,以及建立一套标准化、高效的工作流程。其关键在于如何有效利用数据,而非单纯追求数据的体量。现阶段,在适配算力得到满足的情况下,我们可以把目光更多地放在数据、语料方面的工作。
我们提出知识管理的新范式“JIT”,通过更高效的业务分析,实现更低成本的快速建模。用更低成本的快速建模,帮助企业内部业务规则的实时更新。形成“业务——数据——业务”的正向循环。让企业内部的知识持续沉淀,促进企业内部知识的持续积累和快速转化,使之不断为实际业务注入活力。
关于我们
文因互联是一家“AI+知识管理”科技创新型企业,专注于领域大模型。
以大模型技术为基座,结合 NLP、提示工程、知识图谱等技术,通过多年行业实践积累,实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析。致力于企业知识的深度挖掘与有序传承,进而助力企业实现提高工作效率,沉淀知识工程。
立足金融,辐射航空、医疗、媒体、建筑、房产等行业,金融领域已服务上交所、北交所、宁波银行、平安资管、招商银行、银河金控等头部机构,同时在航空领域与南方航空、深圳航空、吉祥航空、东方航空、民航大学等合作落地多类细分场景。获得中国证监会首批科技服务商备案,IDC、CB Insights、毕马威等权威机构金融科技 50 强认证。
往
期
推
荐