本内容转载自“Z计划支持大模型创业”
2024 年,以大模型为代表的 AI 技术持续带来颠覆与震撼,推动产业发展加速迈向关键拐点,生产力重塑的新时代已然可见。
为捕捉变革浪潮中的创新扩散脉络,勾勒未来产业发展的可能图景,Z 计划 & Z 基金携手大模型领域的创业者、投资人和科研学者,共同发起了一场聚焦前沿的探讨。从技术趋势洞察到应用实践探索,我们希望与你分享关于这场变革的思考,探讨科技、商业乃至人类未来的无限可能。「Z计划」 是智谱 AI 面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。「Z基金」是智谱联合生态伙伴设立的大模型生态投资基金,侧重早期,管理规模 15 亿元人民币。第一期分享,我们与「彩智科技」创始人兼 CEO 徐剑军聊了聊 ToB AI Agent 应用落地的可信挑战与解决途径。彩智科技在 2024 年年中成为 Z 计划企业,并获得了 Z 基金(智谱生态基金)投资。公司历时四年完成了涵盖全国各行业、各地域的公共行业知识的全量大知识工程,旨在为大模型智能体提供可信赖、开箱即用的通用行业知识模型「深知大脑」。以下是智谱 Z 计划与徐剑军的完整对话:在模型研发和训练阶段投入高额成本后,让现金流回归产业成为 AI 行业无法回避的难题。
破题的关键路径之一,是推动基于大模型的各类 AI 应用在千行百业的真实业务场景中落地使用,创造实际商业价值。企业搜索、智能客服等基于 Agent + RAG 技术构建的 ToB AI 应用,因其较高的落地潜力而备受关注。
然而,彩智科技创始人兼 CEO 徐剑军认为,仅靠强大的基础模型和先进的 Agent 和 RAG 技术,并不足以为产业客户交付可信赖的 AI 产品。而可信赖却是当前 ToB AI 应用广泛落地需解决的核心挑战之一。
在徐剑军看来,产业客户要求的可信意味着 AI 给出的业务结论要可解释。与 Anthropic 追求的模型在理论层面的可解释性不同——前者本质上是在解决对数学、物理等自然形成知识的认知,而各行业业务结论的可解释是因果可溯源, 结论的依据最终会回归到决策权归属或人为设定的约束规则中。具体而言,应用层面的可解释更多是对人类后天形成的知识,尤其是各行业的规范标准、政策清单等建章立制知识的认知,或通用行业知识的认知。“针对人类自己人为设定的知识的认知,还得靠符号解决。”徐剑军认为,和自然形成的知识不同,规章建制等人类后天形成的知识缺乏内在规律,并且经常因人为原因而变动,因此仅依靠大模型无监督或自监督的训练机制无法最终赋予 AI 准确“理解”这类知识的能力。但由于这些知识承载了企业业务场景中私有事务数据之间的内在关联,如行业是如何约束企业数据的,因此是基于大模型的 AI 应用在企业端落地不可或缺的。
上述洞察是徐剑军创业 4 年来,坚持做「大知识工程」的动力,也是彩智科技选择以全量体体化的知识增强形式,通过通用行业知识模型来服务其他智能体,支撑大模型在各类场景中应用落地的核心逻辑。
据徐剑军观察,目前在大模型应用上,企业客户不仅开始更务实地选择多模型方案,同时,在客户现场也出现了类似“大模型供应商 + 软件公司 + 彩智科技”这样的产业链上下游企业共同提供服务的情况。
部分采访片段可以点击下方视频观看:
#1. ToB AI 应用,可解释性=业务可溯源
Z计划&Z基金:ToB AI Agent 应用,比如企业搜索近期吸引了大量关注。这些应用在真实落地时的核心挑战是什么?
徐剑军:需要 100% 可信。我们更多从黑盒层面定义可信,也就是在实际业务中,或实际的需求和应用场合里,有足够证据证明人工智能系统是可信的。我个人认为不存在真正从原理级或白盒级完全可信的通用人工智能或超级智能。就像我们永远搞不清楚人类为什么会有思想。纯理论的、纯内部机理的可信不是我想讨论的范畴,比如大语言模型通过无监督训练后,每一次交互时的可解释。Z 计划 & Z 基金:这是否意味着现阶段 AI 应用落地时,无需追求类似 Anthropic 致力于实现的理论层面的可解释性?
徐剑军:现在的确有很多非常聪明的人在研究,很有价值和意义。只是我们现在讨论的是 100% 可信,在这个层面我觉得不应该追求 100% 的彻底可解释,同时我认为相关研究大概率难以达到最终的 100% 可解释的效果。它会搞清楚很多局部的事情,有利于提升基座模型的各种各样的能力。Z 计划 & Z 基金:如何理解 AI 应用落地实践所要求的可解释性?
徐剑军:有一个明显特征是业务可溯源,即能解释清楚针对特定问题,为什么答复是 A 而非 B。这通常需要模型具备关于人类后天形成知识的认知。我们把所有知识分成两类,一类是自然形成的,包括语言、数学、物理以及一些人类常识,比如时间的流逝、空间的状态,也包括医疗等很多专业领域知识。我们期待智谱、OpenAI 这样的大模型公司,能在现有基础上不断创新,彻底打穿和攻破这些知识领域的认知能力。还有一类是人为设定的后天知识,比如人类建章立制的,各个行业的规范标准、政策清单等。在人类后天规定的约束规则下处理模型的认知,我们叫通用行业知识的认知。业务可溯源就是要让 AI 在回答时说明,之所以给出一个答案,是由于在人类后天形成的社会中,这个问题涉及的管理机制和社会治理机制是这样的,或者说对某个问题的回答最终会聚焦到这件事由谁说了算,谁在什么时间点说了这件事。Z 计划 & Z 基金:从业务可溯源的角度,模型需要准确判定特定问题的决策权在某个特定时间段应该归属谁。难点在哪?徐剑军:真正的复杂点是要建立起一个巨大的规则网络。比如,要在中国市场做事,就得了解整个中国的社会治理框架,从中央到地方,覆盖政府规定、行业组织规定,有一些是中央一级、省一级、市一级,甚至政企单位所在的区县、街道有自由裁量权的,还有些是企业自己有自由裁量权的。有一套完整的规则体系之后,再考虑在这个规则体系下,如何在能承载规则知识的不同地域、不同行业规则知识的规范性文件之间建立起一张巨大的关系网络。从目前看,全中国大概有几十亿。只有这样,行业通用知识的专用模型,才能在最终需要提供各类决策意见时,准确找到对应的、匹配的知识。Z 计划 & Z 基金:对企业应用而言,规则等建章立制等背景知识数据是必要的吗?
徐剑军:人类后天形成的数据也可以进一步分为两类,一种承载的是知识,比如各种概念知识,还有一种是事实数据,比如此时此刻所有货架上的商品清单。
从与大语言模型融合,搞定人类规则知识的角度来说,我们只关注承载概念知识的知识型数据。对于事实数据,更多是基于 Agent 框架,动态地、安全地调用即可。但如果需要调取千行百业各种各样的私域事实数据,尽管我们通常不涉足,由于很多与业务相关的事实数据之间的关联并非自然形成的,而是人为设定的,比如行业是如何约束这些数据的。实践中,我们发现,只要这些事实数据关联是人为设定的,大语言模型就很难做到 100% 可解释。Z 计划 & Z 基金:从你们的角度,为什么大语言模型在涉及人为设定的知识时,难以做到完全可解释?
徐剑军:我们很早就有一个技术认知,认为常识不可能用知识图谱的方式,即用符号的方式打破,但如果是后天人类自己基于符号形成的知识,还是得靠符号解决。因为后天形成的没有那么多规律。
从现实情况看,我们最近这半年也接触了大量的案例,不只是大模型公司,很多传统软件也在 AI+ 转型,尽管用了现有的最强大语言模型,有很靠谱的团队做智能体开发,也很难解决偶发性的,比如有 10% 的概率会出现误判的问题。包括很多大厂在内试图解决,给出的方案就是二次训练。但二次训练很恐怖,一是成本高,二是训练后效果未必好,实践证明也是这样。#2. Agent + RAG + 知识增强:大模型应用落地实践范式
Z 计划 & Z 基金:RAG(检索增强生成) 当前也难以解决模型缺乏对人为设定规则等知识认知的问题吗?徐剑军:实际上 RAG 可以做到技术溯源,因为能搜出来信息的出处。但我们的观点是,真正深入到严肃的工作场景,至少目前 RAG 加 Agent 不可能解决企业应用 100% 可信的问题,还要再加上知识增强。但知识增强的代价会大,因为如果仅针对一个订单、一个场景做知识增强或知识图谱,很耗费精力。尤其要保证质量,要上人工,很贵,也会出错。我们过去四年做的最难的,也是比较大胆的事情是做了彻底的知识增强——大知识工程。把国内所有的行业基础知识都建好之后,变成一个在知识增强上可以开箱即用的工具。原来,大知识工程平台只在内部作为给知识分析师使用的工具。我们最初只是把知识工程做得高度流水线作业和标准化,后来针对流水线作业的每一个岗位,我们都基于有监督的机制,加上深度学习的基本原理,开发了专用模型,做自动化的知识工程。目前针对特别复杂的或全量的大知识工程时,已经做到只有百分之零点几需要靠人工。Z 计划 & Z 基金:什么应用场景不需要知识增强,Agent + RAG 就足够了?徐剑军:如果智能体只是作为企业里的辅助工具,为人提供意见参考,一般只需要加上 RAG 就行。但在我看来,如果需要智能体给出一个 100% 准确的、让人放心的工作结论,能真正在很多环节代替人们来执行一些任务时,高质量的知识增强必不可少。Z 计划 & Z 基金:未来如果基础模型,或 Agent 和 RAG 技术进一步发展,是否会削弱对知识增强的需求?徐剑军:我认为不会。首先,模型认知能力的提升,不等同于获得了知识本身。比如,o1 更多是通过思维链,或者通过对思维链类似流水线作业的赋能,提高了模型的认知能力。打个比方,大语言模型原来只是一个比较聪明的能考上普通本科的高中生,有了 o1 就可以考上 985 了。但他还是学生,真正工作上岗之后,他该知道的东西,仍不会因为他变得特别聪明就无师自通了。我们做过一个实验,纯粹基于人类建章立制的数据,后天知识的记忆水平上去调取,o1 preview 相较于 GPT 4-o,提升只有不到 20%。这是我们预料之内的结果,因为它仅仅提高了认知能力。但为什么还是可以提高 20%?很有可能它本身有这些知识,但如果思考不谨慎, 就会有一定的错误率。如果思考谨慎一些,反复地琢磨、确认,就能够降低一些错误率,但这不代表它就能消除错误。其次,对落地应用来说,基于一个强大的大语言模型支撑的智能体是不可或缺的,知识增强和它们是 1 + 1 大于 2 的关系。深知的长期定位是通过专用模型和数据订阅服务其他智能体,作为各类场景中的应用支撑,并非只做智能问答和智能客服的 AI 应用企业。和人类进化或人类发展道理一样,AI 的发展也不能只靠个体智能,还要形成群体,学会使用工具。Z 计划 & Z 基金:最初如何得出服务于智能体这一产品构想的?徐剑军:希望机器给出 100% 准确回答的愿景始终不变,但最终不只服务人,也可以服务智能体的转变确实经历了一个过程。由于我们过去测试过大语言模型,发现它的基础能力仍然有问题,因此在 22 年的 12 月份 ChatGPT 发布之前,并没有想真正从工程上完全把我们的专有模型和大语言模型嵌入在一起。ChatGPT 出来之后,我们感觉得赶紧考虑互相融合和嵌入的方式。当时我们看了各种文章,也找到清华的老师求助。李娟子老师提醒说有一个叫 Toolformer 的论文当时比较火,可能文章发布得更晚一些。读完论文,我们就认定,在大模型时代我们的定位就应该是 tool(工具)。但当时虽然有这样的想法,更多是从技术上往前推进,也没有想到后来产业界会迅速形成智能体的一套理论。现在也不怎么叫工具了,叫 function call。本质上是一样的。Z 计划 & Z 基金:通过知识增强服务于其他智能体,具体怎么实现?徐剑军:智能体现在有两个方式,一个是智能体之间互相通信,形成协作。第二是简单的 function call,通过 API 调用。目前我们这两种接口都已经做好了。Z 计划 & Z 基金:怎么看待产业链未来的格局,深知处在产业链的哪个位置?
徐剑军:可以看作中间层,服务于各种各样的智能体。我们希望成为大语言模型进入千行百业的伴随工具,来解决后天形成知识的可信问题。
最近一个有意思的变化是,过去我们的订单和线索大多是自己 BD 或依托智谱这样的大模型公司来获取。但现在有很多传统软件公司也会直接找到我们。在很多高价值的,有一定场景复杂度的客户现场,往往是大模型公司、软件公司和我们共同提供服务。
其实我们在几个订单上都是被临时喊去的。在我们没入场前,不管是大语言模型厂家,还是集成商或专业软件公司,都觉得头上悬着风险,不知道他们对这个领域或对这个客户知识的专业训练能不能成,或者他们尝试的效果总是不及预期。
我们能做的事情就是,帮助大家给客户交付一个 100% 可信的应用。最终客户拿到的是业务可信赖的结论,每一条结论在业务上都可以知道前因后果。智能体使用起来会很放心。
有了我们的参与,大模型公司可以关注如何释放模型能力,软件公司也可以更专注在自己的专长领域,安心研究客户场景、工作流,研究最终用户体验的打磨。
#3.AI 应用大规模落地的实际挑战:构思如何变革业务Z 计划 & Z 基金:目前彩智既有模型订阅又有数据订阅。如何构思未来的产品形态?徐剑军:坦率说,我们目前的产品形态已基本足够。我们内部的产品开发已经严格分成两层。一是深知的知识服务,也就是为智能体提供超级工具。此外,我们为了面向市场,也有自己的智能客服和问答产品,所以也有应用层的开发,做一些相对通用的场景化的智能体。
模型+数据订阅的陈述是为了让客户更好地理解深知在做的事。数据订阅实际上是知识订阅,主要用到的还是处理好相关数据,形成动态知识图谱的能力,同时要和企业的事实数据准确挂接。由于我们处理的是人类建章立制的概念知识,每年会发生 20% 到 30% 的变化,即便不考虑模型能力本身的增长,也要适应知识的变化,因此专用模型也要不断升级,所以就形成了模型订阅。基本保持每周更新。Z 计划 & Z 基金:Agent + RAG + 知识增强这样的应用范式,要在企业端广泛落地,还有哪些需要突破的难点?徐剑军:目前在我看来,各行业对大语言模型等技术的应用还处于很早期的状态。我们接触到一些企业,想要快速用起来,但数据质量很差。好处在于,对我们已经处理的知识,不需要用户再治理,包括企业所处的行业、城市的规定,各种法律、经营商的规则约束数据。这些补充企业事实数据背景知识,我们已经彻底和大语言模型做了融合训练。但针对企业事实数据或特定的私有数据,需要生态伙伴。早期订单不复杂的情况下,我们也可以自己先处理,把基础的数据治理工作做好,这个躲不掉。长期随着领域的扩展,涉及到更复杂的企业应用场景,企业内部数据可能千奇百怪,还是希望有专业的数据服务商一起来做。尤其金融、保险等特定行业,拥有大量存在高度知识关联的事实数据,同时又有高价值,面向 AI 应用的数据治理很重要。Z 计划 & Z 基金:如何看待 AI Agent 应用在企业端落地时,Agent 技术发展的挑战?徐剑军:单就智能体开发而言,尽管学问很大,但我们惊讶地发现,近半年大家卷起来后,总会有优秀的人和公司可以快速地掌握智能体开发的技术,进步也很快。从落地应用的角度,当前智能体开发的技术已经可以满足企业需求了。难点反而是智能体怎样真正变革客户业务,从客户现场把钱挣回来。现在已经有一些清晰的场景,但如何给最终用户带来高价值,是需要调研、设计和验证的。Z 计划 & Z 基金:有哪些场景你认为是清晰的、高价值的,但还需要进一步验证?徐剑军:比如员工报销。可能分成几个层次看,第一个层次是,提供知识服务解决员工掌握报销制度的问题,有点用,但价值不大。第二个层次,做一个智能体,当要发生任何费用时,给出相应业务对应的各类报销规则,在事前提醒员工,报销流程怎样做。这样的工具会让员工感觉到产品价值,也引起了买单企业老板的注意。但他会进一步问,这个东西不能只方便员工,需要帮我想想怎么省钱。怎么帮他省钱,往深了想就很复杂。实际上,需要有非常了解整套员工报销机制,还得了解企业各种现状,实际业务是怎么发生的,甚至还得了解企业的文化氛围,才能够替他的老板设计出一个表面上方便员工,实际上是替老板省钱的报销智能体。如果到这一步,我认为就不是大语言模型厂商或者软件公司可以关心的事情了,更不是我们关心的问题。太个性化,可能得是企业自身的信息化部门,再叫上企业 HR,然后“伙同”老板躲到一个屋子里密谋。密谋完,有策略之后,到底是交给地第三方软件公司开发,还是将来智能体开发方便了,企业自己做这是后话。最困难的事其实还是怎么去想策略。Z 计划 & Z 基金:在商业化上,如何面向客户讲清楚 ROI?徐剑军:我们过去,尤其是大语言模型没出来前,很难解释我们到底是什么。我们总结的经验就是如果客户一定要刨根问底,这个订单要成就很困难。我们最后说服客户的办法就是看效果,所以早期确实没有敢想要去服务智能体,都是服务于最终用户,做成一个智能问答,或智能业务助手,让客户看得见摸得着。我们现在几个订单验证的系统效果非常明显。单就智能客服来说,如果全面使用,人工效率会极大提高。比如,全国的 12345 热线,各种专业热线大概有 1000 个,都是重大型的,这方面至少每年投资几百亿。原来解决一个问题得花 5 到10 分钟,我们都不用太颠覆性的产品,仅仅作为人工坐席的赋能工具,处理时间绝大部分都缩短到了 20 秒。我们认为这样的赋能场景,明年开始会有快速的增长。Z 计划 & Z 基金:在你看来,离整个工作流都交给 AI 还需要多长时间?徐剑军:得讨论工作流对应的场景和领域,如果是娱乐或一些高频的电商消费场景,可能会比较快。如果真正深入到严肃的工作场景,还有待讨论。但目前来看,智能客服这样的应用能先落地跑起来,有现金流回到整个产业里,对整个产业的发展很有意义。我们也特别希望有比较好的推广的力量和一系列正确的措施和步骤,能让更多人用起来,并从中受益。Z 计划 & Z 基金:除现阶段辅助大模型应用落地,深知智新未来还希望达成什么目标?
徐剑军:我们最终的想法就是和大模型结合在一起,共同为各行业应用场景的智能体广泛的赋能。我们相信各行各业的办公室型非专业技术岗位,所有非决策型的工作在未来 3 到 5 年内将有 90% 以上改由智能体完成。这些智能体的背后需要我们配合大模型共同提供一个用于工作的 AI “超级大脑”,它可以指导行业业务智能体遵循其所属的行业、地域、机构部门的规章制度,可信赖地完成工作。