大模型在融合通信产品中的应用实践

科技 2024-07-17 15:00 辽宁

嘉宾 | 周梁伟

编辑 | 薛梁

IM 和 RTC 技术作为融合通信的关键技术，在社交、客服、协同办公等诸多场景中得到充分利用；在大模型快速发展和日渐成熟的背景下促使行业也发生了很大的变化，特别是 LLM 技术的第一个现象级应用 ChatGPT 就是以会话作为唯一交互形态；如何结合 LLM 和通信 PaaS 平台加速场景化落地成为一个关键议题。

网易也在做大模型技术应用探索，也在内部的多个业务线有落地实践。在 ArchSummit 架构师峰会上，来自网易云信首席架构师，产品部负责人周梁伟就介绍了大模型在产品上的一些应用。以下是演讲整理。

我们的业务叫网易数智，早在 2015 年左右就开始涉足 ToB 市场。业内的一些云公司采用的是高举高打的策略，从底层架构开始搭建。而网易则结合自身业务进行内部基础设施建设。在服务自身业务的过程中，我们逐步完善这些基础设施，将其场景化，并最终包装成对外提供的 ToB 服务。

今年年初，网易数智进行了业务变革，结合大模型和 AIGC 等业界前沿技术能力，整合了更多业务，增加了智慧和 AI 的元素。那么，目前网易数智包含哪些业务呢？首先是网易易盾，主要负责内容安全。网易有大量内容型产品，如网易新闻和网易云音乐，这些产品中存在大量的内容审核需求。在网易易盾中，我们将传统的机器审核与大模型结合，推出了 AI 内容检测、智能风控、实名认证以及安全架构等相关能力，对外提供网易易盾安全产品。

第二块业务是我负责的网易云信。自 2015 年起，网易云信开始对外商业化。其起源可以追溯到网易泡泡，这是一款即时通信软件。在微信时代，我们与电信合作推出了网易翼信，达到了亿级用户规模。在 C 端市场逐步积累了大量融合通信经验后，我们发现即时通信（IM）和音视频通信在各种场景中都是非常刚需的能力，但要建设好这些能力难度很大。因此，我们将其包装为网易云信，对外提供即时通信、实时音视频、直播、点播以及与运营商结合的短信等业务。

今年，我们的业务整合后，还融合了部分轻舟微服务和轻舟中间件，这些是面向开发者的软件服务。网易云商则结合了网易严选和考拉等电商平台，推出了客服平台。数帆和 CodeWave 也在其中。随着大模型的发展趋势加深，各产品都整合了相关功能。举个例子，AI 内容检测从过去的基于机器规则匹配，转变为结合 AI 模型识别大量 UGC 内容，带来了更多挑战。在自动问答生成过程中，如何做好内容风控也是一个关键点。我们结合 AI 的合规要求，推出了一些新产品。

在网易云信中，我们主要做通信，它是一个通道。但这个通道的应用场景通常在社交领域，这是一个相对高风险的场景。在这个过程中，我们不仅要做好内容安全管控，还要将通道过程中产生的数据价值与 AI 结合，充分发挥其潜力。

这是网易云信的 PaaS 架构。我们从网络层开始构建了一个全球实时通信网络。这个网络支撑了目前三大主要业务：RTC 音视频通话的实时网络、IM 即时通信和直播流媒体的分发网络。这个基础网络是我们 PaaS 平台的底层服务，尽管不直接提供给客户，但它是我们 PaaS 产品的核心基建。

在 PaaS 产品层，我们提供的服务包括 IM 即时通信、信令、直播、点播、短信和音视频等。这些能力是开发者可以直接使用的。除了我们自身提供的能力之外，我们还与第三方厂商合作，特别是在安全方面，我们有网易易盾这样的能力，也有第三方厂商的生态支持。

在大模型应用场景上，由于 PaaS 平台的广泛应用，我们的客户可能会使用我们的能力来实现娱乐社交、教育、协同办公等场景。由于这些场景多样，很难通过单一模型覆盖所有需求，因此我们更多地起到桥梁和生态连接器的作用，与各类公有云和私有模型部署、训练实施等厂商合作。

此外，我们还与视频处理厂商合作，提供如美颜、变声等能力，以及与社交行业中的游戏厂商合作。这些都是我们的生态合作伙伴。今年，我们业务整合后提出了数字化方向，主要面向企业场景，包括内部办公和内外营销沟通。

许多企业提出不能使用公有云，包括大模型，因此我们自 2017 年起就提供私有化部署服务，解决客户在数据安全方面的顾虑。我们还结合实施和集成类生态合作伙伴，共同提供这些服务。

我们的 PaaS 平台支持客户使用多种融合通信场景，包括单聊、群聊、弹幕聊天室、音视频等。这些场景在娱乐社交、教育、医疗和金融等领域有广泛应用。例如，在医疗场景中，本地医院医生可以与远程专家在线阅片，产生大量音视频互动和 IM 内容互动。

在金融场景中，我们支持虚拟营业厅和柜员，基于这些底层能力构建上层业务场景。协同办公是另一个重要场景，虽然市面上有钉钉和飞书等 all-in-one 产品，但很多客户出于合规或个性化需求，不能使用 SaaS 产品。因此，他们可以基于我们的融合通信能力构建自己的 OA 办公平台、企业培训平台、视频会议平台和客服系统。

通过 8 年的持续产品迭代，我们已经积累了大约百万开发者，发送了超过 2 万亿条消息。这显示了我们在数据体量上的巨大优势。

回到大模型结合的问题上，我们的通信系统本身是一个连接器和消息分发网络。在结合大模型的过程中，我们发现客户有几个关键痛点。

首先，如何将 AI 能力融入用户交互层面。例如，在群聊或客服互动中，如何将 AI 能力整合到点对点或群组沟通中。

其次，在群聊或客服互动过程中，已经产生了大量上下文数据。这些数据在与客户沟通时，可以被提取和利用，进行基于上下文的持续问答。这些数据对于模型训练非常重要。

第三，也是最关键的，许多客户内部已有 AI 团队在训练大模型，或使用供应商提供的大模型实时和训练服务。如何与这些 AI 能力结合，是一个重要问题。因此，我们更多地作为一方、二方和三方之间的大模型生态连接器，促进这些资源的整合。

最后，许多客户更倾向于本地化部署。这主要出于两个原因：安全性和业务迭代的持续性。本地化部署的大模型成为企业的大脑，包含所有数据信息，能够支持更多业务和不同场景的数据整合和利用。这是客户最关心的问题。

从业务场景的角度出发，我们的方案主要涉及以下几个层面。首先，从最基础的层面看，AI 技术已经广泛应用于各种业务场景。例如，通过 AI 进行关键词搜索、提取相关信息、语言翻译，甚至是自动语音识别（ASR），这些都与传统方法有很大不同。此外，AI 还可以应用于论文索引、代码生成和优化，为程序员提升效率。

今天我们重点讨论两个与 IM 和大模型结合的场景。第一个场景是客服，包括售前咨询和营销类客户服务。第二个场景是娱乐社交，包括虚拟人物和 AI 机器人社交语聊。在这些场景之上，AI 技术可以广泛应用于不同行业。例如，在电商领域，客户通常在购买商品后需要与客服沟通处理售后问题。虽然这个场景的交互时间较短，但在其他场景中，客服的交互时间可能更长。

以我们自身为例，网易云信面向开发者的产品在售前咨询过程中往往持续半个月到一个月。开发者在集成 SDK 或 API 时，会产生大量的问答，并且这些问答可能有前后关联。长流程客服场景中，对历史信息的提炼和关联尤为重要。

类似地，在线教育和办公协同中也存在客服场景。比如在办公过程中，HR 和 IT 服务涉及的问答频率很高，例如社保策略或薪资问题。在这些情况下，通过 AI 客服来提供持续服务显得尤为重要。通过将 AI 客服与 OA 办公平台结合，可以有效解决这些问题。此外，AI 技术在游戏和电商等领域也有广泛应用。

首先，谈到客服场景，最关键的问题是什么？目前市场上有大量的第三方客服服务平台，例如我们网易提供的客服平台“网易七鱼”。早期的客服主要依赖人工，人工客服需要持续回答问题并进行管理。然而，随着业务发展，客服人员的规模和培训成本不断增加，导致运营成本大幅上升。

为降低成本，许多企业转向使用机器人客服来替代人工客服。目前，客服流程通常包括机器人客服、人工客服和工单处理三个阶段。这种模式虽然降低了运营成本，但也带来了新的问题，例如知识库的维护成本。客服需要回答的问题和产品知识不断迭代，传统的解决方案是构建一个知识库，需专门的机器人训练师从非结构化数据中提取产品相关知识点和标准问答，进行语义训练和回答。

然而，这种方法存在不足，尤其是面对业务的不断变化和知识的持续迭代。大模型通过自然语言理解、关键信息提取及持续训练能力，可以更好地解决这一问题。其次是用户意图的把握。用户具有不同的背景和表达习惯，同一问题的表述可能千差万别。过去主要依赖自然语言理解（NLP）技术，但在用户意图的准确把握上，大模型具备更强的处理长文本和历史信息的能力，带来了显著变化。

第三个问题是大量历史信息的查阅。在电商场景中，客服问题通常与当前订单相关，只需通过业务系统集成调取订单信息即可解决。然而，在技术平台类客服或其他复杂场景中，客服需要基于大量历史数据。这些历史数据通常存储在 IM 平台或 RTC 平台中，通过大模型可以更有效地进行处理和利用。

通过结合 AI 技术，客服效率得到了显著提升，主要体现在以下几个方面：

首先，AI 可以更精准地理解用户意图，从而提高机器人客服的问答质量。尽管仍需要人工客服，但 AI 的应用可以减少人工客服的工作量。在人工客服的过程中，AI 可以提供两方面的帮助：一是为客服人员提供用户的上下文信息和建议答案，客服人员只需进行人工校准即可；二是收集和利用人工客服提供的精准散点化回答，这些回答具有重要价值，可以被引入知识库进行二次训练，从而优化后续的自动化回答。

通过 AI 的群体客服能力，以上问题得到了有效解决，有助于构建更高效的自动化知识库。

构建知识库的过程中，有两个重要的数据源。传统模式，企业知识库通常来自业务系统或企业内部文档，如 PDF、Word 文件，或 HR 发布的规章制度网页等。这些分散的信息需要被结构化处理，过去的方法是手动理解和提取知识点，再整合入知识库。结合大模型后，只需将文档输入系统，由大模型自动理解和消化。

第二个重要的数据源是用户沟通过程中的历史记录，这在常会话或多人客服场景中特别重要。例如，新能源汽车的客服场景显著不同于传统汽车。通过直销模式，新能源汽车企业提供更优质的服务，从客户进店到下订单、提车、使用过程中出现的事故、保险理赔和售后维护，全过程信息都通过客服群汇总。在这种场景中，如何将用户过去一月甚至一年内的反馈结合起来，解决当前的问题，成为一个重要课题。通过将 IM 中的大量历史数据与大模型结合，再加上标准的企业知识库，可以大幅提升客服的回答质量。

这是一个精准识别提问的示例，就是在数字人客服过程中，过去可能主要就是通过关键词提取，那现在可能基于关键词，在企业知识库的矢量向量库里去做一些关键内容的提取，之后再根据场景化定义的那些 promote 列提示词，然后提供更好的回答。它具备根据上下文不断地追溯的能力做生成式回答。

这是人工服务持续提效的事宜，客服在回答用户问题的过程中，可能产生了很多散点的问题，或者会给出一些建议性答案，通过 IM 里面的上层 UI 工具和底层数据能力之间打通，可以快速地给到一些提示。同时客服人员可以对当前会话的一些相关信息打标签，之后这个数据可以回溯再去做二次训练。

另一个场景叫群客服，在群客服场景里要解答问题，如何快速提取上下文？它可以通过 @ AI 机器人，让它帮我把上下文提取出来，或者给我一个建议。

第二个场景主要涉及营销。过去的营销方式常常在用户访问网站时弹出一个客服页面，询问用户问题并提供快速链接。然而，这种方式的精准度相对较低，用户往往需要多次点击才能找到准确的信息。通过结合大模型，可以显著缩短推荐链路。

大模型的优势在于能够利用用户在产品中的历史数据，分析其特征和偏好。例如，用户的年龄、地区、职业标签（如职场女性）等信息。将这些分析结果与企业知识库中的产品推荐信息相结合，可以为客户提供更精准的推荐。同时，在客服过程中，也能提供快速触达和促成交易的链接，提高营销效果。

第二个场景主要偏向娱乐社交和游戏。当前，新产品推出的最大挑战之一是如何快速积累用户，或需要高昂成本来制作大量的用户生成内容（PGC）。在这种情况下，如何快速启动变得尤为重要。例如，小说、漫画、动漫等创作需要大量专业知识和持续的内容积累。借助大模型，可以通过不同的标签和提示生成拟人化、个性化的人物角色，应用于社交场景。近年来，市场上已经推出了许多类似的 C 端产品，这些产品可能会逐渐替代真人社交，成为虚拟人社交的趋势。

在社交场景中，即使是真人用户的一对一交流，面对大量问题时也可能应接不暇。在这种情况下，可以利用用户的固定知识信息和表达习惯，通过大模型生成一个类似 AI 的角色，即数字人分身，来代为回答问题。这种方式不仅可以在单聊和群聊中增强互动，还能提高交流频率和交互效率。

基于上述场景，在融合通信或 IM 通信领域中与大模型结合的主要难点包括：

首先，训练过程非常复杂。目前市场上有许多大模型，包括公有云和私有化的大模型。要进行有效的二次训练或结合自身业务数据进行训练，面临两大顾虑：一是担心业务数据投入训练后可能带来的数据泄露风险；二是对大模型和垂直领域的大模型了解不足，难以选择最合适的模型。解决训练难题成为一个重要课题。

其次是选型问题。客服场景内有许多垂直领域需求。例如，我们是一个技术开发平台，客服场景中需要的大模型应对代码理解能力更强，因为客户的问题多与代码相关，答案也是代码。因此，需要选择一个对代码理解更好的模型。而在电商、财务或法规等领域，则需要选择对相应领域理解更好的模型。因此，未来将存在大量不同领域的垂直模型。

第三是数据整合问题。不论是构建上下文关联数据库、生成提示词，还是进行二次训练，都需要结合大量业务数据。在 IM 中，通信过程中已产生大量业务数据，这些数据对企业来说非常有价值，可以作为模型训练的重要数据来源。作为一个 PaaS 平台，我们的开放性很好，可以通过 API、SDK、Webhook 等形式实现数据互通与开放，从而持续增强模型的训练效果。

最后是业务融合问题。我们的产品以 UI Kit、SDK 或 API 形式对外提供，可以与各种业务场景进行融合。这种灵活性和开放性使得数据和业务功能能够无缝集成，提高了整体系统的智能化和自动化程度。

这是大概的架构图。首先，在底层支持的资源和服务包括本地部署的算力平台和向量数据库存储服务，以及即时通信和内容合规的云服务。我们支持公有云和私有化部署模式。

其上，我们为客户提供了一些经过调研的大模型建议，可以是云上运行的模型，也可以是私有化部署或经过二次训练的模型，实现与我们平台的互通。

第三部分涉及模型训练过程中可能需要大量第三方标准数据，如图表、日期和气象数据等，这些数据通过插件形式引入到互动过程中。我们在 UI Kit 等层面实现数据的互通。向量数据库作为关键基础资源，实现数据上下文存储。

最顶层提供给用户的是 SDK 和 API，同时还提供了控制台等界面化操作能力。

基于这种方案，我们作为一个 PaaS 平台，服务了大量的 IM 场景客户。

在这些场景中，我们积累了开发者的使用习惯和业务理解。基于这些理解，我们设计了更优的交互和 API 与开发者系统的集成设计。另一方面，这些场景产生了大量数据。虽然这些数据对于平台本身的价值不高，因为它们主要属于客户的垂直业务场景，但对客户来说，结合他们的大模型进行二次训练是非常有价值的。

因此，我们的数据可以帮助客户通过与业务系统集成，获得更好的回答。这些数据仅在用户与模型进行互动时才能发挥作用，这些过程基于通信中的数据安全和脱敏关系。另外，由于我们服务的客户场景多样，客户可以积累跨不同垂直领域的经验。例如，我们为电商公司提供的解决方案可能在低成本下被其他电商公司复用，从而企业可以以更低的成本实现类似场景的落地。

最后一个部分涉及基础能力的互通，这是传统架构中的一个对话过程。一旦与云信打通，我们便能够通过 API 开放平台，让客户提取数据并调用 API 接口快速响应。这种打通可以显著加速整个开发过程。

这解决了当前场景下两个问题：强化 AI 的场景响应效果和语料积累。

重点在于通信过程中，用户在我们平台产生的数据如何结合向量数据库，进而适应我们业务垂直的大模型进行训练，实现更佳的响应效果。

简而言之，作为一个 PaaS 平台，我们提供 UI Kit、SDK 和 API 能力。UI Kit 旨在帮助客户和开发者在降低开发成本的同时，提供各种 AI 交互入口，例如工具栏和虚拟账号，以及在群体中的机器人交互。

除了 UI Kit 的开放能力，我们还提供控制台和简便的集成互动能力，如数字人模板库。该模板库主要基于场景定义和基础数据训练，虽然通用但不包含企业私有数据，可以进行二次定制。

未来，我们将开放生态合作伙伴在模板库内的生态系统，支持模型能力服务实施和行业场景训练模板上传，为更多开发者提供使用和定制的机会。

客户选择模型后，可以快速连接并上传私有数据集进行二次训练和调整。

最后，我们的交付策略将满足客户对数据和模型安全性的高要求。我们支持全面私有化部署或混合云部署模式，以适应不同的需求和场景。

总结来说，作为 PaaS 平台，我们通过深入理解客户需求和通信领域的核心优势，结合大模型能力，与生态合作伙伴合作，落地解决方案。

今日好文推荐

一行代码价值百万美元：从工程技术角度看云成本优化

金融科技新动能：方正证券新质生产力的探索应用

携程门票：亿级流量挑战下的高可用架构设计与实践

阿里云叔同（丁宇）谈 AI 编程颠覆 IT 生产力

会议推荐

AICon 全球人工智能开发与应用大会，为资深工程师、产品经理、数据分析师等专业人群搭建深度交流平台。汇聚 AI 和大模型超全落地场景与最佳实践，期望帮助与会者在大模型时代把握先机，实现技术与业务的双重飞跃。在主题演讲环节，我们已经邀请到了「蔚来创始人李斌」，分享基于蔚来汽车 10 年来创新创业过程中的思考和实践，聚焦 SmartEV 和 AI 结合的关键问题和解决之道。大会火热报名中，7 月 31 日前可以享受 9 折优惠，单张门票节省 480 元（原价 4800 元），详情可联系票务经理 13269078023 咨询。

InfoQ 架构头条

InfoQ旗下，专注于软件开发基础技术的专业公众号。在这里，你可以看到涵盖架构、云计算、运维、数据库、安全、编程语言、程序员周边等全领域的干货内容。帮助广大开发者更好地把握技术脉搏，找准技术方向，了解前沿技术落地实践。