第二十二届产业大会回顾篇(八)| 中航信移动科技有限公司基础平台部总经理王殿胜先生

科技   时事   2024-12-31 20:31   北京  

【摘要】
CCCS是一家以标准化建设为核心工作的机构,先后在信标委、中国电子标准化研究院和中国计算机用户协会的指导下,作为组长单位联合业内头部企业制定GB/T 43045.1-2023《信息技术服务 智能客户服务》国家标准体系(查询网址https://std.samr.gov.cn/gb/search/gbDetailed?id=053404E3EFF98F91E06397BE0A0A9209)和T/CCUA 022-2023《客户联络中心运营能力测评规范》团体标准(查询网址:国标委网站https://www.ttbz.org.cn/StandardManage/Detail/78720/)。参与制定SJ/T 11739-2019《信息技术服务 呼叫中心运营管理要求》行业标准(查询网址https://hbba.sacinfo.org.cn/stdDetail/ecda5c59adb27124b4aca6cacbf12ae855d166f5c482933241cfdfb132898064)。同时结合行业最佳实践制定《远程银行标准体系》《DCC汽车经销商客户联络中心》等企业标准。
“行业最佳实践是制定标准的基础”,CCCS连续23年举办中国信息技术服务 智能客户服务最佳实践评选活动,得到了业内广泛的支持和响应。来自于社会科学、自然科学和理论研究的专家学者、院士,以及来自于企业的领导和同事在产业大会上分享实践结果和研究成果。
http://www.cccs.com.cn/

中航信移动科技有限公司基础平台部总经理王殿胜先生出席了由CCCS客户联络中心标准委员会主办的第二十二届中国信息技术服务 智能客户服务产业大会,并发表了主题演讲《“千穰”大模型助力民航提质增效》。

本文为演讲内容精选。


王殿胜先生在第二十二届产业大会上演讲


大模型定位及行业现状


中航信专注于构建一个针对民航行业的大型模型,旨在为该特定领域提供深度优化的文本理解能力。此模型架构分为三层:底层是通用大模型,如文心一言和ChatGPT,它们提供了基础的文本处理与理解能力;中间层则是中航信开发的行业特定模型,通过在民航领域的数据上进行预训练和指令微调,增强了模型对专业内容的理解;顶层是由该大模型支持的应用场景,包括智能客服、信息检索、知识库管理及图像应用等。

值得注意的是,这些应用场景并非直接基于大模型实现,而是通过精心设计的编排模式构建,确保了模型功能与实际需求之间的紧密契合。这种架构不仅强化了模型对民航业知识的理解力,同时也提高了其在具体业务场景中的实用性和效率。

中航信致力于通过构建一个专门针对民航行业的大型模型基座,解决该领域特有的复杂问题。此大模型不仅涵盖智能问答的重构、航班预报预测的升级,还涉及资源优化及视觉感知等多个方面。例如,在航班预报预测方面,中航信利用大模型实现了全网时刻预测的提升;而在资源优化上,大模型的应用也显著提高了效率。

尽管通用大模型在文本理解和处理能力上有其优势,但它们在特定垂直领域的理解能力和严肃场景下的表现存在局限性,尤其是在对安全要求极高的民航行业中。通用大模型可能产生的“幻觉”问题——即输出不准确或误导性的信息,这在民航业可能导致严重的后果。因此,中航信强调了开发专为民航设计的大模型的重要性,以确保在关键任务中的可靠性和准确性。

民航行业具有文本数据稀缺的特点,且大量重要信息存储于信息系统内,而非直接可用的文本形式。这要求大模型具备与信息系统接口交互的能力,并能实时查询和解析数据,以提供及时和准确的回答。中航信认识到这一点,并在构建大模型时特别注重答案的时效性和准确性,确保用户问题能够得到精确回应。此外,中航信也在探索开源大模型的应用潜力,同时注意规避其潜在的风险,如缺乏接口衔接能力导致的信息错误。

王殿胜先生第二十二届产业大会演讲视频



千穰大模型技术特点


ChatGPT自去年起便成为热议话题,广受关注。近期,与ChatGPT相关的股票表现良好,吸引了众多投资者的兴趣。
中航信开发的千穰大模型专为民航行业设计,具有以下几个特点:
1.专业理解的独特性:千穰大模型在民航专业知识的理解上展现出独特的优势,能够精准解析和处理该领域的复杂问题。
2.实时与接口衔接能力强:该模型具备强大的实时数据处理能力,能够无缝衔接信息系统接口,确保信息的及时性和准确性。
3.复杂的知识推理:采用思维链模式解构和解决民航业的问题,增强了对复杂知识体系的理解和推理能力。
4.上下文机制与个性化交互:通过构建长短记忆机制,千穰大模型能够根据上下文提供个性化的用户交互体验。
千穰大模型拥有千亿参数量,但并非单一模型,而是基于多专家(ME)架构的一组模型。不同任务类别由特定模型处理,中间设有门控模型以控制任务分流。目前,千穰大模型在图文检索精度和图像理解精度方面均表现出色。在开发过程中,中航信针对民航行业的痛点进行了专项优化,包括解决垂域知识稀缺、实时获取困难等问题。通过训练模型进行接口调用和思维链机制的构造,千穰大模型有效提升了实时性和准确性,为用户提供更加可靠的服务。
千穰大模型技术架构

中航信构建的千穰大模型整体架构分为三层,旨在为民航行业提供全面而深入的支持:
1. 民航通识能力层中航信通过构建高质量的民航知识图谱、积累多模态数据、专业化文档及多年沉淀的Q&A,形成了丰富的语料库。这些资源经过领域增强和语料增强处理,重新构建了训练集,从而打造了强大的民航通识能力。这一层确保了模型对民航领域的深刻理解和广泛覆盖。
2. 接口衔接与实时处理层在通识能力的基础上,中航信进一步增强了模型的接口衔接能力。该层支持自由文本直接翻译成SQL语句,实现与实时数仓及关系型数据库的无缝对接。此外,通过特有的图谱增强模式,中航信优化了知识图谱与大模型的结合方式,特别是基于民航场景定制的多路召回机制,显著提升了信息检索的准确性和效率。中航信在RAG(Retrieval-Augmented Generation)算法基础上进行了深度定制,以适应民航行业的特殊需求。
3. 高阶思维链能力层顶层为高阶能力层,利用思维链模式解构问题并衔接系统。此层引入了Agent机制,通过强大的基模能力和针对民航问题的特定解决策略,实现了复杂问题的解构、思考和推理。这使得千穰大模型不仅能够理解问题,还能有效解决问题,为用户提供智能化的服务体验。
最终,这些能力共同支撑了一系列应用场景,包括但不限于智能问答、历史数据分析等。例如,在航旅纵横的应用中,用户可以询问过去一年飞得最多的城市,千穰大模型能够自动分析并提供精准的答案,如“上海是您常去的城市”。

持续产生高质量垂域数据

中航信的知识图谱构建过程充分考虑了民航行业的特殊需求,从早期的三元组模式演进为如今的跨模态知识图谱,以适应大数据环境下的复杂数据处理需求。该知识图谱不仅整合了非结构化和半结构化数据,还实现了自动化知识对齐、生成、子图管理和消歧等功能,确保各种模态的知识能够自动生成和更新,形成一个自闭环系统。尽管大部分流程实现了自动化,但在关键环节仍保留了少量人工干预,以确保知识图谱的准确性和一致性。这一高效且智能的知识图谱为民航行业提供了强大的知识管理和应用基础,支持了更广泛和深入的数据分析与服务。
中航信在训练垂域大模型的过程中认识到,仅凭数据不足以确保模型的成功。训练过程复杂且充满不确定性,需要不断摸索和调整。为此,中航信采用了多级多步的训练方法,根据不同阶段的需求提供不同类型的数据。
具体来说,在垂域专业知识预训练阶段,中航信使用粗语料来构建模型的基础知识体系。随着训练深入,特别是在精调阶段,引入更为精细的语料,以确保模型能够准确处理民航行业的特定需求。这一过程不是线性的,而是需要反复调整和优化,确保每个阶段的训练都能有效提升模型性能。
中航信通过大小模型结合的混合编排模式,专门针对民航严肃场景下的问答能力进行了优化。通用大模型虽然具备强大的泛化能力,但在专业性理解、推理速度和成本效益方面存在局限。私有化部署通用大模型的成本极高,但其大部分功能在特定场景下并未充分利用,导致资源浪费。
中航信的做法不同,采用大模型引导训练小模型的方式,最终交付给客户的是一种大小模型混合编排的解决方案。这种模式极大地降低了部署和推理成本,提高了资源利用率,为客户提供了更具性价比的选择。具体编排根据每个场景的业务特点进行定制,确保最佳性能和适用性。
小模型在此过程中发挥了重要作用,它不仅能够精确求解且相对可控,还与大模型的强泛化能力相辅相成。通过两者的结合,中航信实现了既保持高度可控性,又具备优秀泛化能力的效果,为民航行业提供了更加高效和可靠的问答服务。

连接垂域系统

中航信在处理民航行业非结构化的文档时,开发了一套高效的接口衔接机制,确保文档能够转化为高质量的语料库。面对大量的客规、手册和问答库等文本资料,中航信并未采用简单的文档分割和向量检索方法,因为这种方法通常只能达到60%至70%的精度,难以进一步提升。对此,中航信采用连接垂域系统,包括RAG、图谱查询、Text2SQL 和接口调用四方面。
非结构化文档解析与向量化
中航信通过多层级结构构建知识向量,这一过程不仅复杂而且需要深度理解文档内容。具体而言,中航信利用大模型在知识生成过程中进行基于语义的分段处理。这种基于语义的分段方式避免了简单按字数切割的粗暴做法,确保每个段落都能准确传达原文的意图。为此,基模必须具备对民航行业的深刻理解和认知,以实现科学合理的分段。此外,中航信还通过多层级结构进一步增强了知识向量的深度和准确性,使得最终生成的知识向量更加精细和有用。
结合民航知识-基于检索增强生成(RAG)

中航信基于民航知识开发了自己的特色RAG机制,显著增强了搜索能力。内部应用的手册和文档,包括多模态文档(如包含截图和文字),通过RAG机制进入数据库后,经过向量匹配和多路召回机制生成参考,并与千穰大模型结合进行重新组织和理解,从而显著提升千穰大模型的专业性、 时效性与可解释性。

text2sql
针对text2sql或NF2SQL的需求,中航信解决了自然语言到SQL语句的映射问题,尤其是在处理航空动态数据时。中航信的数据仓库是行业内的PB级数仓,涵盖1400多个数据源,几乎汇聚了所有民航数据。用户问询时,如何高效查找并实时提取这些海量数据是一个挑战。中航信通过优化的衔接机制和实时数仓打通了这一流程,确保用户查询能够快速获得精确的结果,从而实现与多种数据库的无缝衔接 ,支持高自由度数据查询与分析任务。
复杂多接口调用
对于复杂的接口,如Shopping接口,中航信摸索出一套大模型适配的经验。这类接口通常涉及多层签到等复杂操作,如何让大模型理解并处理这些问题颇具难度。中航信通过实践总结,实现了复杂接口与大模型的有效衔接,同时结合知识图谱进行知识增强,确保用户问题和Shopping信息之间的无缝对接,提高了系统的整体性能和可靠性。

大模型链接垂域物理场景:复杂推理

中航信通过航旅纵横APP中的智能行程规划Agent,展示了其强大的复杂推理能力。该Agent位于APP左上角的机器人小图标内,用户点击后可以获取个性化的出行行程规划服务。这一过程涉及复杂的推理和多轮对话,确保规划结果贴近用户的实际需求。
决策过程数据化
中航信的行程规划Agent将既往信息、用户画像以及多轮对话记录整合到规划上下文中,确保每次规划都充分考虑用户的现实情况。与小模型时代不同,大模型具备强大的上下文理解和用户行为分析能力,能够根据用户的历史飞行记录、出票特点、出行习惯和选座偏好等信息,提供更加贴近用户真实需求的行程建议。最高级别的推荐形式是无需用户明确表达诉求,Agent就能准确推送用户想要的信息或答案,实现无缝对接的用户体验。
思维链训练与多步推理
在规划过程中,Agent将复杂规划问题拆解为多个简单步骤 ,并引入思维链引导模式 ,结合接口调用 ,构建思维链模式的多步推理训练数据 ,执行思维链训练 ,提升模型复杂推理能力。例如,当用户询问出差去成都的最佳路线时,Agent会逐步引导用户,了解其真实意图,如是否偏好飞机、火车或汽车出行。通过机票接口、火车票接口和租车接口的协同工作,Agent最终为用户提供一个完整且优化的行程规划。此外,航旅纵横致力于提供一站式服务,包括保险和酒店预订等功能也在不断集成,进一步提升了用户体验。

大模型链接垂域物理场景:记忆机制

中航信通过引入大模型的记忆能力,确保用户感受到与真人对话般的体验,将既往对话信息自然融入当前交互中。这种记忆机制不仅增强了对话的连贯性,还提升了用户的满意度和信任感。

为了实现更加智能的对话管理,中航信采用了长短记忆结合的机制。多轮对话过程中,有时会存在中断,如果在新对话开始时仍强行引入上一轮的信息,可能会让用户感到困惑或不适。因此,中航信设计了灵活的记忆机制,能够在适当时候引入相关的历史信息,同时避免不必要的干扰。这一机制确保了每轮对话的衔接自然流畅,提高了对话的质量和用户体验。

中航信的记忆模型将用户的标签、历史记录和决策行为融入对话上下文,并结合插件机制与接口衔接功能,同时引入知识增强手段,从而实现全面的民航Agent能力规划。这一过程以垂域大语言模型为基础,该模型凭借其深厚的民航专业知识和强大的推理能力,能够游刃有余地处理复杂的规划任务,精准解构并解决用户问题。

民航视觉3D重建技术

中航信在构建千穰大模型时,不仅强化了文本处理能力,还开发了多模态能力,包括视觉识别和科学规划等多个领域。这一综合能力使得千穰大模型能够为民航行业提供全面且高效的解决方案。

中航信的视觉解决方案在民航领域的应用尤为突出。例如,在成都双流机场的级别保障节点上,中航信实现了高精度的视觉感知智能化识别。其算法能够在遮挡40%以下的情况下进行准确识别,远超民航局规定的20%标准。此外,中航信的视觉系统能够识别49个保障节点,远远超出民航局要求的45个节点,展示了其在行业内的领先地位。

千穰时空大模型

中航信在预报预测能力方面,通过构建千穰时空大模型,解决了传统时间序列模型的局限性。早些年,中航信曾使用时间序列模型进行预测,但发现这些模型难以应对民航行业的全连通特性。“航班从A飞往B再飞往C的过程中,信息干扰通过链式扩散机制不断影响后续航班,导致预测不准确。

为了解决这一问题,中航信开发了专门的时空大模型。该模型能够处理航班的连通性和信息干扰的链式扩散特点,确保预测的准确性。具体而言,时空大模型整合了航旅纵横现有的所有民航航班数据、ADS位置实时信息和旅客信息,对这些数据进行全面特征提取,并进行整体预测。最终输出包括所有航班的数据,也可用于价格预测。

中航信专注于民航行业的特定需求,在舱音识别方面基于千穰语音识别技术解决了复杂噪声、连读吞字、样本稀缺等痛点,覆盖数据标注、训练与推理环节,显著提升了识别精度,降低了训练与部署成本,整体效果达到国内领先水平。舱音识别的特点在于实现前舱机长与管制人员对话的高精度识别,通过几个小时的标准录音样本进行少样本训练,大模型微调后即可达到90%以上的识别精度。过程中还包括切分、降噪及基于声纹的特定人识别,确保了对话信息处理的准确性和可靠性。



民航场景应用

中航信的千穰大模型已在多个应用场景中成功部署。

民航智能问答

首先是在航旅纵横平台上线了知识性问答功能,涵盖民航运行情况的实时查询与总结。用户可以询问如首都机场的当前运营状况,系统将从实时接口提取数据并进行全面总结。此外,还支持民航百科类问题,例如安检和客规相关疑问,提供基于知识的详细解答。

旅客行程规划

在行程规划方面,用户可以通过告知大模型出行目的(如出差或旅游),获得统一且个性化的行程建议。

中航信的行业大模型已在乌鲁木齐机场、长隆航空等10多家机场和航空公司落地应用,积累了1000多个知识意图。这些意图既包括各机场特有的需求,也涵盖了通用的客规和民航运输条款,确保内置版本具备广泛适用的能力。

行业智能客服

中航信的行业智能客服解决方案涵盖语音客服、在线客服及辅助坐席等服务,提供全方位的支持。特别是在辅助坐席方面,中航信利用大模型技术显著提升了坐席人员的工作效率和支持能力。具体而言,中航信将相关手册交给大模型进行理解与学习,使大模型能够解析和拼接指令,并为用户提供异常处理建议。例如,在8401平台上接到航司或机场关于指令错误的电话时,大模型可以即时提供正确的指令拼接方法和异常解决方案。通过这种方式,中航信不仅降低了坐席培训成本,还提高了问题解决的速度和准确性,确保了客户服务的质量。

中航信的行业智能客服解决方案具备全栈能力,涵盖外呼、工单处理、坐席功能、意图识别与分流等个多方面。其大模型技术带来了显著特点和优势:

1. 智能质检:基于大模型,识别旅客与坐席的完整交互过程中,坐席人员是否符合规范(礼貌用语、服务态度等) 。模型可以通过prompt技术或者简单微调后实现智能质检。

2. 对话小结:根据坐席与旅客的一次完整对话内容, 自动总结本次对话的要点信息,如该问题是否得到解决,旅客是否满意或投诉等。

3. 辅助坐席:原有技术只能检索文档原文,大模型可以强化检索精度,提炼每个文档的精简核心内容,可以快速获取关键信息。

4. 多轮对话改写与意图判断:原有的小模型难以结合复杂的上下文信息识别用户的意图与关键信息。大模型的上下文语义分析能力明显加强,可以精准识别有上下文背景的语义信息,提升智能客服对话完成率。

基于大模型的理解能力,中航信构建了自动化的客诉总结系统,无需人工干预。该系统分析航旅纵横收到的客户投诉,发现票务问题是最主要关注点,包括客票销售、退改签和报销凭证等环节,这些问题尤为突出。此外,大模型还能够评估客户服务过程中的优劣之处,提供客观反馈。

客户投诉第二大关注点是不正常航班的处理,这是当前客户投诉的重点。客户不仅关注经济赔偿,更在意处理是否及时和适当。常见问题还包括行李处理、会员权益和空中服务等方面的长尾问题。中航信的大模型可以根据不同分析界面进行特定化分析,例如针对各航空公司客诉的差异化特点,提供定制化的总结与建议。

民航数据自动分析

中航信利用大模型技术显著提升了分析报告的生成效率和质量,满足了央视和民航局等外部机构的需求。在以往,中航信仅提供相应的民航数据,如今通过大模型可以自动生成完整的分析报告。大模型构建了详细的分析框架,自动提取和梳理数据,逐步生成最终结果,特别是在识别数据中的跳变点及其原因方面表现出色。许多央视新闻频道的报道也采用了中航信大模型输出的内容,展示了其在公共传播中的应用价值。

在视觉识别领域,大模型还带来了3D空间认知能力,实现了行李等物品的3D包裹盒和3D点云识别,精确界定物体边界,提升了视觉识别的准确性和效率。

民航多场景时空预测

中航信的大模型在时空预测方面展现了广泛应用和精细能力。首先,通过开发的航信通设备支持电子登机牌过安检,中航信能够预测整体民航安检效率,并与多个机场合作,提供未来安检量和相关预测数据,优化安检流程。此外,中航信还实现了飞机滑行路径和滑行时长的精准预测,提升了飞行调度效率。

其次,在票价预测方面,大模型具备航线级的价格预测能力,时间跨度涵盖7天、1个月和3个月。例如,今年6月,中航信向民航局提交了暑运情况报告,准确预测了7、8月份民航运输量上升但票价下跌的趋势。这种预测能力越临近事件发生越准确,为民航局提供了重要决策依据。

最后,中航信还进行了航班起飞时刻和流量的预测,帮助民航局进行运力管制和规划,特别是提供了三个月内民航运力的预测。同时,中航信对机场、场站及航空公司的运行效率和运输量进行了全面预测,确保资源合理分配和高效利用。这些预测功能不仅提升了民航行业的运营效率和服务质量,还为民航局等监管机构提供了科学决策的支持。

舱音识别

中航信在舱音识别方面通过大模型实现了显著的能力飞跃,但并未增加过多的硬件成本。具体而言,大模型训练完成后,经过模型蒸馏和剪枝优化,能够在CPU上高效部署,甚至与海光CPU进行了适配,提升了效率并降低了成本。优化后的参数配置更加合理,使得大模型在资源利用上反而优于传统小模型。这一技术已在多家航空公司成功落地。此外 ,相关语音识别技术在语音客服、语音质检等场景也取得较好效果。

总结

尽管中航信与电信合作进行了国产算力的大模型适配工作,但这一过程充满挑战,尤其是一次性投入极高,单凭一家公司难以承担如此高额的投入,尤其是在航旅纵横单一场景下的应用可能会导致亏损。

鉴于此,中航信认为更理想的方式是联合其他民航单位,共同打造一个民航专属的大模型生态平台。通过这种合作模式,不仅可以增强中航信的大模型能力,还能让其他民航单位以较低的成本享受到大模型带来的普惠效应,有效解决行业特定问题,实现民航行业的整体提质增效。


CCCS

专注·专业·专心·专享

扫码关注公众号


扫码添加官方微信


官方网站:www.cccs.com.cn



CCCS标准
以CCCS客户联络中心标准为方法论,提炼行业实践,服务客户的现实与未来。
 最新文章