【年度课题】基于知识图谱的保险业医疗数据挖掘与应用研究

学术   财经   2024-08-26 16:59   北京  
点击“中国保险学会”可以订阅!

本文字数:2943

阅读时间:6分钟

本文来源:

中国保险学会2023年度课题项目。

中国人民保险集团课题组:课题组负责人刘云龙,中国人民保险集团战略部副总经理,法学博士。课题组成员:马双梅、郑颖婧,中国人民保险集团博士后工作站;张书涵,中国人民保险集团科技部;张安,中国人民保险集团战略部;王彦龙,中国人民保险集团科技部;李昊,人保信息科技有限公司;谷禹翰,中国人民保险集团办公室。

一、引言

在国家政策引导、经济社会转型推动和保险科技高速发展的大背景下,我国商业健康险市场规模持续扩大,保障能力显著提升。然而,伴随人口结构变化与健康风险演化,叠加互联网技术广泛普及,险企在产品端、服务端的能力建设日益滞后于需求端增长与变化的步伐,行业呈现增速放缓趋势,迈入深度变革期。对于商业健康险企业而言,如何打开增量市场,突破发展瓶颈,从敞口式管理向精细化运营转变,实现供给端成本下降与效率提升,不仅是当前更是未来发展的必答题。数据作为保险业的内在逻辑与经营基础,是险企高质量发展的核心驱动与破局关键,而医疗数据更是商业健康险企业经营全链路的重要支撑。近年来,政府部门持续加强健康医疗大数据建设顶层设计,医保数据要素开放进程提速,商业健康险市场有望迎来突破性发展机遇。


受限于碎片化、冗余性与多态性的医疗数据特点,以及险企两核流程对个体经验依赖程度较高的业务痛点,医疗数据在保险行业的整体应用效率较低,价值发挥十分有限。随着深度学习和大规模预训练模型的快速发展,低资源、真实场景下知识获取技术不断升级,以知识为中心的应用与现实业务的融合持续深化,知识图谱技术在海量多元异构数据处理、复杂逻辑推理、决策支持等方面的技术优势愈发凸显。而当前知识图谱技术在健康险领域的应用多专注于保险条款,较少引入医疗数据,场景亦集中于客服,与两核等业务协同不足。本课题组聚焦健康险企业如何基于图谱技术强化医疗数据应用这一核心问题进行了剖析拆解与路径规划。

二、保险业医疗数据应用现状

与知识图谱破局作用

本研究按照保险业务价值链,分析了医疗数据对丰富产品供给、优化运营机制、释放生态价值的赋能作用,并从技术视角归纳出险企在医疗数据应用方面所面临的数据源碎片化、数据质量参差不齐、数据应用转化与业务驱动力不足等困境。基于此,进一步探讨了知识图谱的关键破局作用,一是通过图谱构建过程中的数据预处理、数据知识化与知识组织化等步骤,圈定数据范围、实现数据整合,提升数据的准确性、逻辑性、标准化与结构化。二是知识图谱搭建了业务场景与数据平台之间的桥梁,一方面,结合多种人工智能算法,帮助险企高质效地从数据中提取结构化知识、深挖价值;另一方面,借助交互式机器学习技术接入业务场景,有效沉淀业务逻辑,实现隐性个人经验的知识固化。三是作为高效的知识管理载体,知识图谱可高效关联健康险经营相关的多方知识源,通过对多元异构数据进行精准对象级搜索和复杂逻辑推理,为产品创新、营销、风控与客服等全链条经营提供智能化支持。

三、保险业医疗知识图谱构建技术

与应用路径分析

在充分探讨医疗数据应用困境与知识图谱作用基础上,课题组进一步讨论了保险行业如何有效发挥知识图谱技术的破局利器作用。首先,梳理图谱建设需求,从行业知识稳定性、险企数据基础、图谱相关原子能力和业务需求角度充分论证了图谱建设的可行性,并从知识库覆盖度、业技融合路径与应用合规性角度,以及数据预处理、图谱构建与应用角度分别探讨了图谱建设的重点与难点。其次,按照领域图谱构建常用的自顶向下流程,结合保险业务经营逻辑与医学知识特点,提出了涵盖知识表示、知识抽取、知识融合和评估构建在内的各阶段技术选型建议。最后,聚焦知识图谱的问答系统与推荐系统两项重点功能,充分研究了医疗与保险领域已有应用进展,分析出医疗知识图谱对于健康险业务的潜在功能支撑范围与有效应用路径,包括问答系统中如何提升用户意图判定和可解释性,推荐系统如何辅助产品设计、助力核保理赔等。

四、医疗知识图谱在保险领域的实践

在实践方面,为进一步强化知识图谱技术对保险价值链的支撑作用,课题组基于某保险集团人身险板块业务实际需求,聚焦理赔环节试点需求,重点实现了基于保险端与医疗端两侧知识源的知识库构建,总结出部分关键实践经验,包括保险医疗知识体系建设方案,基于BERT-CRF方法的实体抽取模型,以及基于主动学习机制的关系抽取模型。


为帮助业务一线人员高效挖掘利用内外部知识资源,课题组以该医疗知识库为重要知识源之一,构建了企业级知识图谱平台,支持用户进行个性化、低代码的图谱构建、分析与应用,并面向理赔业务人员针对性嵌入了理赔风控智能提示、智能问答等多个场景试点。在理赔风控智能提示试点部分,基于保险医疗知识库与深度学习分类模型进行责任外医疗费用判定等逆选择风险的智能核查与识别,并将模型结果进行可视化风险提示,提升了智能核赔的准确性与可信度,极大缩短了人工审核时长。在智能问答试点部分,基于保险医疗知识图谱的查询与推理功能,结合企业内部智能问答原子能力,通过主动触发机制,提供面向理赔业务人员的不合理用药/三目录等场景的智能问答,有效辅助一线人员高质量决策。

五、思考与讨论

课题组立足健康险业务痛点与大数据赋能实际,深入剖析了大数据应用困境,并就知识图谱技术为何能发挥关键补位作用以及如何赋能核心业务进行了理论探讨与实践论证,验证了知识图谱技术在挖掘医疗数据价值、提高企业经营效率等方面的优势,为行业开展医疗知识图谱相关实践提供了借鉴与参考。


基于课题研究内容,本课题组还有以下几点思考与讨论:


在商业健康险医疗数据应用层面,一是开展企业内部数字化转型,完善数据中心、统一数据平台等基础设施建设,健全数据治理与数据安全体系,加强数据挖掘和业务价值转化。二是促进数据驱动产品、运营及服务模式有效落地,创新产品定制模式,构建数字化运营能力,推进健康管理服务嵌入与客群转化。三是积极推动顶层医疗数据安全合规应用与隐私保护相关标准建设,加快探索医疗数据共享的有效路径,助力发挥医疗数据要素乘数效应。


在医疗知识图谱构建技术层面,一是本体构建任务应充分考量当前情况与未来发展,可以通过小范围试点,借助可视化工具推演承载信息能力、结构特征,快速更新迭代,确保本体满足业务需求。二是知识抽取方面适当引入深度神经网络,集成主动学习机制、迁移学习等技术,降低对人工特征的依赖,提高实体与关系识别精度。三是借助交互式机器学习技术,通过提供反馈、标注数据等方式实现模型的优化与迭代,推进业务经营知识逻辑和模型的固化,实现隐性领域知识沉淀。


在医疗知识图谱应用拓展层面,将图谱能力迁移至领域内人工可干预度低、对决策规划能力端到端成功率要求较高的场景,如健康告知及健康问卷的智能多轮问答、医疗保险的自动化理算等,以充分解放员工时间与精力。同时,面对商业健康保险业务中具有长尾特征的智能化需求,如RPA作业、多版式OCR等,在充分发挥知识图谱所具备的事实凭据支持与复杂推理能力基础上,积极纳入GPT-4等大模型在思维链、指令遵循、语言理解等方面的核心基础能力,为构建具备快速学习能力的模型,实现一揽子解决运营环节长尾任务夯实基础。

编辑:于小涵


中国保险学会

构建保险大社区

微信:iicbxzx

中国保险学会
构建保险大社区
 最新文章