网络首发时间
2024-11-20
网络首发地址
https://link.cnki.net/urlid/42.1085.G2.20241119.1311.002
引用本文
左美云,姚金玉.面向任务的多源异构医养数据融合框架设计——基于数据可供性视角[J/OL].图书情报知识(2024-11-20).
https://link.cnki.net/urlid/42.1085.G2.20241119.1311.002
Photo by Silverfork Studion on Unsplash. |
左美云 姚金玉
中国人民大学信息学院,北京,100872
中国人民大学智慧养老研究所,北京,100872
目的 | 意义 | 推动医养结合对于发展银发经济和提升老年人满意度都有着重要意义,然而目前医养数据融合仍面临着参与主体数据共享意愿低、数据融合方案探索不够等问题。 | |
研究设计 | 方法 | 通过文献调研和理论分析,本文基于可供性-实现理论(Affordance-Actualization Theory),提出了一种面向任务的多源异构医养数据融合框架,并通过现实世界数据集验证了该框架的可行性。 | |
结论 | 发现 | 该框架明晰了医养数据资源的类型以及采集方法,设计了包含基本信息、疾病症状、健康状态和生活照护的老年人医养档案分层体系,并给出六类典型下游任务的数据供给方案。 | |
创新 | 价值 | 所提出的医养数据融合框架实现了医疗、养老机构之间的数据采集、融合到服务下游任务的全链路流程,为医养数据融合提供了理论和实践支撑。 | |
关键词 | 数据融合;数据共享;智慧养老;医养结合;可供性-实现理论 |
1 引言 |
伴随老年人口数量的持续增长以及智慧养老服务市场的不断扩张,大量具有价值的医疗、养老类数据资源得到快速积累。《“十四五”健康老龄化规划》提出要推动老年健康服务高质量发展,加大医养结合服务供给,促进医疗卫生与养老服务深度融合。医养结合的第一步是医养数据的采集和融合,旨在打通医疗、养老信息系统的数据壁垒,实现数据的共享。基于此,明确医养结合的服务场景以及典型的下游任务(如膳食推荐),构建从数据采集、数据融合到数据服务于下游任务的全链路,是医养结合能够有效落地同时提升智慧养老服务质量的关键所在。
医养数据融合的应用场景多样,主要体现在医疗健康和养老护理两个产业领域,例如疾病预测、医生推荐、用药推荐、跌倒预测、膳食推荐、慢病管理等。然而已有研究和应用忽视了医疗领域和养老领域的数据资源整合。以糖尿病预测任务为例,现有研究受限于数据可获得性,主要关注患者的个人信息(如年龄、性别等)和临床数据(如红细胞计数、天冬氨酸氨基转移酶等),然而如果在建立糖尿病预测模型时可以考虑到患者的护理数据,例如运动记录、饮食记录等,有助于提升预测模型的精度、响应能力和可解释性,从而进一步实现精准医疗。因此,如何基于医院、养老机构等多主体的多源异构数据资源,形成标准、全面、精准的老年人医养档案是促进医养结合进一步发展的关键难题,其中在数据采集、融合、挖掘和分析过程中涉及的技术问题亟需深入探讨。
医养数据融合所关注的不仅仅是采用什么技术解决多主体之间“能”合作的问题,同时如何激发多主体之间“想”合作的意愿也至关重要。尽管医养数据融合对于满足老年人的个人需求、提升养老服务质量有重要作用,但受限于医疗机构与养老机构之间存在能力不匹配、需求不对等、彼此不信任等问题,目前智慧养老服务市场参与主体之间的数据资源分享意愿和共享程度较低,“数据孤岛”现象突出,未能发挥智慧养老服务市场的规模经济和协同效应。现有研究多从数据融合技术难点或数据融合如何支撑医养领域产业发展的角度探讨医养数据融合方案,却没有研究探讨如何促进多主体之间的数据共享行为。
可供性-实现理论(Affordance-Actualization Theory, A-ATheory)为如何促进医疗、养老等主体之间的数据共享意愿提供了新的视角。在医养数据融合的场景下,“数据可供性”是指数据通过共享和融合之后,形成的医养数据供给可以提升养老服务质量,进而为各主体创造价值;“实现”是指基于“数据可供性”,实现了各主体最初愿意数据共享的目标,从而促进各主体的数据共享意愿。例如,家政人员在为老年人提供服务的过程中发现老年人存在行走困难的情况,可能有骨质疏松的问题,需要及时就诊。将上述观察数据上传到统一的数据集成平台,有助于挖掘老年人的潜在需求,促进养老场景和医疗场景之间的场景转接,为不同主体开拓了客源,创造更多价值。更进一步,数据可供性的内涵体现在挖掘数据中的潜在需求,并针对不同的下游任务形成智能化的数据供给方案,促进各个任务的创新和突破。在此过程中,数据供给方案及其带来的价值创造也会进一步反馈至参与数据共享的各个主体,以进一步促进各主体共享数据资源的意愿,提升数据共享的内驱力,从根源上解决各主体“不愿意”共享数据的问题。
鉴于过往医养数据融合研究所存在的问题,本文基于可供性-实现理论,提出了面向任务的多源异构医养数据融合框架,包含数据采集层、数据融合层和数据服务层。其中,数据采集层我们考虑到数据的来源以及数据的结构化程度,对目前医疗健康机构和养老护理机构所产生的有价值的数据进行梳理;数据融合层中,我们将数据采集层中涉及的数据资源分为四类:基本信息、疾病症状、健康状态以及生活照护,并给出从多源异构数据资源中实现四类数据资源融合的具体技术方案;最后,在数据服务层中,我们梳理了现有文献,总结出目前医养结合场景下的六类典型任务所使用到的数据类型,并依据数据融合层形成的老年人医养档案给出数据供给方案。本文所提出的面向任务的多源异构医养数据融合框架,旨在通过各主体的数据共享和融合提升下游任务的性能,为数据共享参与主体提供价值,促进各主体数据共享的意愿。同时,本文将老年人的生活照护数据融入老年人医养档案,突出了养老护理场景在医养结合领域的特殊性和重要性。本文研究旨在推动医养数据集成服务平台建设,拓展医养结合场景下各类任务的数据边界,发挥数据要素的乘数效应,形成养老服务行业的新质生产力。
2 相关工作 |
2.1 医养数据融合现状
目前,医养数据融合面临许多挑战。技术层面,医养数据具有多源异构的特征,且存在专业性强、模态多样等挑战,对于技术的要求高。参与主体层面,医疗机构和养老机构在推进数据融合的过程中存在很多困难。一方面,医院以及大量基层医疗机构的主业任务繁重,医疗卫生服务供不应求,缺乏足够的资源和动力推动医养结合服务;另一方面,开展医养结合对于养老机构的服务效率也存在一定的影响。总而言之,医养主体在现实层面合作的积极性较低,而各方在资源整合方面存在的机制不健全、标准不统一和效率低下等问题是导致上述情况的主要原因。因此,如何解决医养数据融合中涉及的技术难题,明确医养数据融合对于推动医养结合的实际解题方案,推动医养主体之间的协同合作意愿和动力是目前的重要社会问题。
现有研究主要关注医疗健康领域的数据融合,例如疾病预测、医疗图像融合、医疗知识图谱构建等。上述任务大多从多源异构数据融合和多模态数据融合的视角出发,将来自不同输入设备的数据以及文本、图像、传感数据等不同模态的数据进行融合,以更好地支持下游任务的模型。对于养老领域的数据融合,现有研究仍停留在养老数据融合框架的设计层面。朱庆华等基于内容分析法和半结构化访谈,提出了面向养老服务的数据融合作用机制,并给出基于关联数据的养老服务数据融合解决方案。夏思洋和朱学芳从老年人健康信息需求视角出发,基于多源数据融合技术构建了面向老年人的智慧健康信息服务系统,并介绍了该系统的四个层次:数据源层、管理层、分析层和应用层。
然而,现有研究对于医疗和养老两类主体之间的数据融合关注较少,如何打通医疗和养老机构之间的数据链路仍是巨大挑战。季文飞等基于五元组的语义元数据对数据模型、数据清洗和融合、数据可视化和访问进行建模,提升了医养数据融合的灵活性和扩展性。这种基于语义元数据的数据融合方法通过将现实任务转化为元数据名称、模型属性集合、关键标识集合、查询字段以及映射函数,可以很好地完成数据的存储并支持下游任务。然而,研究表明智慧养老领域研究存在“造”与“用”失衡的现象,大量研究仅仅关注技术的实现却忽视了理论依据,理论深度有所欠缺。与此同时,尽管目前已经出现一些医疗健康数据共享平台,例如国家科技资源共享服务平台和国家人口健康科学数据中心合作打造的人口健康科学数据仓储(Population Health Data Archive, PHDA),涵盖各类人群以及多种疾病的特色数据资源,同时提供数据定题服务,由用户填写数据需求和数据用途,经过审批后平台以协议约定的形式向用户提供数据。但是该类平台的数据主要来自于医疗健康机构或研究所,尚未纳入养老护理机构的数据。并且现有数据供给服务缺乏一套智能化、自动化的面向不同任务的数据供给方案,在数据供给、审核和验收等环节仍存在效率不足的问题。
2.2 可供性-实现理论
可供性(Affordance)最早由Gibson在1977年提出,用于描述环境可供性,即自然环境为人类或动物提供的潜在行动可能性。之后大量研究对可供性的涵义进行了延伸。在信息系统领域,研究将生态环境可供性延展到IT组织环境和数字技术中,提出技术可供性(Technological Affordance),用于解释新兴技术帮助组织实现组织目标的潜在行动可能性。进一步,已有研究提出可供性-实现理论扩展了技术可供性的内涵,该理论指出主体采用技术并做出相应的行动,相应的,行动产生的正面影响帮助主体实现目标的过程。大量研究基于可供性-实现理论研究分析不同场景下,可供性-目标实现的中间过程。Zuo等基于半结构化访谈数据探究元宇宙的硬件、软件和内容三类关键功能的可供性与用户参与行为的关系。崔淼等人以Bilibili平台为例,从可供性-实现视角出发探讨内容平台的技术可供性如何促进用户生成内容的持续产出,揭示用户持续生成内容的实现过程。
研究数据的可供性(Data Affordance),并探究数据的可供性到目标的实现过程机制,对于挖掘技术与市场需求之间的相互依存关系有着重要的理论价值。Fischer等从微观层面(例如点击流数据)、中观层面(例如文本数据)和宏观层面(例如机构数据)分析大数据在教育领域的可供性。胡泳等指出在大语言模型训练的背后,训练数据的可供性主要体现在其在人机交互过程中对人的能动性的补充以及在模型训练过程的重要作用,同时指出训练数据可用性和有限性对于模型训练的影响。在医养结合的场景下,可供性-实现理论可以用于解释医养数据共享和融合对于实现下游任务性能升级这一目标的实现过程,为本文研究提供理论框架。
综上,研究开始关注医疗领域中数据融合的相关技术,并将其应用在多种任务中取得了良好的成效,但仍缺乏理论指导。而养老领域数据融合的研究多停留在方案设计,同时对于医养数据融合的关注较少。尽管已有研究着手于解决医养数据融合技术的实现方案,但这只能解决多主体之间“能”数据融合的问题,尚未回答如何解决多主体之间“想”数据融合的问题。而“数据可供性”为解决这一问题提供了新的视角,同时基于可供性-实现理论,可以为解释多主体之间的医养数据共享和融合行为如何助力实现各类任务性能突破这一具体目标提供理论基础。
3 面向任务的多源异构医养数据融合 框架设计 |
基于上述背景,本文提出了面向任务的多源异构医养数据融合框架,如图1所示。该框架主要包含数据采集层、数据融合层和数据服务层。其中,数据采集层定义了医养结合场景下涉及的数据资源类型,并按照来源主体和数据结构化程度设计了相应的数据采集机制。数据融合层详细介绍了数据融合的目标,即构建老年人医养档案,将多源异构数据整合至基本信息、疾病症状、健康状态以及生活照护四个维度,并给出相应的数据融合技术。最后,在数据服务层,我们将讨论目前医养结合场景的六类典型任务,并给出各个任务的数据供给方案参考。
图1 面向任务的多源异构医养数据融合框架 |
3.1 数据采集层
随着数据资源爆炸式的增长,数据采集被定义为吸纳并汇聚不同平台、格式多样、标准不一的数据并形成具有参考价值的数据的过程。融合并使用多源信息可以帮助更全面地了解当前领域的情况。医养数据资源,主要包含医疗机构以及养老机构在开展老年人服务过程中产生的各类数据资源,具有多源异构的特征。按照数据来源划分,包括健康管理APP数据、传感设备数据、可穿戴设备数据、监控设备数据等;按照数据模态类型划分,包括数值数据、文本数据、图像数据、音频数据、视频数据等;按照结构化程度划分,包括结构化数据、半结构化数据和非结构化数据。本文将按照数据结构化程度,对医养场景下的数据资源进行详细介绍,并给出相应的数据采集技术和实现机制,具体如表1所示。
表1 数据类型以及采集方法 |
对于结构化数据,主要包含医院、养老院等机构的关系型数据库中的用户数据、临床数据、生活照料的记录数据等。对于此类数据,需要基于ETL(Extract-Transform-Load)工具,完成数据从各主体系统数据库进行抽取、转换、装载的过程,以实现从多主体数据库中完成数据迁移的目标。对于半结构化数据,主要包括电子病历、问诊记录、护理日志等非结构化的文本数据,以及线上问诊平台的问诊数据、来自传感设备的健康监测数据等,这部分数据通常存储在XML或JSON数据格式中。针对不同类型的半结构化数据,采集方法也有所不同。例如,对于日志类型的数据可以使用ApacheFlume工具进行数据采集,它是一个开源的、分布式的数据采集框架,可以从多源数据中对日志数据进行采集聚合;对于线上平台的html页面,可以使用Scrapy、Selenium等爬虫框架进行数据的爬取等。最后,医养场景下也存在大量的非结构化数据,例如医疗处方、医学影像、问诊语音记录、监控录像等文本、图像、语音、视频的多模态数据,该类数据的采集关键在于如何从非结构化多模态数据中抽取出有用、有效的数据,例如从医疗处方中抽取出药品的相关实体、从医学影像中识别异常的区域、从监控视频中提取出老年人的行动信息等。因此,需要使用LSTM-CRF、Bert-CRF、CMeKG、Faster-RCNN等机器学习、深度学习技术处理不同模态的数据,完成命名实体识别、实体关系抽取等任务,以获得可用的有效信息。
3.2 数据融合层
医养数据融合的目的是将来自多主体的多源异构数据进行有效整合,从中抽取出结构化的有效信息和特征,并对各类信息和特征进行归纳和分类以形成患者档案,存储到数据仓库中,并进一步支持后续各类下游任务。
已有研究深入探讨患者档案应包含的内容,例如程结晶等通过采集患者个人信息数据和医疗数据,依据时间层级从过去、现在、未来三个层面设计了基本属性标签、健康统计标签以及健康预测标签三类一级标签,并进行逐级深化。然而,这种分类方式只针对于健康管理或疾病预测类的任务,对于其他类型任务的支持有待进一步完善。同时,也有部分研究将多源异构的医疗数据或养老数据,基于语义元数据或关联数据的技术将其整合为语义元组或知识图谱的形式以完成数据融合。这种方式基于图网络关系,具有较强的推理能力和关联分析能力,然而缺乏对于患者个人档案的可视化,同时对于信息的增删改查都有一定的约束,不利于后续维护。本文将老年人医养数据资源划分为四类,分别是基本信息、疾病症状、健康状态以及生活照护。按照MECE(Mutually Exclusive, Collectively Exhaustive),即相互独立,完全穷尽分析法原则,本文将老年人医养档案所包含的信息条目进行总结,如表2所示。
表2 患者档案数据标签分级情况 |
3.2.1 基本信息
基本信息包含老年人的姓名、性别、年龄、身份证号等个人信息以及家庭成员、家族病史等家庭关系信息。此类数据融合的难点在于将来自于不同数据库中的老年人身份进行校验、关联、补全和对齐,并对存在冲突的字段进行冲突消解,流程如图2所示。
图2 基本信息数据融合流程图 |
首先对于来自不同数据库的患者基本信息数据,需要进行初步的信息校验,例如判断年龄信息是否与生日年份相匹配、身份证号的生日号段以及性别号段是否与当前的生日信息和性别信息存在冲突。如果存在冲突,则需要结合其他主体的数据库进行辅助判别。
完成基础的数据校验后,将身份证号或手机号设置为主键即可完成数据表之间的关联。对于不同的字段可以直接进行合并,对于相同的字段则需要进行一致性判断,如果一致则无需其他处理,如果存在不一致的情况则需要进行冲突消解。例如,如果我们在对来自医院、养老机构等多个主体的患者信息进行整合的过程中,发现同一个身份证号对应的患者在多个数据库中的手机号不一致,则需要依据投票法等集成思想进行判别,或者选择最新录入时间的手机号作为最终的结果进行保存。
在此基础上,需要进一步完成对基本信息数据的数据脱敏处理,这是后续工作开展的合法性和伦理性前提。如果未经脱敏的数据流出,导致患者个人隐私或敏感信息的泄露,一方面会侵犯患者的隐私权,另一方面会加剧各主体“不敢”进行数据共享的现状。数据脱敏的基本思想是依据特定的规则和策略,在保留数据初始特征以及信息一致性的前提下,通过替换、重排、加密、截断、匿名化等手段等对包含敏感信息的数据进行变换和修改的过程。例如,将患者的姓名更换为随机id、将患者的身份证号中的部分号段进行掩码操作等。
3.2.2 疾病症状
疾病症状包含来自电子病历、问诊记录、护理日志、医学影像等数据中抽取出的患者当前或曾经所患有的疾病情况以及目前具有的一些症状。与基本信息数据融合类似,疾病症状融合也需要从多源数据中抽取相应的疾病/症状实体以及所对应的依据,以JSON数据格式进行保存,进一步依据患者基本信息中的身份证号或手机号作为主键进行数据关联。在这个过程中,需要将抽取出的疾病实体和症状实体参考特定的规范进行对齐,例如将“阿尔兹海默症”和“老年痴呆”统一表述为前者,保证数据的准确性和规范性。上述流程如图3所示。
图3 疾病症状数据融合流程图 |
疾病症状实体的抽取和对齐涉及到的核心步骤是医学命名实体识别(MNER, Medical Named Entity Recognition)和规范化(MNEN, Medical Named Entity Normalization),这也是医疗健康领域的基础和热点问题。前者旨在从文本中识别出医学相关的实体的边界,后者旨在将抽取到的实体映射到标准的术语规范,实现实体链接、歧义消除等目的。而在医学领域,自然语言描述的歧义性以及自然语言文本和知识库之间的异构性使得该任务面临更大的挑战。
传统医学命名实体识别任务基于事先定义的词典和语法规则,然而此类方法推理能力较差,并且无法解决OOV(Out-Of-Vocabulary,未登录词)问题,即无法处理现有词典或规则中没有涵盖的实体。而深度学习方法可以自动挖掘隐藏的特征,在医学命名实体识别任务中展现出强大的性能。大量研究基于医学实体和电子健康记录(EHRs)数据集,基于图神经网络、注意力机制等方法完成医学命名实体识别。同时医养领域存在大量的影像数据,从影像数据中抽取疾病、症状的实体一般基于多模态的预训练模型,包括BLIP、OFA、BiomedGPT等。对于医学命名实体规范化的任务,目前研究的主流思路是在实体抽取后,基于预训练模型对实体进行嵌入(embedding),然后通过相似度计算的方法或分类方法进行实体和标准术语的映射。例如,CUFFY等基于BioBERT模型,输入包含化学或疾病术语的上下文以生成子词嵌入,并连接分类层获取候选标准概念的概率分布。与此同时,随着大模型(LargeLanguage Models,LLMs)的快速发展,已有研究基于LLMs和提示学习完成生物医学知识图谱术语和层次化规范术语的实体链接和对齐。
针对医学命名实体识别和规范化,采用管道模型是常见的做法,即先进行实体识别再进行实体规范化。然而,研究指出管道模型会存在命名实体识别的错误级联到实体规范化中的问题,同时忽略了命名实体识别和规范化两个任务之间潜在的相关作用。因此,通过设计联合NER和NEN的多任务学习模型可以有效改善上述问题,提升模型性能。
3.2.3 健康状态
健康状态数据包含患者的血压、血糖、血脂、心率等生理指标数据,患者患有的慢性疾病、开药处方、用药记录等慢病信息,以及饮食记录、锻炼记录、睡眠记录、排便记录等来自于医疗或养老机构的电子健康记录数据或护理日志数据,这些数据主要反映患者在一段时间范围内的身体状况和健康水平,因此需要存储为序列数据。图4展示了健康状态数据融合的流程。以血压数据为例,需要将护理日志中的记录信息以天为单位,将患者每天的血压记录值进行抽取和保存,最终形成该患者血压值的时序数据,以供后续的疾病预测等任务使用。在从护理日志、电子病历等结构化程度不一的数据中抽取相应指标的过程中,也需要进行空值的填充、异常值的识别以及冲突数据的合并等预处理过程。例如,如果患者有一天的血压记录值为空值,则可以对其前一天和后一天的血压记录值求平均值以进行缺失值的填补,保证数据的连续性。
图4 健康状态数据融合流程图 |
3.2.4 生活照护
生活照护数据涵盖老年人在居家养老、社区养老、机构养老等多种养老场景下接受服务的过程中所产生的数据,本文主要以居家养老场景为例进行分析。具体而言,生活照护数据包括居家照护信息、家政服务记录以及监测数据三类。居家照护信息集中反映老年人当前的自理能力,在居家养老场景下老年人的具体需求,例如做饭需求、洗澡需求等,同时还包含居家照护过程中的护理记录,主要以文本模态进行保存;家政服务记录包含家政订单编号、家政订单类型以及服务人员信息;监测数据主要来自互联网/物联网监测设备返回的实时监测和预警数据,例如监控视频数据、睡眠监测数据等。对于生活照护数据的提取难点在于如何从来自不同平台/机构的数据进行整合,并按照统一的标准规范进行对齐。
生活照护数据的融合对于老年人医养档案的构建至关重要,图5展示了生活照护数据融合的流程。其中,家政服务记录和监测数据的数据提取在技术上与健康状态数据提取的过程类似,尤其是对于生理指标和活动记录等连续时间序列数据的处理。为了确保数据的完整性与准确性,需将这些数据存储为时序数据,从而支持动态监测和趋势分析。
图5 生活照护数据融合流程图 |
对于老年人自理能力和照护需求的识别,则需采用自然语言处理技术,从家政服务记录、护理日志等非结构化数据中进行信息抽取。一些家政服务或养老机构的订单系统中已经包含有关老年人自理能力的字段数据,可以直接选择最新的订单记录作为参考。而在缺乏明确自理能力字段的情况下,需要依靠家政服务内容和护理日志中的描述,进行实体识别,构建家政服务类型与老年人自理情况的映射关系。这一映射关系的建立能够有效预测老年人是否具备自理能力。照护需求的识别更为复杂,要求构建护理需求的实体抽取模型,完成对相关实体的精准提取与对齐。通过以上方法,生活照护数据的融合不仅能够有效完善老年人医养档案的层次结构,也为实现个性化、精准化的养老服务奠定了数据基础。
3.3 数据服务层
数据服务层本质上是提供一个针对不同下游任务返回不同类型数据的API接口,需要考虑不同下游任务的特质以及相应的数据需求,设计智能化、自动化的数据供给方案。本文考虑了面向医疗场景和养老场景的六个具有代表性的任务,包括医疗场景下的疾病预测、医生推荐、用药推荐以及养老场景下的跌倒预测、膳食推荐以及慢病管理,并通过文献分析的方法,结合上一节所设计的老年人档案数据,给出相应的数据供给方案,如表3所示。
表3 医养场景六类任务以及数据供给方案 |
以跌倒预测任务为例,现有研究主要关注脑电图和肌电图等患者临床指标,或通过平衡能力测试实验获取患者的平衡能力指标以完成跌倒预测和因子选择。也有研究从护理日志等EHRs内容中分析护理人员关于患者身体状况描述文本的情感特征,并基于此预测患者的跌倒风险。而在本文所提出的面向任务的多源异构医养数据融合框架中,可以基于数据融合层中形成的老年人医养档案,抽取多维度的医养数据,例如年龄、性别等基本信息数据,老人的疾病史、用药记录以及主要症状,血压、血糖等体现老人基础身体健康水平的生理指标,饮食记录、锻炼记录、睡眠记录等老人日常活动数据,老人的自理能力和生活照护需求数据,以及日常的互联网/物联网监测数据、护理日志等EHRs数据等,为跌倒预测任务提供更加丰富的数据支撑。在构建跌倒预测模型时,既应考虑患者疾病症状、用药记录、生理指标等医疗健康类型数据资源,也应基于老人的自理能力、家政服务记录、护理日志构建老年人跌倒风险等级评估模型,并结合监测数据构建实时老年人跌倒检测模型,保障老年人居家安全。
同时,在数据服务层中,数据供给方案不仅是针对不同任务类型所事先预制的模版,还可以基于多主体参与式的设计范式根据用户的反馈情况对数据供给方案进行适当调整,同时对数据采集、融合过程中扩充的新数据字段进行补充,增强了数据采集、融合和供给方案的可扩展性。数据服务层将采集、融合的医养数据资源应用至下游任务并更好地完成了任务,实现了数据的可供性,不仅能解决的多主体之间“能”合作的问题,同时有助于促进主体之间“想”合作的意愿。
4 基于可供性-实现理论的数据供给方案案例 |
在本节我们将基于现实世界数据集完成老年人医养档案的构建,并以“疾病预测”任务为例,探讨老年人医养档案以及数据供给方案对于疾病预测任务性能提升的影响。考虑到数据资源的限制,本节重点展示医养数据融合过程的关键环节,并在技术实现上进行一定的泛化。
4.1 数据来源和预处理
本文数据分别来自国内某三甲医院和某护理服务公司的患者数据,包含患者姓名、年龄、性别、体重、地区等个人信息,诊断记录等EHRs数据、护理日志、家政服务订单等养老护理数据。通过删除姓名字段,并对身份证号数据进行哈希映射处理等操作,完成数据脱敏,保护患者的个人隐私信息,最后共得到9,205条数据。
4.2 老年人医养档案的构建
本文以表3中给出的疾病预测任务数据供给方案作为指导,从多源异构数据中完成医养数据融合。在数据供给方案中,各类数据资源按照图2-图5的流程图完成数据融合,其中最关键的环节是疾病症状的实体识别和对齐。
本文采用CMeKG工具用于完成疾病、症状实体的抽取。CMeKG是面向中文医疗领域的医学知识图谱,其参考ICD-10、ACT等多种权威的国际医学标准术语集,具有较高的权威性。CMeKG提供了命名实体识别的接口,可以返回中文自然文本中所包含的疾病、症状实体。在完成实体的抽取后,考虑到进一步支持数据服务层中所提到的各类下游任务,本文选用DiseaseKG知识图谱①作为后续任务的参考信息,该知识图谱包含疾病、药品、食物、症状等九类不同的实体,可以有效支持疾病预测、膳食推荐、用药推荐等多项下游任务。因此需要将基于CMeKG抽取得到的实体与DiseaseKG中的实体进行对齐,以实现命名规范化的目的。本文所采用的实体对齐方案的伪代码如算法1所示。
首先CMeKG抽取出的疾病/症状实体作为待对齐实体,DiseaseKG中的所有的疾病/症状实体作为候选实体列表,基于“Chinese-Word2vec-Medicine”模型对待对齐实体和候选实体列表中的所有实体进行表征,进一步计算待对齐实体和每一个候选实体的特征向量之间的余弦相似度,完成对候选实体的排序,选择相似度得分最高的候选实体作为对齐实体。但是考虑到部分长尾实体表征效果较差,基于embedding+相似度计算的方法往往效果欠佳。因此,本文的实体对齐方案综合考虑基于embedding的语义相似度和Jaccard相似度,即当embedding相似度排名第一的候选实体与待对齐实体的语义相似度小于0.5时,将通过计算待对齐实体和每一个候选实体之间的Jaccard相似度作为最终得分。此方案充分考虑到当
“Chinese-Word2vec-Medicine”模型所计算得到的特征向量相似度均较低时,则直接考虑字符匹配的基础逻辑完成实体对齐。最终,上述过程实现了疾病、症状特征的抽取和对齐,实体抽取效果如表4所示,实体对齐效果如表5所示。
表4 疾病/症状实体的命名实体识别效果 |
表5 实体对齐效果 |
4.3 疾病预测
近年来,大模型的快速发展为各类场景提供了新质生产力。本文基于ChatGPT4o,结合检索增强生成(Retrieval-Augmented Generation,RAG)完成疾病预测任务。我们针对疾病预测任务设计了prompt模版,共包含3部分。
(1)任务指令:在prompt的开头我们设置了大模型的身份以及当前任务的简单描述;
(2)老年人医养档案:该部分包含格式化后的老年人医养档案,用于帮助大模型了解老年人的个体情况;
(3)参考信息:本文检索DiseaseKG知识图谱中与老年人医养档案中疾病症状关联的疾病信息作为外部知识参考,为大模型提供了专业知识。
本文选取了一个具有代表性的案例作为展示,prompt如图6所示。在该案例中,老年人医养档案包含老年人的性别、年龄、体重、家族病史,当前患有的疾病、症状、既往病史的实体,近七天的血压测量记录,自理情况、护理日志、家政服务记录。上述数据涵盖了数据融合层的四大类数据类型。参考信息中包含老年人医养档案中涉及的疾病症状实体相关联的疾病。
图6 本文所选案例的提示 |
4.4 消融实验
为了进一步验证可供性-实现理论,我们设计了数据消融实验,以评估老年人医养档案在提升下游任务性能方面的作用。我们依次剔除老年人医养档案中的基本信息、疾病症状、健康状态和生活照护四类数据,以及相应的参考信息,分析大模型的回复差异。需要注意的是,剔除生活照护数据会同步剔除疾病状态中来自于护理日志等养老护理类数据资源中获取的信息,反之亦然。实验结果如表6所示。结果显示,整合医疗健康和养老护理数据资源形成的医养数据档案,能够帮助大模型提供更全面的疾病预测结果。剔除任何一种数据类型,都会导致信息缺失,使大模型难以全面判断老年人的身体状况。例如,去除健康状态中的血压测量数据后,模型无法通过其他数据推断患者已具有高血压症状。
表6 数据消融实验结果 |
本节基于现实世界数据集,实现了数据采集、数据融合到数据服务于下游任务的全链路流程,为本文所提出的面向任务的多源异构医养数据融合框架提供更加具象化、可视化的展示。从上述示例中不难看出,融合后的老年人医养档案可以实际应用在疾病预测任务中。数据消融实验结果也表明通过实现医疗健康和养老护理数据的融合可以有效提升疾病预测任务的性能,并有助于实现各参与主体最初愿意数据共享的目标,对于促进各主体的数据共享意愿有正向影响,为本文提出的面向任务的多源异构医养数据融合框架具有可操作性提供证据,可用于指导智慧养老领域的数据融合实践。
5 结论、局限和未来的工作 |
推动医养结合是发展银发经济和提升老年人满意度的重要途径,提升医疗机构、养老机构主体之间数据共享意愿,明确医养数据融合的实现方案是推动医养结合发展的关键所在。本文基于可供性-实现理论,提出了面向任务的多源异构医养数据融合框架,该框架统一了来自医疗机构和养老机构两类不同主体之间的数据资源从采集、融合到服务于下游任务的全链路流程,进一步突出医养数据融合对于各参与主体价值创造、下游任务质量提升的重要推动作用,为构建优质高效的整合型医疗卫生服务体系提供参考依据。同时为了验证本文所提出的医养数据融合框架的可行性,本文在现实世界数据集中展开案例研究,我们选取了较有代表性的医疗、养老机构的患者数据,以疾病预测任务为例,采用大模型与RAG技术设计了基于老年人医养档案和参考知识的提升模板,通过剔除不同的数据源验证了数据可供性对于提升下游任务的重要作用,为医养数据融合框架提供实践支撑。
尽管如此,现有医养数据融合方案在实践中仍存在一定的局限性。首先从数据融合的标准视角出发,当前医养结合领域仍缺乏统一的术语规范。不同机构在老年人照护和医疗信息的记录上使用的术语、编码体系和分类方法不尽相同,导致数据标准化和一致性处理的困难。第二,针对医养领域的多模态数据,目前仍缺乏有效的知识图谱、预训练模型处理各类技术任务,现有的模型多针对通用医疗数据,未能充分考虑养老护理领域的特殊需求,例如老年人的自理能力、照护需求等多方面信息,这些细粒度信息尚未被现有知识图谱、预训练模型充分捕捉。因此,制定一套覆盖广泛且适应性强的医养领域术语规范、构建专门针对老年人健康管理和护理需求的知识图谱、预训练模型,对于实体抽取和对齐等下游任务的性能提升意义重大。第三,目前仍缺乏一个能够支撑多源数据融合与处理的技术中台。技术中台不仅要整合医疗健康与养老护理数据资源,还需提供统一的数据管理、服务调度与算法集成功能,为医养机构提供统一高效的数据服务支持。最后,当前各主体数据共享仍缺乏信任,数据安全和隐私保护仍然是制约医养数据融合的关键难题。而区块链和联邦学习技术提供了可能的解决方案。区块链技术通过去中心化、不可篡改的特性,能够增强数据交易的透明度和信任度;而基于联邦学习,各主体通过在本地完成数据训练而无需共享原始数据,保障了数据安全与主体协作的效率。
除上述实践中的局限性之外,本文研究自身也存在如下不足:首先,本文提出的医养数据融合框架中在生活照护数据中主要针对居家养老场景,未来将针对社区养老和机构养老场景进行完善。此外,本文医养数据融合方案仅以老年人作为主体,未能针对不同下游任务的特殊需求对其他主体的数据进行补充,例如医生的相关信息、食品的相关信息等,然而这些数据对于下游任务而言同样重要,后续研究我们会充分考虑医养结合场景中与老年人息息相关的数据类型,丰富医养数据融合方案,以更好地服务下游任务。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
王淳洋
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 加强信息资源管理,助力新质生产力
网络首发 | 人工智能决策性别公平研究:构件、模式与生态系统
网络首发 | 楚门的世界:短视频虚假信息多模态特征及其传播效果
网络首发 | 大模型“涌现”视域下的智能健康医疗知识管理体系变革与创新发展
网络首发 | 我国新型公共文化空间发展现状与未来展望