摘要:人工智能和数据驱动的电子健康记录(EHR)挖掘可以发现潜在医学规律和知识,为精准化、个性化医疗决策和健康管理提供高价值情报和技术方法支撑。本文从Web of Science、PubMed以及CNKI数据库中检索相关EHR挖掘的文献,通过可视化发文趋势及关键词共现分析领域研究热点与趋势。在充分了解EHR数据类型和数据库来源的基础上,对科学界现有EHR挖掘技术方法及其优缺点进行归纳总结与对比分析。研究发现,目前EHR挖掘技术可分为基于关联规则、词典和规则相结合、统计机器学习、深度学习四种,其中基于深度学习的EHR数据挖掘技术是当前的研究热点和趋势,可对大规模复杂异构的EHR数据进行高效挖掘和结果预测。总体研究仍存在挖掘结果可解释性差、技术方法单一和融合不足、智能化程度低和可移植性较差、多模态异构数据的表示学习能力不强、在医疗领域实际应用落地困难等问题。未来研究应针对EHR挖掘结果的可解释性、多模态异构数据的强表示性、EHR数据的集成和标准化,以及在临床医疗实践中的可落地性等重点展开研究。此外,随着大语言模型和知识图谱相关技术的快速发展,可探索其在EHR挖掘领域实际应用的可行性。
关键词:电子健康记录;电子病历;数据挖掘;机器学习;深度学习
电子健康记录(Electronic Health Records,EHR)是指以电子形式存储和管理的个人健康信息,是传统纸质病历的数字化产物,一般涵盖了个体医疗历史事件相关的多模态数据信息。相较于传统纸质病历,EHR具有数字化、可持续性、可互操作性等良好特性。通过使用EHR,医疗机构和提供者可以更高效地管理和共享患者的医疗健康信息,减少纸质记录的繁琐和错误,患者也可以更方便地获取和访问自己的健康数据,促进医患间的沟通和合作。因而,EHR的最初目标是实现和促进医疗健康信息的数字化以及共享利用,改善和提升医疗保健的质量和效率。
随着人工智能和医疗健康大数据技术的不断发展,医疗机构的数据采集和记录方法具有异质性,导致EHR数据可能存在错误、缺失或不一致的情况,从而影响数据挖掘结果的准确性和可靠性。此外,不同医疗机构和数据库系统采用的数据格式标准不一致,导致EHR数据互操作集成和跨系统分析困难。同时,EHR涉及个人健康信息,保护患者隐私和数据安全也限制了对大规模EHR数据集的访问和共享。为了探寻方法和路径以解决EHR数据挖掘面临的挑战问题,促进EHR数据挖掘更好地服务于医疗保健行业需求,为精准化、个性化医疗决策和健康管理提供高价值情报和技术方法支撑,本文通过对相关文献进行梳理分析,总结EHR挖掘技术的研究进展与应用前景,发现不足并提出相关建议。
本文以Web of Science核心合集数据库、PubMed生物医学数据库和中国知网(CNKI)为检索平台,构建英文检索式,(TS=('electronic health record* ' or 'electronic medical record* ' or 'EHR' or 'EMR')AND TS=('data mining' or 'text mining'))以及中文检索式,一次检索:SU=('电子健康记录'+'电子健康档案'+'电子病历'),二次检索:SU=('智能'+'文本'+'数据')*'挖掘'。检索日期为2023年12月14日。
为探索对电子病历挖掘领域研究进程的完整性,初步检索不设置时间限制。根据检索结果对文献进行筛查,通过检索相关性排除完全不相关的论文,最终选择2004—2023年的文献进行分析。从Web of Science核心合集数据库和PubMed数据库分别筛选出1658篇和2249篇相关文献,筛选去重后,合并过滤出相关英文文献3366篇,在CNKI数据库检索并筛选出405篇中文相关文献。
图1所示,EHR挖掘技术的研究从2013年之后受到各国学者的关注,文献数量逐年增长,在2015年研究达到鼎盛时期,之后呈现稳定状态。Google公司在2013年提出Word2Vec模型,基于深度学习的方法在各个领域受到广泛关注,也推动了EHR挖掘技术的发展。我国在2015年发布《国务院关于积极推进“互联网+”行动的指导意见》,首次提出加快发展基于互联网的医疗卫生服务。随着EHR系统在医疗领域的逐渐普及,人工智能技术在医学研究中的应用日益广泛。在早期阶段,由于EHR系统的建设和发展相对滞后,研究人员主要依赖人工智能技术来分析医学文献数据,而非临床电子病历数据。这种趋势在一定程度上限制了人工智能在医学领域的应用潜力。尽管一些研究人员已经开始尝试利用关联规则等方法对特定科室或类型的数据进行分析,但由于数据获取的限制,跨学科研究仍然面临着诸多挑战。近年来,随着人工智能和深度学习技术的飞速进步,以及EHR系统建设的逐步完善,EHR挖掘领域迎来了新发展机遇。这些技术的突破使得研究者能够更高效、更深入地处理和分析海量的临床数据,从而极大地推动了该领域的深入研究。
在第1章文献计量分析研究的基础上,延伸阅读相关的文献资料,并调研了EHR数据挖掘领域的背景知识和相关信息。经过筛选,从众多文献中选取具有代表性的74篇作为参考文献,旨在用于下文全面概述该领域的发展历程和研究现状。
EHR数据库存储着经过规范化处理的可用于科学研究的医疗健康信息。在近年来EHR普及和应用过程中,其数据量呈现出迅猛增长的态势。当前,临床医学研究以数据驱动和循证医学为核心原则展开,EHR的目标不再局限于记录患者的诊疗过程和确保医院的正常运行。通过对海量EHR数据的深入挖掘和分析,可以发现新的医学知识,从而为医疗决策提供有力支持。各国对EHR数据库的建设都给予高度重视。其中,美国拥有较为丰富且高质量的公开医疗领域数据库资源,我国也在加大力度建设健康医疗数据库。由于我国高质量的电子病历系统普及率低,医疗机构之间存在“数据孤岛”、数据质量较低,以及数据安全问题,可用于研究的数据集较少。表1总结了国内外用于EHR挖掘研究的部分数据来源。使用较多的是MIMIC数据库,该数据库可以供各国学者免费下载研究。
基于关联规则的EHR挖掘方法可用于挖掘结构化数据指标之间隐藏的关系。早期,研究者开始尝试从循证医学角度出发,将计算机科学的研究方法应用于电子病历挖掘,其中Apriori是关联规则挖掘中最具代表性的算法。国内学者尝试使用该方法寻找电子病历中疾病、病因以及药物等信息间的关联性。在处理医疗数据时,传统关联关系挖掘方法面临着许多挑战。首先对电子病历的质量要求高,否则将会挖掘出错误的信息;其次挖掘出的规则大部分在医学上是无关紧要的信息,其中一些规则对医生来说可解释性较差,挖掘结果不能用于辅助临床决策。Chao等为了克服传统关联规则挖掘的缺陷,使用产生式规则(Production Rule System,PRS)方法挖掘患者脑血管检查数据中更全面的规则,从而减少异常关联规则的干扰,提高关联规则挖掘的相关性。
关联规则挖掘方法只适用于对少量数据的分析研究,否则生成规模庞大的候选项需要较大的运算量。但是对于医疗数据来说,患者的就诊信息存在较强的个性化特征,基于小数据量分析的结果不具有普适性。此外,该方法忽略了属性之间的重要性程度,挖掘结果对于临床决策的可用性较小。
早期通常采用经典的机器学习单模型及集成方法,深入挖掘结构化电子病历数据的特征关联,并通过对多元特征的学习进行预测任务。Li和Fan将筛选的多变量特征输入多种机器学习模型进行结果预测,验证不同模型的准确性,前者是对女性先兆子痫(Preeclampsia Eclampsia,PE)进行风险预测,XGBoost集成模型的预测效果最好;后者对无症状颈动脉粥样硬化患者进行诊断预测,逻辑回归(Logistic Regression,LR)是最佳预测模型。针对不同任务的预测需求,各种机器学习模型的表现各有优劣,通常需尝试多种模型并进行比较,以找到在特定任务中表现最佳的预测模型。为充分发挥单个模型的优势,学者们探索了混合模型策略,这种模型融合了不同单一模型的优点,使得预测性能得到了显著提升。Lee等将典型的基准机器学习分类器和堆叠分类器在老年抑郁症预测任务中进行对比,堆叠分类器的性能具有更强的鲁棒性;雷诺扬帆等使用三种标准机器学习模型以及三种集成学习模型筛选房颤的高危患者,集成模型Stack表现最好;Bernardini等使用一种稀疏平衡支持向量机(Sparse Balanced-Support Vector Machine,SB-SVM)的方法对诊断为早期2型糖尿病的数据进行建模,通过提高模型可解释性并找到最相关的特征来管理高维数据。
在非结构化EHR文本数据挖掘任务方面,学者们常使用规则和机器学习相结合的方法进行命名实体识别任务,规则的确定可以提高实体识别的准确性。王阳阳和栗伟等使用机器学习和规则相结合的方法进行实体识别任务,前者使用隐马尔科夫模型识别命名实体,利用正则表达式识别数字以及日期隐私;后者使用条件随机场对病历实体识别,利用决策树生成的规则以及临床知识规则对识别结果进行优化。Lei和Zhang等通过分析中文电子病历文本数据的特点,对疾病、症状、检查和治疗四个实体进行识别,前者手动筛选出基本特征和扩展特征,使用条件随机场(Conditional Random Fields,CRF)模型进行学习和识别任务;后者对比了不同类型的特征和不同的机器学习算法对临床命名实体识别(Named Entity Recognition,NER)任务的影响。在信息抽取任务中,孙健等制定启发式规则,并设计基本特征、短语句法特征和其他特征,训练SVM、SVM+Random Forest两个分类器,在时间关系识别问题上取得了较好的结果。Chapman等使用词嵌入和词聚类构建特征工程,NLP技术识别临床笔记中的症状和药物实体,并将其关系标记为适应症或药物副作用和药物不良事件,最后使用CRF和随机森林模型分别进行命名实体识别和关系提取任务。
相较于词典规则的方法,基于机器学习的EHR挖掘方法具有更高的召回率和扩展性。在对非结构化文本数据进行实体识别、信息抽取等任务时,前期需要构建大量标注语料数据。在处理小规模样本数据时,机器学习方法可以取得良好的预测效果,但在处理庞大且复杂的EHR数据时,制定有效的特征工程以及解决效果不佳的问题成为了一个挑战。
面对海量、复杂、异构的EHR数据,深度学习模型可以减少特征工程的复杂性并提供强大的网络架构,因此在EHR挖掘领域优于传统的机器学习方法,已被广泛应用于处理结构化数据和非结构化文本数据的挖掘任务。表4总结了监督学习、半监督学习和无监督深度学习模型在EHR挖掘领域的应用。
卷积神经网络和循环神经网络作为有监督深度学习的典型代表,在EHR挖掘领域具有出色的表现。Shin等使用带有注意力机制的卷积网络模型对放射科头部CT报告分类,同时使用注意力热图为预测结果提供了可解释性。近年来,对结构化数据建模的研究不再仅关注离散的医疗代码信息,还将时间因素也考虑在内。Ju等提出了一种三维3D-CNN-SSP框架模型,关注数据的内在关联和时间特征以捕获EHR中的复杂关系,以此对患者进行风险预测。卷积神经网络(Convolutional Neural Network, CNN)模型在医学影像数据的处理任务上具有优势。Karargyris等针对胸部X射线数据集训练一个CNN模型来预测患者年纪,在预测正确的胸部X射线中进一步研究身体部位变化与患者年纪的关系。对于长距离依赖的时序问题,循环神经网络模型表现更优。吴佳伦等提出了一种基于患者相似度分析的MedSim药物推荐深度学习模型,通过RNN来学习患者的表示,检索具有相似性的患者序列为患者推荐准确、安全的药物。Choi研究了关于结构化EHR的数据表示,预测任务。赵奎等考虑了宫颈癌诊疗数据具有部分时序性且分布不均匀的特征,使用加权池化和Skip-gram算法对潜在关系进行向量表示,Bi-GRU模型用于结果预测。此外,为了更好地对结构化数据建模,Trang等改进了LSTM模型,在输出门和遗忘门增加干预措施向量建模。对于非结构化EHR文本数据的挖掘,BiLSTM-CRF是经典的序列标注模型。李超凡等结合CNN和BiLSTM模型的优势对文本进行分类任务,关注病历文本的局部特征以及上下文语义关联信息,以获取句子级别的高层特征表达,并使用Attention机制进行特征加权。
图神经网络模型在处理具有多样化数据结构和复杂相互关系的EHR数据方面展现出了巨大的潜力。与卷积神经网络相比,能够更全面地理解图结构的全局关系;与循环神经网络相比,则更擅长捕捉不同节点之间的复杂交互。Liu等提出了异构相似图神经网络,将异构EHR图拆分成多个同质图,基于相似度子图共同学习高质量的图嵌入。Shang等提出了一种端到端的GAMENet图增强深度学习模型,以患者纵向EHR数据和基于药物相互作用的知识库为输入,旨在生成有效且安全的联合用药推荐。MedGCN模型则可以根据患者不完整的实验室检测数据推荐患者的用药,并填补实验室数据。成全等构建“异常体征—患者—药品”异构图,使用R-GCN学习节点表示并对药物进行精准推荐。此外,DeepNote-GNN模型集成了临床笔记信息和患者网络拓扑结构,使用Bert模型提取临床笔记的深层表示,构建结构化图数据,训练GNN网络进行再入院预测。
BERT预训练语言模型具有强大的特征提取和语言表征能力,基于此,有人针对生物医学和临床医学领域训练了BioBERT和EhrBERT模型。此外,Med-BERT将为文本域开发的BERT模型框架应用于结构化EHR,预训练上下文嵌入。目前对于医学NLP任务常使用混合深度模型,张芳丛等使用Ro BERTa-WWM-BiLSTM-CRF模型对中文电子病历进行命名实体识别;韩普等使用BiLSTM-CRF+BERT+IDCNN+Self-Attention混合模型在中文糖尿病数据集上进行医学实体抽取。对于缺乏医疗数据的问题,生成对抗网络(Generative Adversarial Network, GAN)的出现为其提供了一种解决方案。GAN由生成器和判别器组成,在医学图像生成方面具有很强的能力。此外,Gupta等使用双向循环单元的生成对抗网络BiGAN,用于对EHR数据进行填充和预测。传统的GAN网络对于离散型数据生成效果不佳。Choi等提出了一种将自编码器和生成对抗网络组合的MedGAN模型,用于生成高质量、高维的患者EHR数据。Baowaly 改进MedGAN框架,使用Wasserstein GAN和boundary-seeking GAN替代GAN网络,所生成的EHR数据均优于原模型。
有监督深度学习模型需要大量人工标注数据,对数据的依赖性强。现有的研究主要关注离散的医疗代码和时间信息,而忽略了生命体征和实验室检测结果等数值型数据在这些预测任务中的作用。图神经网络模型可以将结构复杂的数据表示为图结构,为深入挖掘数据之间的复杂关联提供有效的解决方法。此外,无监督深度学习模型在EHR挖掘领域探索了对无标签数据的研究。对于小样本无标签的问题,可以使用GAN网络的方法进行数据增强。
深度强化学习(Deep Reinforcement Learning, DRL)算法是将深度学习与强化学习相结合的一种方法模型,由于强化学习的优势在于其能够根据环境的反馈来做出决策以获得最大化的奖励,因此强化学习适用于对结构化数据的预测任务,尤其是在解决患者用药以及剂量推荐这类序贯决策问题方面具有显著优势。
表5总结了部分深度强化学习模型用于EHR的挖掘。Wang等提出了一种基于图卷积的强化学习CompNet模型用于药物预测,该模型使用R-GCN对无序且相互作用的药物进行编码,使用深度Q学习(Deep Q-learning, DQL)来学习药物之间相关不良作用。Jia等模仿医生诊断过程提出一种DKDR模型,通过爬取尽可能全面的医学知识构建其知识图谱,使用Q-learning和CNN算法寻找症状最佳组合并给出诊断结果。深度Q网络(Deep Q-Networks, DQN)是经典的深度强化学习算法,融合了神经网络和Q-learning算法。吴青等使用DQN模型推荐治疗BECT的AEDs左乙拉西坦的口服剂量,模型通过发现用药前后患者身体状况的变化找到最优用药剂量,使奖励最大化。Lopez-Martinez等使用dueling DDQN模型对重症监护病房阿片类药物使用剂量进行个性化推荐。
深度强化学习将深度学习的强大感知能力和强化学习的决策能力相结合,通过优势互补为预测任务提供了解决方案,但是对于医疗数据来说,该类方法无法很好地解决特殊情况下的准确预测。
总体来看,目前电子健康记录数据挖掘技术已取得显著研究进展。基于深度学习的EHR数据挖掘技术是当前的研究热点和趋势,可对大规模复杂异构的EHR数据进行高效挖掘和结果预测。但仍存在着挖掘结果可解释性差、智能化程度和可移植性低、对多模态数据的表示学习能力不足、实际应用落地困难等问题。未来可考虑从以下几个方面进行重点研究和突破。
1)提升EHR数据挖掘深度学习模型的可解释性。深度学习技术在其他领域应用广泛且取得了很好的成果,但是深度学习模型框架具有“黑盒”之称,模型的不透明导致其可解释性差。医学影像等科室允许计算逻辑的不透明,但是对于EHR数据而言,此类复杂的数据之间联系紧密,一个指标的变化可能导致更多指标的变化,很容易产生过拟合问题。此外指标之间的存储形式复杂多样,多模态数据分析难度较大。学者们尝试使用增加约束条件、定性聚类、可视化分析等多种方法来增强模型的可解释性,但仍存在较多的缺陷。目前受到高度关注的LLM模型通常还是基于Transformer架构,仍不具有模型可解释性。虽然模型的预测结果得到了巨大提升,但是不具备可解释性导致其较难应用于临床实践活动。
医生和研究人员能够理解算法的原理和过程将是未来应用于临床实践至关重要的因素,算法的透明性和可解释性是辅助医生进行决策的依据。在未来的研究中,除了对算法模型的研究外,还需另辟蹊径从数据角度增加模型的可用性,确保数据的准确性、完整性和一致性。例如,增加模型的外部验证,通过标准的通用数据结构对模型预测结果进行验证;对建模数据严格的标准化要求,对错误、不完整的噪声数据进行严格控制,同时关注数据清洗、错误修复和缺失值填补等技术,提高数据质量和可信度;建立人工监管机制,人工设计大量的标准和使用指南控制模型开发过程等。
2)增强对EHR多模态数据的融合分析。EHR数据具有异构性,目前的研究热点多集中于对特定数据的分析研究。如预测任务常对医疗代码信息进行表示学习,忽略了生命体征、实验室检测等数值型数据的影响。不同类型的临床数据之间存在重叠和互补问题,数据对齐是医疗领域多模态数据融合需要解决的关键问题。此外,医疗数据中包含了极大的数据维度,数据指标之间存在复杂的关联。随着数据维度数量的增加,特征空间中的特征组合数量减少,在预测任务时会产生数据盲点,导致模型预测任务准确率下降。
未来的研究需更关注多模态数据的融合和分析,例如将结构化数据、非结构化文本数据和医学影像数据结合进行结果预测。医疗多模态数据挖掘较传统领域的数据维度更大,因此训练庞大的高质量数据可以提高模型预测的准确率。使用LLM模型训练复杂的多模态数据结构将是重要的改进方向。
3)促进EHR数据跨系统的集成和标准化。电子健康记录主要通过医疗机构的患者就诊信息记录进行收集,同时也会辅以调查问卷的形式来获取患者的病史信息。然而,在收集患者多维数据方面存在许多挑战,包括数据收集过程中的大量缺失值问题,数据处理过程中的潜在偏差,稀有疾病数据量不足的问题,以及数据隐私和医疗机构间数据共享的限制。此外,数据收集过程还可能引入噪声数据,影响数据质量。
EHR数据挖掘任务对数据集的要求高,高质量且公开的数据集对于研究者们来说至关重要。未来对于EHR数据的挖掘需要大量的标准化数据,跨机构和跨系统的数据整合和共享利用研究将成为重点。随着智能手机和可穿戴设备的普及,越来越多的个人健康数据被收集,包括心率、步数、睡眠等。将移动健康数据与EHR数据进行整合和挖掘,将为健康监测、疾病预防和管理提供更全面的信息。因而,制定和构建统一的EHR数据标准和互操作性标准,消除数据壁垒和解决数据安全问题,实现数据无缝整合和集成共享,为未来EHR挖掘提供大规模、高质量的数据,提高EHR数据挖掘的广度和深度应是必行之策。
4)推动EHR大语言模型和医学知识图谱的结合应用。目前,借助深度学习技术,研究人员已经能够探索深度学习在疾病预测、诊断辅助和药物反应预测等方面的初步应用。想要更深入地进行EHR数据分析和挖掘,以预测个体患病风险、优化治疗方案和实现个性化、精准化的医疗决策和健康管理,需要人工智能技术和医学领域专业知识跨领域深度融合。但是跨领域的结合对专业人才要求较高,尤其是医学知识和人工智能专业知识的难度系数较大,导致目前国内外在此类人才的培养发展上还存在一定的困难和差距。近期,大规模语言模型(Large Language Models,LLM)的出现为解决此类问题提供了一种可行策略和路径。LLM在通用领域的生成内容逻辑性强,但在专业领域由于缺乏事实知识容易产生错误信息。ChatDoctor作为LLM在医疗领域的首次尝试,在解答专业问题方面取得了巨大进展,它颠覆了传统深度学习模型的全参数微调方法,采用指令微调的方式来提高专业领域的准确性。指令设计的质量和优化将在技术层面上决定输出结果的准确性。但同时,使用LLM进行指令微调所需的技术要求相对较低,对领域专业知识的要求较高,因而医疗专业人员可以发挥重要作用,参与指令的设计和监管指令数据,从而提高EHR挖掘结果的准确性和实用性。
未来,为了进一步提高EHR大语言模型的准确性和实用性,还应考虑将EHR大语言模型和医学知识图谱相结合,以便同时利用其优点,既实现对事实型知识的存储和利用,又实现对新型事实、未知知识的生成和表示,并能提供额外知识进行高效的推理和解释。就具体的结合策略来说,一方面可将医学知识图谱纳入EHR大语言模型的预训练和推理阶段,用于增强EHR大语言模型对所学知识的理解和运用;另一方面可将EHR大语言模型用于医学知识图谱中不同类型的任务,如实体关系嵌入、补全、构建、问答和图文生成等,用于增强医学知识图谱的构建和应用效率;最后,还可以在同一个知识系统模式中对EHR大语言模型和医学知识图谱进行有机协同应用,以相互有益的方式共同作用,通过数据和知识驱动的双向推理来增强EHR大语言模型和医学知识图谱的应用效果。
综上所述,未来电子健康记录数据挖掘技术在提升深度学习模型的可解释性、增强对EHR多模态数据的融合分析、促进EHR数据跨系统的集成和标准化、推动EHR大语言模型和医学知识图谱的结合应用方面应进行深入研究和发展突破。通过深入挖掘EHR数据,未来将进一步发现和揭示疾病的发展机制、风险因素与本质规律,从而推动和促进更加高效化、精准化和个性化的医疗决策和健康管理服务的实现,优化公共卫生研究和健康政策制定方法和路径,为人类健康和福祉作出更大的贡献。
编辑部信息
邮箱:bj@clas.ac.cn
电话:028-85223853
网站:www.globesci.com