点击蓝字
关注我们
引用本文:中国康复医学会康复大数据工作委员会. 康复大数据应用专家共识(2024版)[J]. 中华医学杂志, 2024, 104(38): 3561-3574. DOI: 10.3760/cma.j.cn112137-20240424-00970.
通信作者:梁万年,清华大学万科公共卫生与健康学院,北京 100084,Email:liangwn@tsinghua.edu.cn;刘民,北京大学公共卫生学院,北京 100191,Email:liumin@bjmu.edu.cn;刘珏,北京大学公共卫生学院,北京 100191,Email:jueliu@bjmu.edu.cn;陶静,福建中医药大学康复医学院,福州 350122,Email:taojing01@fjtcm.edu.cn.
摘要
随着科技的发展与进步,生物医学模式的变革,数字化技术的应用,康复医学领域也产生了海量、多元化大数据,但当前康复医学对其利用程度相对较低。利用大数据赋能康复医学事业发展至关重要。为了更好推动康复大数据在中国的规范化发展,中国康复医学会康复大数据工作委员会组织专家就康复大数据的概念、意义和必要性,康复大数据来源,康复大数据临床应用研究优先关注领域,康复大数据基本研究方法,康复大数据库建立的标准与原则,康复大数据临床应用场景共6个方面制订共识,为康复大数据相关医疗卫生工作者及科研工作者提供参考。
关键词:康复;大数据;专家共识
《“健康中国2030”规划纲要》 [ 1 ] 中指出,建设健康中国的战略主题为“共建共享、全民健康”,要惠及全人群,不断完善制度、扩展服务、提高质量,使全体人民享有所需要的、有质量的、可负担的预防、治疗、康复、健康促进等健康服务,突出解决好包括老年人和残疾人在内的重点人群的健康问题。康复服务是全民健康覆盖的重要内容 [ 2 ] ,关注康复医学事业、发展康复服务是全面发展健康保健服务,实现全民健康覆盖的根本。
随着全球信息化的发展,数字化技术的应用时代已经到来,康复医学领域也产生了海量、多元化大数据,合理利用这些大数据赋能康复医学事业发展至关重要。当前,康复大数据应用在我国受到广泛关注,各地企业及医疗机构对其进行了模式上的探索与构建 [ 3 , 4 ] ,展现了大数据技术在社区康复医疗事业上的广泛前景以及变革性的意义,但应用范围仍较为局限。针对既往工作中遇到的问题,为解决相关专业人员对于本领域概念认识的一致性,并加快国内康复大数据的发展,中国康复医学会康复大数据工作委员会在借鉴国内外相关文献和指南的基础上,特制订本共识,为康复大数据相关医疗卫生工作者及科研工作者提供参考,以期提高康复大数据领域研究质量并促进未来多学科相互合作。
一、本共识制订方法
本共识由中国康复医学会康复大数据工作委员会发起,启动时间为2023年12月,撰写时间6个月,审稿时间为2024年5月,定稿时间为2024年6月。
1. 共识使用者:康复大数据相关医疗卫生工作者及科研工作者。
2. 共识制订工作组:共识专家组成员共44位,入选标准为具有丰富康复大数据应用经验的专家。专家具有地域、学科的代表性,专业涵盖康复医学、大数据、信息科学、流行病与卫生统计学、指南方法学等方面,其主要职责是对共识进行整体审阅、讨论、修改与完善。由具有一定康复大数据研究、循证医学及指南方法学的专家执笔,同时全面负责共识的初步撰写、协调、管理和统稿审校工作。上述成员均由中国康复医学会康复大数据工作委员会遴选选出。
3. 文献检索:本共识以“rehabilitation”“big data”“康复”“大数据”等为关键词,检索PubMed、Web of Science、知网等中英文数据库,以及与康复大数据相关的学会/协会网站文件,纳入来自指南、共识、系统评价、荟萃分析、随机对照试验(randomized controlled trial,RCT)等证据,检索时间为建库至2023年12月31日,检索不限定发表语言。共识专家组成员基于指南、共识、系统评价、荟萃分析、RCT的证据,分成不同的领域,根据预先确定的范围,初拟了共识意见和证据与解释。执笔组整合共识专家组文件,撰写共识全文初稿。召开6轮全体会议,由共识专家组对共识文件进行反复讨论、审稿与修改,经由顾问专家外审审阅,最终形成共识终稿。
4. 证据质量和推荐强度:针对每一条推荐意见,专家采用李克特量表评分,满分5分,5分表示非常同意,4分表示同意,3分表示中立,2分表示不同意,1分表示非常不同意。本共识设定:针对单条推荐意见,评分为5分的专家超过80%,则对该条推荐意见达成共识。本共识共凝练出22条拟推荐意见,均达成共识。专家推荐程度以“共识度”标注,共识度=评分为5分的专家/总参评专家人数×100%。总参评专家人数为44位。
5. 利益冲突的声明:本共识制订过程中,所有参与本共识专家研讨会的专家和共识工作组成员均已签署书面利益声明,与医药企业不存在共识相关的利益冲突。
6. 共识的发布、传播与更新:为了促进共识的传播和临床应用,共识将在专业期刊上发表,发表后将以学术会议、学习班等形式在全国范围进行传播。共识制订工作组将定期进行文献检索、证据更新和评价,计划每3~5年对共识进行更新。
二、康复大数据的概念、意义与必要性
推荐意见1:康复大数据是指在康复医疗服务过程中产生的无法在可承受的时间范围内用常规的数据库系统工具进行捕捉、管理和处理的健康数据的集合,包括患者的电子病历记录、医学影像数据、用药记录等 [ 5-7 ] 。(共识度97.8%)
推荐意见2:康复大数据具有海量性、高速性、高价值性、隐私性、长期持续性和数据散在性的特点,其正确、持续和完整地获取可服务于康复医疗。(共识度93.3%)
解读与证据:在康复医疗服务过程中,可产生大量的诊疗信息数据和人体健康相关数据,其采集、存储与计算所产生的数据量极大,已超过常规数据库管理的容量 [ 6 ] 。随着互联网的迅速发展,这些海量数据增速极快,处理速度也较快,时效性要求也更高 [ 8 ] 。康复大数据具有极高的价值,如能有效获取、处理和使用,有助于康复医疗中功能障碍患者的风险预测、诊疗、康复、预后等多个过程 [ 9 ] 。除了大数据共有的基本特征外,康复大数据还具有隐私性、长期持续性和数据散在性的特点 [ 5 ] 。患者的医疗数据具有高度的隐私性,其使用的伦理问题备受关注 [ 10 ] 。而患者就诊、疾病发病过程具有时序性的特点,各类智能诊疗设备可持续不断地监测人体健康指标、医学检测的波形及图像,这些也均为时间函数。此外,由于大量医疗健康数据还未完全电子化,数据记录的残缺和偏差难以避免,数据的不完整收集和处理可能使得其无法完全反映患者的健康相关信息。
推荐意见3:构建我国康复大数据库可用于了解患者具体情况、监测和分析患者康复数据以及评价不同康复干预措施的效果等,以便为患者提供规范化、个体化的康复方案,并及时动态调整,提高康复效果。(共识度97.8%)
解读与证据:对于巨量的康复大数据,常规的数据库工具难以满足管理和处理的需求,需要新的处理模式才能将其处理为可供决策和流程优化的海量、高增长率和多样化的信息资产 [ 5 ] 。构建康复大数据库,能在康复医疗过程中服务于多方,有助于实现精准康复,提高患者预后 [ 11 , 12 ] 。通过大数据的集成,能为一线临床医师提供可管理、可解释、可操作、可用于制定诊疗方案的数据,给予康复临床诊疗一定的参考;通过大数据管理构建风险预测模型和预后预测模型,为功能障碍患者提供更优质的个体化和精准化康复医疗保障;通过机器学习算法,为临床科研工作者提供简便、可靠的模型,为康复药物和辅助技术的开发及探索提供更多支撑,最后共同推进康复医学领域的发展。基于“互联网+残疾人社区康复”新模式构建的脑卒中国际功能,残疾和健康分类(international classification of functioning,disability and health,ICF)大数据平台,可以采用数据挖掘技术和智能匹配功能,进行辅助诊疗,帮助三级康复机构对脑卒中患者的医学评定,实现精准康复 [ 11 ] 。人工智能可以应用于物理和康复医学,利用机器学习对康复医疗服务过程中产生的大量数据信息进行转化和处理,以辅助临床改进决策 [ 13 ] 。利用数字化技术构建智慧医养康服务一体化云平台,运用数据治理技术和智能化服务,实现医疗、养老和康复服务资源的有效整合及优化,有效应对我国人口老龄化加速和慢性病人口急剧增加的问题 [ 4 ] 。通过机器学习等人工智能技术建模,对不同的康复临床问题及时作出预测或适时作出追踪和汇总,以实现总结过去经验、优化当前决策、预测未来进展的目标。
三、康复大数据来源
推荐意见4:康复大数据具有多源性,其来源包括医院诊疗大数据、卫生服务平台大数据、医学研究大数据、疾病监测大数据、自我量化大数据、互联网医学大数据和生物大数据。(共识度97.8%)
解读与证据:康复大数据的来源多样化,具体表现为七大类:医院诊疗大数据、卫生服务平台大数据、医学研究大数据、疾病监测大数据、自我量化大数据、互联网医学大数据和生物大数据 [ 5 ] 。不同来源的数据量会因地区、国家卫生政策、医疗资源分配、技术发展水平以及人口结构等多种因素而有所不同,各来源数据的比例并不固定。医院诊疗大数据主要包括康复诊疗和管理过程所产生的海量数据,包括各种门急诊记录、住院记录、影像记录、实验室检测记录和随访记录等。卫生服务平台通常汇集整合了区域内多家医疗机构的数据。一般而言,卫生服务平台的大数据收集前通常经过了充分的论证和规划,比原始的医院数据格式更规范 [ 7 , 14 ] 。除了医院和卫生服务平台的原生态大数据之外,专门设计的基于功能障碍患者的医学科学研究实施过程中,也可产生医学研究大数据。例如在真实世界中开展的目标仿真实验,可以收集康复医疗真实世界大数据 [ 15 ] ,这类经严格设计与实施所收集的数据,其数据质量通常较高。疾病监测大数据是指在因各类疾病(各类慢性病、神经系统疾病和老年退行性疾病等)导致功能障碍或残疾的患者的康复监测过程中所产生的大数据,这类数据通常由基于大数据的可穿戴医疗设备收集,一般为结构化数据 [ 16 ] 。自我量化大数据是指基于移动物联网的患者康复过程中身体体征和活动自我量化的数据,包括血压、心跳、呼吸、睡眠、血糖、体重和体力活动等信息。互联网医学大数据指互联网上与康复医学相关的各类数据。这类数据产生于社交互联网关于疾病与健康的话题、互联网就医咨询行为、康复科普网站的访问行为等,包含着大量的视频、音频图片、文本等异构数据。与自我量化大数据相比,互联网医学大数据的随机性较大。此外,生物大数据主要是指关于生物标本和基因测序的数据,其为功能障碍患者的个体化诊疗及精准康复医疗提供了数据基础。在多源的康复大数据中,数据质量与一致性是值得重视的问题。确保康复大数据的质量与一致性,需要综合考虑数据审核、采集、清洗、转换等环节。数据审核指审核原始数据的完整性、准确性和一致性。对审核过程发现的错误要尽可能纠正,对不同渠道获得的二手资料,还要审核数据的适用性和时效性。在数据采集中,需使用可靠的数据采集工具和技术,确保数据的准确性和完整性。由于康复大数据容量大、生成速度快,可以采用自动化的数据采集方法,减少人工干预,提高数据采集的效率和准确性。在数据清理过程中,需要将数据格式进行标准化处理、对数据记录的缺失属性进行补充、对数据的噪音进行光滑操作、识别并处理数据中的异常值、解决重复数据的不一致性等。在数据转换中,对数据的各个属性通过平滑聚集、数据概化、数据规范化等方式,将数据转换成适用于数据分析的形式,从而保证各来源的康复大数据的一致性 [ 5 ] 。专家组认为,利用好康复大数据的多源性,从多个源头收集、汇总得到趋于全面的信息,能服务于康复医疗中的临床决策和监测评估,有助于实现精准康复,提高康复效果。
四、康复大数据临床应用研究优先关注领域
推荐意见5:基于机器学习算法,分析患者的多维数据,以建立个性化的疾病风险预测模型,对患者发生可引起功能障碍或残疾的疾病的风险进行预测并分级,为临床早期干预提供帮助。(共识度95.6%)
解读与证据:机器学习与预测模型在医疗领域中广泛应用于疾病风险预测 [ 17 ] 。在康复医学中,对于收集到的患者的多维数据,包括医疗历史、家族病史、生活方式因素和基因信息等,能借助机器学习算法构建预测模型,对患者发生可引起功能障碍或残疾的疾病进行风险预测,得出其患病的可能性,并根据概率高低进行分级,分级结果可辅助临床决策,以降低患者发生功能障碍或残疾的风险。当风险评估显示患某种疾病的可能性较高时,医师可以采取预防性措施,例如定期监测、及时干预或生活方式建议,这有助于提前诊断和治疗潜在的健康问题,避免了疾病的发展,减小了后续康复治疗成本,优化康复过程。心血管疾病风险模型可以根据患者的血压、胆固醇水平、吸烟史等信息,预测其患心脏疾患的可能性,避免疾病发展恶化 [ 18 ] 。研究发现,机器学习技术已在预测新发糖尿病以及糖尿病肾病方面发挥了一定作用,能有效降低因糖尿病及其并发症导致功能障碍的风险 [ 19 , 20 ] 。有学者基于机器学习构建老年糖尿病患者轻度认知障碍风险评估模型,经计算得到随机森林模型和极限梯度提升模型(extreme gradient boosting,XGBoost)的受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under ROC curve,AUROC)分别为0.76(95% CI:0.71~0.80)和0.76(95% CI:0.71~0.80),表明模型性能较好 [ 21 ] 。与BP神经网络模型相比,随机森林模型和XGBoost模型具有更高的灵敏度,更加符合通过模型早期识别和筛查糖尿病患者轻度认知障碍高危人群的需求,提示其在康复医疗风险评估领域具有一定的应用前景,能为老年糖尿病患者认知障碍的早期识别和预防提供参考,有助于老年人群改善生存质量。Hu等 [ 22 ] 开发了一种预测模型,使用机器学习算法预测社区老年人3年认知障碍风险,结果显示模型一致性指数(concordance index,C指数)为0.81(95% CI:0.78~0.85),表明其具有较好的性能,提示机器学习与风险预测模型有助于社区早期识别痴呆,通过模型能识别出未来3年内发生认知缺陷的高风险老年人,从而进行认知训练和健康生活方式干预等临床早期干预 [ 23 ] ,有助于减小康复诊疗成本。基于机器学习的风险预测模型在脑卒中的首发预测中也被证实有效。杨爽 [ 24 ] 基于5 109例脑卒中患者的数据集,分别基于改进弗明汉卒中表等传统风险预测模型和机器学习脑卒中首发风险预测模型,对脑卒中发生进行预测,经比较证实机器学习算法模型的预测能力高于传统风险预测模型的预测能力,提示利用不同的机器学习算法预测模型可较为准确地预测脑卒中疾病风险发生,为早期识别高首发危险群体提供可参考的指导价值。
推荐意见6:推荐使用可穿戴设备实时监测并连续提取康复患者的健康信息,通过人体物联网进行传输与大数据生成,形成数字化健康画像(digital health portrait,DHP),用于进行临床分析与反馈,辅助诊疗与康复。(共识度97.8%)
解读与证据:可穿戴技术与设备正逐渐成为康复医学领域的热点 [ 16 , 25 , 26 ] 。可穿戴设备具有微型化、智能化和便捷化的特点,在神经康复、骨科康复、脊髓损伤康复以及老年退行性疾病康复等领域有越来越广泛的应用 [ 27 ] 。基于可穿戴传感器技术的上肢家庭康复系统能辅助慢性脑卒中患者的家庭康复,帮助其改善肩关节屈曲和内旋的活动度,提高Wolf运动功能评分 [ 28 ] 。可穿戴医疗健康设备能够提供实时健康监测数据 [ 29 ] ,具有即时性和连续性,同时能够通过人体物联网实现实时传输,生成DHP,其内涵包括生命体征(体温/心率/呼吸/血压)、躯体功能(运动/活动/姿势/体态)、神经功能(脑电/肌电/认知/言语/精神心理)、行为功能(日常生活/工作/社会等)和生物标志物(血糖、血脂等)等 [ 16 , 30 ] 。DHP经过人工智能分析,能得到具有临床价值的信息并反馈到用户(患者或其他应用人群、医务人员及利益相关方),有机会实现患者全生命周期的健康管理,协助临床诊疗方案和康复方案的制定与调整,对康复医学具有重大意义。
推荐意见7:建议开展并推广脑机接口技术的研究,基于该技术实现对患者的功能评估,优化康复治疗过程中的人机交互,改善康复体验,提高诊疗效果,服务于包括抑郁症和神经功能障碍在内患者的诊断与康复治疗。(共识度97.8%)
解读与证据:脑机接口技术是人机交互技术的一项新发展 [ 31 ] ,通过机器学习或模式识别算法将神经活动信号转换为机器能够识别的控制信号,实现大脑和机器的连接,从而控制外部设备,起到替代、修复、增强、补充或改善机体功能的作用 [ 32 ] 。脑机接口技术在康复领域的应用是现代康复医学发展的趋势 [ 33 ] 。在患者的康复诊疗过程中,脑机接口技术能从视觉、听觉和错觉等方面实现人机交互的优化,最大限度改善康复体验,提高诊疗效果 [ 34 , 35 ] 。在诊断方面,Mowla等 [ 36 ] 的研究表明,情感脑机接口技术可用于脑电、眼动、行为信息和生理特征等多模态数据的采集和实时监测,从而提高对抑郁症患者诊断的准确性。治疗方面,脑机接口技术已被证明能够在包括脑卒中和脊髓损伤在内的神经功能疾病的治疗中发挥一定作用 [ 37-39 ] ,基于该技术的康复训练能帮助患者恢复功能,提高康复效果[ 40 ] 。Wu等 [ 41 ] 选取25例亚急性卒中伴中重度上肢功能障碍患者,分别给予常规治疗和基于脑机接口技术的治疗,通过4周的干预,发现基于脑机接口技术的综合康复疗法较常规疗法能更好地增强患者上肢的运动功能。同时研究指出,在实现脑机接口技术在临床实际应用之前,未来仍需要进行长期、纵向、对照的神经影像学研究,以确定脑机接口训练的有效性,以及在脑卒中亚急性期促进大脑可塑性的方法。Mattia等 [ 42 ] 在研究中纳入48例首发单侧亚急性脑卒中患者,将患者分为两组,分别给予脑机接口技术辅助手部运动想象训练和无脑机接口技术支持的手部运动想象训练,进行为期6周的干预后,脑机接口技术组包括运动功能评分在内多个量表的得分明显高于单纯训练组,提示基于脑机接口技术的手部运动训练能够进一步改善脑卒中患者的手部功能。同时该研究指出,研究旨在为脑机接口辅助运动意象训练在脑卒中后短期和长期的疗效提供证据。进一步的目标是寻求基于脑机接口技术的干预结果的神经生理学、神经解剖学和临床决定因素,有效地促进上肢运动在短期/长期的恢复。除了临床疗效外,这些干预相关方面的知识对于实现脑机接口技术在脑卒中运动康复管理中的未来有效应用至关重要。目前,关于脑机接口技术在康复诊疗中的研究已相继取得突破性的进展,展现出巨大的应用潜力,有望用于康复医疗过程中的患者诊断与康复治疗。
推荐意见8:加强人工智能的研究,推广康复机器人辅助技术,为患者提供有目标的重复性练习,以帮助功能障碍患者进行康复强化训练,促进患者功能恢复,提高康复效率。(共识度97.8%)
解读与证据:相较于常规康复治疗,基于人工智能的康复机器人辅助技术能帮助包括卒中后患者在内的功能障碍患者进行集中、重复和强化训练,有效改善患者功能,提高康复效率 [ 43 ] 。杨钰琳等 [ 44 ] 通过meta网状分析方法,对康复机器人辅助技术(试验组)与常规康复治疗(对照组)在卒中后患者手部功能康复的效果进行比较与系统评价,发现在以Fugl-Meyer上肢运动功能评定量表(Fugl-Meyer assessment upper extremity scale,FMA-UE)评分( MD=2.81,95% CI:1.33~4.28, P<0.05)、运动力指数(motricity index,MI)评分( MD=7.59,95% CI:1.69~13.49, P<0.05)和日常生活活动能力量表(Barthel index,BI)评分( MD=7.59,95% CI:1.69~13.49, P<0.05)作为结局评价指标的多项研究中,试验组的得分均显著高于对照组,提示康复机器人能有效改善卒中后手部功能障碍。Singh等 [ 45 ] 通过一项随机对照试验,发现对慢性卒中患者经过持续四周的治疗后,机器人辅助组相比于常规治疗对照组,在改良Ashworth量表(Modified Ashworth Scale,MAS)、主动运动范围(active range of motion,AROM)、Fugl-Meyer上肢量表(Fugl-Meyer upper limb,FMU/L)、Fugl-Meyer腕手量表(Fugl-Meyer wrist hand,FMW/H)等4项临床运动指标上均有显著改善(均 P<0.05)。但该研究也有一些局限性,如样本量小,缺乏像Wolf运动功能测试和动作研究臂测试这样的活动水平测量,没有中期临床评估,也没有对患者进行长期随访,未来需要进行大队列的多中心试验,以系统地研究康复机器人装置在临床实践中的应用潜力。李宝等 [ 46 ] 分析28例手术后膝关节僵硬患者资料,比较结合下肢康复机器人训练的术后康复方案与常规康复方案对患者康复的临床疗效,经过平均9.8个月的随访发现,采用结合下肢康复机器人训练康复方案患者的国际膝关节评分委员会评分与膝关节活动度等指标均优于对照组( P<0.05)。包括外骨骼机器人在内的基于人工智能的康复机器人正逐渐成为提高康复疗效、降低医疗成本的新手段,其在临床中的应用尚处于初步发展阶段,还需更多高质量随机对照研究证实其有效性,以获得更有力的临床证据 [ 47 ] 。
推荐意见9:建议推广大语言模型的研究与应用,进行个性化的健康咨询、科普教育与康复随访,辅助指导功能障碍患者远程康复与居家康复。(共识度97.8%)
解读与证据:大语言模型是在预训练语言模型不断地扩大训练参数后得到的高性能语言模型,展现出前所未有的语境内学习能力、思维链能力、逻辑推理能力和优秀的人机对话能力 [ 48-50 ] 。在康复医学领域,大语言模型可以应用于多方面。在患者的健康咨询和科普教育方面,通过医疗健康专业数据的训练及调整,大语言模型具有很大的可能性实现对患者的专业知识教育,帮助患者厘清疾病的发病机制等细节 [ 51 ] 。在康复随访与指导过程中,大语言模型技术能帮助提高功能障碍患者康复的质量及效率。利用大语言模型能针对不同患者(提前学习患者病例等数据)制定个性化的康复随访方案,收集医护人员需要的必要信息,生成随访报告,同时向患者提供康复指导,缓解患者焦虑情绪等,其更高的智能化和自动化程度得以更好适应现代医疗服务的需求 [ 52 ] 。大语言模型辅助患者远程康复和居家康复,将成为慢病、智力障碍和认知障碍、抑郁症等患者的交流、学习和康复的有效工具 [ 30 ] 。大语言模型展现了其在康复医学领域巨大的可能性,建议推广针对智能大语言模型的研究与应用,同时需对该技术的使用进行规范化,以规避道德伦理及法律风险,从而更好利用这一先进技术提升我国康复医疗水平,更好地服务于患者的康复过程。
推荐意见10:建议基于康复医疗真实世界大数据开展目标仿真实验(emulated target trial,ETT),评价不同干预措施对于功能障碍患者的康复效果。(共识度97.8%)
解读与证据:在包括脑卒中在内各类功能障碍患者的康复干预效果的评价中,患者临床表现、功能结局和预后多样化的特点决定了康复结局评价时异质性高、分散性强、所需样本量大 [ 53 ] ,因此难以通过严格的RCT进行效果评价 [ 15 ] 。随着信息化的发展,大型真实世界观察性研究数据逐渐积累,基于这些数据模拟开展RCT的ETT,得到较为广泛的关注和应用 [ 54 ] 。ETT能在康复医疗真实世界大数据中采用特定的方法筛选研究对象组成假设的RCT,并遵照RCT研究的设计和分析原则,通过对该假设试验数据的分析得到类似RCT的研究结论,从而能服务于脑卒中后等功能障碍患者的干预措施的康复效果评价 [ 54 , 55 ] 。
推荐意见11:基于患者的多源数据,通过机器学习算法建立预测模型,对功能障碍患者的康复预后做出预测。(共识度97.8%)
解读与证据:在康复医学中,由于功能障碍患者预后的功能状态对中位生存期的影响巨大 [ 56 ] ,同时患者的功能恢复易受到不同治疗策略或干预措施的影响,因此,若能对患者预后情况进行预测,及时实行切实有效的干预,或进行有效的二级预防,可有效改善功能障碍患者预后,提高康复效果,降低死亡率 [ 57 ] 。近年来,用于构建预后预测模型的数据来源日益丰富,越来越多的研究采用多中心、不同地区或国家、不同研究的多源数据集 [ 58 , 59 ] 。基于患者的多源数据,通过机器学习算法建立预测模型,对比传统评分准确度更高,对患者的康复预后进行预测的效果更好 [ 60 ] 。Fanaroff等 [ 61 ] 开展缺血性脑卒中的随访研究,通过确立复发预警的核心要素及参数,建立缺血性脑卒中复发预警模型,为脑卒中人群复发率和病死率提供科学理论依据。Monteiro等 [ 62 ] 比较了在不同场景下应用机器学习预测脑卒中患者预后的可行性。通过5种不同机器学习方法对541例患者的3个月预后功能结局进行了预测,进一步纳入入院后2 h、24 h、7 d和出院等时间点的变量后,与传统量表进行比较,基于机器学习建立的预测模型的预测效果均较好,其中随机森林的预测效果最好(AUROC=0.94±0.03)。Heo等 [ 63 ] 使用了3种机器学习模型(深度神经网络、随机森林和logistic回归模型)对2 604例脑卒中患者的3个月预后进行了预测,纳入的变量为患者入院时可使用的变量,包括人口统计学特征、美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS)评分、发病至入院时间、卒中亚型、既往疾病史及药物史,最终发现深度神经网络的AUROC(0.89,95% CI:0.87~0.90)高于洛桑急性卒中登记与分析(Acute Stroke Registry and Analysis of Lausanne,ASTRAL)评分的AUROC(0.84,95% CI:0.82~0.86)( P<0.001),进一步证实,机器学习尤其是深度神经网络,可用于功能障碍患者的预后预测。陈智等 [ 64 ] 指出,数据挖掘技术能够发现潜在的康复预后影响因素,继而为制定合理康复诊疗方案并规避风险提供支持。综上,专家组认为,基于患者的多源数据,通过机器学习算法建立预测模型,对功能障碍患者的康复预后做出预测,对于提高患者的生存质量有重大意义。
五、康复大数据基本研究方法
(一)数据类型及处理原则
推荐意见12:推荐使用深度学习方法处理图像类数据,使用自然语言处理(natural language processing,NLP)技术处理非结构化文本数据。(共识度97.8%)
解读与证据:康复数据可分为数值型时序数据、数值型非时序数据、文本数据、图像数据四类( 表1 )。生理时间序列也称为生理信号,主要包括心电图(electrocardiogram,ECG)、脑电图(electroencephalogram,EEG)、眼电图(electro-oculogram,EOG)和肌电图(electromyogram,EMG)等采集频率较高的时序数据;非时序数据主要包括实验室检查、功能测评、人口学特征等采集频率相对较低的数据。对于图像数据,需要保证图像的清晰度、亮度、对比度等;对于文本数据,需要保证文本的完整性、真实性和多样性。大数据分析通常需要专门的分析工具(例如,数据可视化、人工智能、机器学习),这些工具可以检测使用传统方法不明显的数据中的模式、趋势和相关性。这些模式和趋势可用于识别重要的关系,而这些关系又可用于进行预测。在这方面,大数据可以被认为是任何可以挖掘出有用、可操作信息的大量信息 [ 65 ] 。生物电信号具有多通道和频带节律个体变异的特点,其特征提取方法涉及时域、频域、变换域、空间域等多种信号处理理论 [ 66 ] 。针对图像数据,例如CT、超声图像等,大多采用深度学习的方式挖掘图像信息,完成图像标注、分割等任务 [ 67 ] 。例如谷歌人工智能算法使用眼底照片以高精度识别糖尿病失明,该算法识别视网膜病变的灵敏度为96.1%,特异度为93.9% [ 6 ] 。对于文本数据,例如病历、病理学报告等,通过NLP等技术进行文本挖掘与处理,能够提升相关预测模型的准确性 [ 68 ] ,使用机器学习算法创建的慢性病护理临床路径可以将患者划分为基于不同风险的亚组 [ 6 ] 。
(二)数据预处理
推荐意见13:建议通过独热编码、顺序编码等方式将原始的类别变量和数值变量转化为机器学习算法能够直接处理的变量。(共识度97.8%)
解读与证据:在进行深度学习之前,通常需要对图像数据进行预处理,如归一化、去噪、增强等,以提高数据的质量和模型的学习效果。变量类别转化通过编码等操作使得原始数据更加整洁一致。建议使用独热编码和顺序编码。独热编码即One-Hot编码,又称一位有效编码,用来解决类别型数据的离散值问题,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候,其中只有1位有效,用“1”表示属于该类别,用“0”表示不属于该类别,独热编码会在原始变量中增加新的变量,新增变量数即为类别的数量。使用One-Hot编码,将离散特征的取值扩展到了欧式空间,让特征之间的距离计算更加合理,从而对每一特征进行归一化,起到扩充特征的作用,提高模型的精度和泛化能力 [ 69 ] 。顺序编码是将分类特征编码为整数数组,特征按顺序转换为有序整数,自动将类别解释为有顺序。
(三)模型构建
推荐意见14:建议根据不同场景和不同类型选择监督学习、非监督学习、半监督学习和强化学习模型进行康复效果的预测与评价。(共识度97.8%)
解读与证据:机器学习有4种主要学习方式。其中,监督学习(supervised learning)通过提供已标记的输入和输出样本数据,使模型对标记的数据集进行分类、回归和预测。无监督学习(unsupervised learning)用于处理未标记的数据,对数据进行聚类、降维、检测等操作,学习数据中的模式和结构,以便在未知数据上进行分类和预测 [70 ] 。半监督学习(semi-supervised learning)介于监督学习和无监督学习之间,利用一小部分已标记数据和大量未标记数据进行训练,以提高模型的预测能力。强化学习(reinforcement learning)用于培养智能体(agent),以一系列奖励为导向,通过试错学习来改进其性能,从而学会在特定环境下做出最佳决策。先进技术的发展带来了海量数据,是医疗保健领域的巨大变革。此外还有大量工作将决策树、隐马尔可夫模型、逻辑回归、支持向量机和随机生存森林等机器学习模型应用于提高患者对治疗的依从性 [ 6 ] 。
(四)模型验证
推荐意见15:推荐使用准确率(accuracy)、精确率(precision)、召回率(recall)、F1分数(F1 score)、AUROC等指标评价分类模型性能,使用均方误差(mean squared error, MSE)、均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)、决定系数(coefficient of determination, R 2)等指标评价回归模型性能。(共识度95.56%)
解读与证据:针对分类模型和回归模型,需要采用不同指标来评价模型的预测性能( 表2 )。对于分类模型,需采用准确率、精确率、召回率(也称为灵敏度)等指标来评价其性能。其中,F1分数是灵敏度与阳性召回率的调和值,取值越大模型性能越好。AUROC是由“1-特异度”与“灵敏度”绘制的AUROC,其取值越大模型性能越好。对于回归模型,一般使用 MSE、 RMSE、 MAE、 R 2 等指标评价性能。MSE、 RMSE及 MAE越接近0,模型性能越好。决定系数 R 2 越接近1,模型性能越好。
(五)模型的可解释性
推荐意见16:推荐对模型的可解释性进行探索,以利于复杂机器学习模型的临床转化,推荐的模型解释方法包括局部可解释模型无关的解释(local interpretable model-agnostic explanations,LIME)和Shapley值加性解释(Shapley additive explanations,SHAP)。(共识度95.6%)
解读与证据:模型的可解释性是指人类能够理解和解释机器学习模型的行为、预测结果及其背后的原因的能力。模型的可解释性对康复大数据模型的应用非常重要,它影响了是否基于模型结果采取临床决策。机器学习往往存在黑箱问题,虽然预测准确,但难以解释,限制了临床的应用。可解释机器学习的核心思想在于选择模型时需要同时考虑模型的预测精度和可解释性,并尽量找到二者之间的最佳平衡。为了提高模型的可解释性,目前已开发了多种解释方法,例如LIME和SHAP等,可以帮助用户更好地理解复杂机器学习模型的行为。LIME算法着眼于输入数据的局部区域,通过在输入数据附近生成扰动数据,并观察模型在这些扰动数据上的预测结果来解释模型。它可以解释任何机器学习模型的结果,而不依赖于模型的内部结构(即模型无关) [ 71 ] 。SHAP是一种基于博弈论和 Shapley值的解释方法,用于解释机器学习模型的输出结果。某一变量特征的Shapley值是该特征在所有特征序列中的平均边际贡献。SHAP能够解决多重共线性问题,不仅考虑单个变量的影响,而且考虑了变量组的影响及变量之间可能存在的协同效应 [ 72 ] 。
六、康复大数据库的建立标准与原则
推荐意见17:建议构建康复医学应用大数据库与数据分析平台。(共识度95.6%)
解读与证据:通过康复大数据共享系统,医护人员利用病例信息给康复计划提供更有价值的参考,并对这些信息进行合理的利用,从而提升康复治疗水平,有效的信息将在医疗数据中充分挖掘,医护人员可以加强与信息技术人员的沟通与合作,从而创造更便捷、适用的康复平台 [ 73 ] 。
推荐意见18:推荐形成标准规范的康复数据集,建立康复大数据标准体系,规范多中心来源数据,规范约束标准代码、度量单位、字段标准、命名词典,以保障康复大数据库的数据使用的同质性、规范性。(共识度95.6%)
解读与证据:在卫生领域及康复医学信息化快速发展的过程中,积累了大量来自于不同系统、不同机构的异构数据资源,对这些数据资源进行整合与交流的需求不断增长,形成标准规范的康复数据集至关重要。大数据体系建模前要规划制定数据标准,通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性,从源头上保障数据的标准化生产,节约后续数据应用和处理的成本。标准代码是字段标准的取值范围,在标准代码中可设置某一字段标准可选择的数据的内容以及范围,例如性别字段标准的标准代码内容应该为男或女;度量单位指字段参数的数量单位(如个、厘米等);字段标准是对含义相同但字段名称不同的数据进行统一规范管理的数据准则,字段标准可定义字段的取值范围、度量单位等内容;命名词典是指数据定义过程中,从业务名词到物理表、字段的标准化翻译的词根和词素。在医疗领域,医疗体验非常重要,在康复治疗领域也是如此。在大数据时代,医疗经验可以被传播和共享,这对于康复治疗技术的提升是非常有帮助的。通过康复治疗大数据共享系统,医护人员可以通过病例信息获得对康复治疗方案更有价值的参考。如何合理利用这些信息,提高康复治疗水平是人们关注的问题 [ 73 ] 。Xu等 [ 73 ] 提出了基于区块链的康复大数据流程管理模型,不仅很好地满足了康复治疗管理系统的监督和审计需求,而且实现了卫生行政部门、医院和患者之间的真正联盟,通过去中心化保证医疗数据的保密性和抗篡改性,借助大数据挖掘技术,医疗数据中的有效信息将得到充分利用,医疗人员可以加强与信息技术人员的沟通与合作,从而打造一个更加便捷适用的康复治疗平台。当前国内外多个大数据库重点关注康复措施、康复设备及康复结果,如芝加哥康复研究所建立的Rehabilitation Measures Database(康复措施数据库, https://www.sralab.org/rehabilitation-measures)囊括了针对不同疾病的超过560种康复措施;英国国家康复结果数据库(UK Rehabilitation Outcomes Collaborative,UKROC, https://rehabilitationmatters.com/rehabilitation-in-uk/ukroc-database/)能提供有关康复活动和患者水平成本的唯一准确信息。国内目前建有针对医疗系统的平台方案,其康复大数据平台面向临床科研、辅助诊疗、知识分享、案例复盘等数据智能应用需求,整合院内外数据,一站式管理、分析和挖掘。
推荐意见19:建议建立全国性以患者为中心的康复大数据应用研究网络 [ 74 ] ,加强跨学科合作。(共识度97.8%)
解读与证据:大数据发展的驱动力是全国范围内从基于数量的医疗保健系统向基于价值的医疗保健系统的转变 [ 75 ] 。康复信息是跟踪和更新患者病情的重要参考。在大数据时代,数据挖掘技术的不断进步,可以有效挖掘康复患者的诊断信息,并与其他类似的康复患者进行数据对比,有助于医师制定更准确的康复计划。基于对患者档案的数据分析,并利用数据挖掘技术提升药物研发的整体效率,从而建立康复治疗服务的新模式 [ 74 ] 。通过以有康复服务需求的个体为中心,详细记录个体的全生命周期多维健康状况,然后利用数据仓库共享医疗数据,实现以人为本的服务目标,提高康复服务的可及性和效率 [ 73 ] 。康复大数据的应用是一个多学科交叉的领域,跨学科合作尤为重要,通过促进康复医学、大数据、人工智能、工程学等不同学科间的跨领域合作,可为康复大数据领域开发新的技术解决方案,推动康复大数据处理、分析、应用工作的突破性发展 [ 76 ] 。
七、康复大数据的临床应用场景
(一)康复医学可穿戴设备
推荐意见20:建议加强可穿戴智能技术与康复辅具的结合,推进数智化赋能康复医疗设备,运用无线体域网监测患者全身多项生理信号 [ 77 ] 。(共识度95.6%)
解读与证据:随着先进传感器技术和人工智能技术的发展,集可穿戴设备、物联网、无线互联网于一体的智能辅助诊疗系统,推动了智慧医疗的开创性变革。基于生物电信号的辅助诊疗技术从发现生物电信号和经历的数字化和网络化开始,到物联网和无线网络的融合 [ 78 ] 。相应的采集设备从数字化发展到便携式和可穿戴化,以及生物电信号的识别方法。它还包括从简单的阈值判断、统计分析等高级人工智能算法。随着医疗数据越来越数字化和标准化,数据的存储成本也大大降低。当数据在商用硬件上运行后,逐渐被广泛应用于医疗行业,能够更好地服务于医疗健康行业 [ 79 , 80 ] 。信息与通信技术(information and communications technology,ICT)提供了更广阔的空间,能够收集到有关患者居家康复锻炼的依从性、康复表现和进展的数字数据,可以与患者的其他临床信息相结合,帮助指导患者在门诊间隙进行疗程修正 [ 6 ] 。随着基于应用程序的治疗管理和基于传感器的运动系统的出现,此类数据的可用性也越来越高 [ 81 ] 。一项系统综述结果表明,可穿戴系统主要用于卒中康复中对姿势和上肢运动的监测和反馈 [ 82 ] 。未来要结合患者需要,加强可穿戴智能技术与康复辅具的结合,拓展可穿戴设备应用范围,推进数智化赋能康复医疗设备,构建无线体域网,实现对患者全身多项生理信号的全面监测 [ 77 ] 。智能医疗器械和远程监测技术在肿瘤患者的康复管理中也发挥重要作用 [ 83 ] 。2024年《国务院办公厅关于发展银发经济增进老年人福祉的意见》 [ 84 ] 明确指出要打造智慧健康养老新业态,完善智慧健康养老产品及服务推广目录,推进新一代信息技术以及移动终端、可穿戴设备、服务机器人等智能设备在居家、社区、机构等养老场景集成应用,发展健康管理类、养老监护类、心理慰藉类智能产品,推广应用智能护理机器人、家庭服务机器人、智能防走失终端等智能设备。鼓励利用虚拟现实等技术,开展老年用品和服务展示体验。
(二)康复医疗机构
推荐意见21:建立合理的康复医疗人员管理机制(人才、医保、经费等),积极给予康复赋能(知识和技能),整合联动各级康复医疗机构,适应数字化时代对基层医疗服务模式的影响,将成果转化推广,发展银发经济,增进老年康复群体福祉。(共识度95.6%)
解读与证据:银发经济是向老年人提供产品或服务,以及为老龄阶段做准备等一系列经济活动的总和,涉及面广、产业链长、业态多元、潜力巨大。2024年《国务院办公厅关于发展银发经济增进老年人福祉的意见》明确提到要加快建设康复医院、护理院(中心、站)、安宁疗护机构建设,拓展医养结合服务,以及扩大中医药在养生保健领域的应用,发展老年病、慢性病防治等中医药服务,还表明了加快银发经济规模化、标准化、集群化、品牌化发展,培育高精尖产品和高品质服务模式 [ 84 ] 。大数据使在线预约医师、远程指导和简单的康复治疗变得容易。这样不仅可以缩短医疗的时间成本,也可以减少患者的医疗费用,特别是对于一些偏远地区的患者或行动不便的患者 [ 85 ] 。例如Pt Pal是一个基于云的患者参与平台,临床医师能够向患者的移动设备发送康复计划、疗法、活动和提醒来管理患者的随访间隙,并能收集依从性数据,同时支持临床评估,将结果与其他数据进行比较,并结合库存和自定义视频示例提供主动提醒 [ 6 ] 。FitMi可以感知力和运动,无线连接到PC或移动设备,配套软件引导用户完成康复治疗师设计的40个联系库,提供激励性反馈并根据表现自适应地增加挑战 [ 74 ] 。
(三)社区康复服务
推荐意见22:利用大数据技术整合康复医疗资源,基于供需动态优化康复医疗资源配置,提高社区康复资源利用率和服务效率品质 [ 3 ] ,落实医康养融合建设的最后1 km,积极应对人口老龄化结构需求。(共识度95.6%)
解读与证据:从国际上来看,随着医学科学和相关技术的最新进展,以发达国家为主呈现了老年人口的不断增长,Cameron与Kurrle [ 86 ] 的研究指出,老年人因不同的医疗条件(如卒中或髋部骨折)而身体残疾的可能性更高,从而导致医疗保健系统面临新的挑战,这些人群是能够从康复中受益的康复治疗是一个周期性的过程,过长的康复治疗也会给患者家庭造成严重的负担。我国人口老龄化进程加快,相应康复医疗的需求也随之增加,社区医院康复从业团队质量薄弱,缺乏有效的团队建设,同时缺乏康复患者反馈机制,对当前社区康复服务水平缺乏整体掌握 [ 3 ] 。大数据模式下社区康复诊疗预约模式以及时间分配,社区数据与二、三级医院可实现共享,实现病历调阅、质量控制、定期查房,疑难会诊,方便三级转诊,社区康复联网居家服务,定期上门、视频指导。王怡悦等 [ 3 ] 构建江苏社区康复医疗资源大数据平台,统一社区资源管理,基于大数据对江苏社区康复医疗资源协调,为康复患者提供更加便捷、灵活的康复治疗服务,进而实现社会江苏社区康复医疗资源的优化配置。利用互联网和大数据为社区康复医疗使用的发展提供更加智能、高效的解决方案,在社区康复医疗领域广泛应用大数据技术将促进康复变革发展。
八、展望
随着大数据与人工智能技术的进步,大数据模型算法迭代更新,以及跨学科深度合作,康复大数据将能够更好地服务于临床,满足患者需求,具有广阔的应用前景。值得注意的是,由于康复大数据包含个体敏感信息,因此对于数据的加密存储、访问控制和数据泄露应对措施要有明确规范。在康复大数据应用中,要确保遵循伦理要求,保障患者隐私与数据安全。通过可靠的技术手段和严格的法律法规来保障数据隐私安全,例如实施数据加密存储、建立严格的访问控制机制、设立数据泄露应对措施等。目前针对个人医疗数据的使用、共享与隐私保护,我国尚无专门立法 [ 87 ] 。应尽快推进医疗健康大数据的数据安全和数据共享相关立法工作,平衡数据安全与数据利用的关系,明确数据的所有权、使用权和范围,以及数据使用的伦理指导原则,促进数据安全保障体系的建立,推动康复等医疗健康大数据的合法合理使用,更好地服务于健康中国建设与数字中国建设的双重战略需求。
共识制订专家委员会名单
共识制定组组长:梁万年(清华大学万科公共卫生与健康学院);刘民(北京大学公共卫生学院);刘珏(北京大学公共卫生学院);陶静(福建中医药大学康复医学院)
共识制订方法学家:陶立元(北京大学第三医院临床流行病学研究中心)
共识制订专家组(按姓氏汉语拼音排序):卞广波(宁夏回族自治区人民医院康复医学中心);蔡璇(西安交通大学第二附属医院骨科中心);曹桂莹(北京大学公共卫生学院);邓景贵(湖南省人民医院康复医学科);德穷(西藏自治区妇产儿童医院妇产科);冯文(北京大学公共卫生学院);胡健[医渡云(北京)科技有限公司];李波(黑龙江中医药大学附属第四医院医务科);李凡[五岳上水(北京)科技有限公司];李久琳(四川省人民医院医学信息中心);李连华(解放军总医院第四医学中心骨科医学部创伤骨科);梁万年(清华大学万科公共卫生与健康学院);廖凯举(中国疾病预防控制中心教育培训处);刘程(成都华唯科技股份有限公司);刘大锦(昆明医科大学第一附属医院病案统计科);刘珏(北京大学公共卫生学院);刘坤(北京康宸科技有限公司);刘民(北京大学公共卫生学院);刘燕(济宁医学院公共卫生学院);刘宇军(广西骨伤医院);刘志臻(福建中医药大学康复医学院);鲁世保(首都医科大学宣武医院骨科);路孝琴(首都医科大学全科医学与继续教育学院);马宁(北京三快在线科技有限公司);慕福芹(济宁医学院精神卫生学院);沈花(上海交通大学医学院附属同仁医院康复科);孙和炎(安徽医科大学第一附属医院关节外科);孙作文(大平恒智能科技有限公司);陶静(福建中医药大学康复医学院);陶立元(北京大学第三医院临床流行病学研究中心);田锦勇(贵州省人民医院全科医学科);王娜(清华大学健康中国研究院);王雪莉(商丘医学高等专科学校临床医学院康复教研室);王亚东(首都医科大学卫生管理与教育学院);吴云霞(北京大学第三医院骨科);杨珺(北京嘉和美康信息技术有限公司);曾凡硕(山东大学第二医院康复医学科);张军(辽宁省基础医学研究所);张柠(首都医科大学公共卫生学院);张树林(国家车辆驾驶安全工程技术研究中心);张逸仙(福建医科大学附属协和医院康复医学科);赵锦(长沙市疾病预防控制中心传染病防制科);赵伟(北京市垂杨柳医院);赵振海(北京中医药大学东直门医院脑病科);郑晓敏(宁夏回族自治区人民医院康复医学中心儿童神经康复科)
学术秘书组:闫温馨(清华大学万科公共卫生与健康学院);张石默(北京大学公共卫生学院)
利益冲突 所有作者声明不存在利益冲突
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
长按识别二维码,访问官网,免费下载
主管:中国科学技术协会
主办:中华医学会
编辑:中华医学杂志编辑委员会
地址:100052,北京市西城区东河沿街69号正弘大厦
网址:http://www.nmjc.net.cn
总编辑:曹雪涛
编辑部主任:吕相征
本刊微信:nmjc1915
新浪微博:中华医学杂志
官方网站:http://nmjc.net.cn
想分享到“朋友圈”?请点击右上角“…”按钮;
有话对我们说?请直接点击文章右下方“写留言” 发送吧!
封面图来源于网络,如有侵权请联系删除