点击标题下「蓝色微信名」可快速关注
摘要
银屑病是一种慢性自身免疫性皮肤病,发病率高,容易复发,其早期识别和有效控制是改善预后的关键。借助机器学习处理图像数据的强大优势,开发银屑病自动化诊断评估工具是近年来皮肤科人工智能研究的热点。为加强皮肤科医生对银屑病机器学习研究的认识,本文主要聚焦于机器学习在银屑病辅助诊断、计量评估、进展预测和治疗反应预测方面的应用展开综述,并探讨了机器学习技术的共性问题及未来银屑病机器学习研究面临的挑战。本文旨在为皮肤科医生提供参考,希望他们加强与机器学习领域专家的合作,参与银屑病诊断、评估和预后模型的开发,设计多中心前瞻性临床研究以推动机器学习模型在真实临床实践中的应用。
孙硕敏 陶娟
华中科技大学同济医学院附属协和医院皮肤科,武汉 430022
通信作者:陶娟,Email:tjhappy@126.com
银屑病(psoriasis)是一种复杂的慢性自身免疫性皮肤病,具有明显复发性,发病率高,累及全球1.25亿人[1],常表现为伴有鳞屑的红色斑块,可泛发至全身,晚期造成关节损害,甚至可合并心血管并发症,严重危害患者的身心健康。然而,由于银屑病临床表现多样,诱发因素复杂,其早期正确诊断对基层的非皮肤科专业医生来说是一个挑战。
近年来,机器学习(machine learning,ML)技术发展迅速,已被广泛应用于处理分析医疗图像数据。银屑病的诊断和评估均依赖于视觉检查,因此,越来越多的研究尝试利用ML建立银屑病自动诊断、评估系统,这对于帮助患者以及基层非皮肤科专业医生尽早识别、治疗银屑病非常有意义。本文将以银屑病的临床诊治作为切入点,重点介绍ML相关概念(图1)并就其在银屑病临床诊断、计量评估、进展预测及治疗反应预测中的应用进行综述,为未来银屑病自动化诊治系统的开发提供参考。
图1 机器学习相关概念示意图
一、ML及相关概念
(一)ML概念
AI是一门研究如何使计算机能够模拟、扩展和执行人类智能的学科。ML是AI发展过程中产生的一个重要学科分支,也是实现AI的核心技术途径之一,用以研究和开发能够借助经验自我优化和提升性能的计算机算法[2]。ML的主要目的是设计和分析一些“学习算法”,让计算机可以从经验(训练集)中自动分析并获得规律(模型),之后利用学习到的规律对未知数据进行预测。通常,可以通过对数据集进行适当处理,从中产生训练集和测试集分别用于训练模型和评估模型,常用的方法有留出法、交叉验证法、自助法等[3]。根据训练样本提供的信息及反馈方式的不同,可将ML分为监督学习、非监督学习、半监督学习、强化学习等(表1)。
名称 | 含义 |
---|---|
监督学习 | 使用标记的训练数据学习预测新数据的输出标签 |
无监督学习 | 使用未标记的训练数据学习数据的隐藏结构和模式 |
半监督学习 | 同时使用包含标记和未标记数据的训练集来学习 |
强化学习 | 通过与环境进行交互来学习最优的行为策略 |
迁移学习 | 通过将已学习的知识和特征迁移到新任务中,减少新任务的训练时间和样本需求,并提高模型的泛化能力 |
机器学习的分类
(二)深度学习(deep learning,DL)和人工神经网络(artificial neural network,ANN)概念
DL是一种ML的分支,通过构建和训练多层ANN来进行模式识别和数据分析[4]。ANN是一种模拟人脑神经元结构和功能的数学模型,是DL的核心组成部分[5]。卷积神经网络(convolutional neural networks,CNN)是DL的一种特殊类型网络结构[6],因其在图像分割、分类识别中具有优越的性能,也成为医学领域应用广泛的ML技术之一。
(三)ML模型的性能评估指标
在进行ML模型评估时,需要根据任务类型和数据集特点选择不同指标(表2)。模型适用于新样本的能力称为“泛化能力”。受试者工作特征(ROC)曲线是以不同阈值为基准,绘制出模型敏感度和特异度之间的关系曲线。其曲线下面积(area under curve,AUC)可用来衡量二分类问题中模型在不同阈值下的分类能力和泛化能力。AUC值越接近于1,表示分类模型的预测能力越好。准确率表示模型预测正确的样本比例,适用于数据集类别平衡的情况。而在不平衡数据集中,常使用精确率、召回率和F1分数等指标。
名称 | 含义 |
---|---|
准确率 | 模型正确预测的样本占总样本数量的比例 |
精确率 | 真阳性样本占预测阳性样本中的比例 |
召回率 | 也称敏感度,表示模型正确预测出阳性样本的比例 |
F1分数 | 精确率和召回率的调和平均值 |
泛化能力 | 模型适用于新样本的能力 |
过拟合 | 模型把训练样本学得“过好了”,把训练样本自身的特点当作所有潜在样本都会有的一般性质,导致模型在训练样本上表现很好,但在新样本中表现不好 |
欠拟合 | 模型对训练样本的一般性质尚未学好,在训练样本和新样本上表现均不理想 |
鲁棒性 | 模型对输入数据中的扰动、噪声或异常值的抗干扰能力 |
机器学习模型评估的相关术语
二、ML在银屑病诊疗中的应用
(一)银屑病的辅助诊断
2015年,Shrivastava等[7-9]最早利用主成分分析(principal component analysis,PCA)和支持向量机(support vector machine,SVM)分类器开展了一系列银屑病计算机辅助诊断的研究。该团队开发的计算机辅助诊断系统,利用高阶光谱、纹理和颜色特征可将570张皮肤图像分类为银屑病皮肤损害图像和健康皮肤图像,准确率达100%,填补了同类研究中银屑病领域的空白。后续的研究[10-11]则不再局限于银屑病与正常皮肤的分类任务,而是获取多种炎症性皮肤病的图像数据构建ML模型,实现银屑病与其他易误诊疾病(例如特应性皮炎、红斑糠疹等)的鉴别诊断。但上述研究均仅使用单个皮肤损害图像作为输入,忽略了综合考虑不同部位皮肤损害、病史、症状等临床信息,限制了其在临床实践中的应用。Liu等[12]开创性地结合1.6万余例远程皮肤病咨询的皮肤损害图像和病历数据,构建了能够早期识别银屑病在内的26种常见皮肤病的DL模型,诊断准确性(66%)显著高于全科医生(44%),并与专业皮肤科医生相当(63%)。更重要的是,该研究创新性地模拟了真实世界的皮肤病诊断流程,即模型在综合分析多个皮肤损害图像和病史等信息后,初步提供一个可能出现疾病的范围,而不是直接给出单一诊断,这能有效帮助初级医生做出更完整的鉴别诊断并避免漏诊、误诊。
近年来,由于CNN在医疗图像处理中的出色表现,越来越多的研究利用CNN构建银屑病诊断模型。Zhao等[13]基于中国人口的数据集XiangyaDerm-Pso9训练了CNN模型,其在9种常见皮肤病中识别银屑病的准确率优于皮肤科医生。此外,数据安全问题是使用医学图像对皮肤病进行分类的挑战之一。Hossen等[14]以此为切入点,首次将CNN与联邦学习相结合,在保证数据隐私性的情况下对痤疮、湿疹和银屑病进行有效分类。需要指出的是,尽管上述银屑病诊断模型均显示良好的分类性能,但仍缺乏外部数据集的验证来客观评估其泛化能力和准确性。
(二)银屑病的计量评估
客观进行银屑病的计量评估,对患者进行严重程度分层是后续选择治疗策略的关键。常用的银屑病评分工具包括身体表面面积(body surface area,BSA)评分和严重程度指数(psoriasis area and severity index,PASI)评分,但因患者的主观性或不同医生之间的不一致性而都具有一定局限。因此,许多研究致力于利用ML开发银屑病的客观评估工具。
BSA评分根据银屑病患者身体表面积受累的百分比来评估病情严重程度,已有ANN模型被开发用于自动BSA测量。Breslavets等[15]基于语义分割法构建的ANN模型,无论是相较于未经过训练的非专业人员还是皮肤科医生,均能更精确地计算银屑病皮肤损害面积,但该模型在头皮、生殖器等特殊部位的皮肤损害计量上表现欠佳。最近,Lee等[16]利用图像处理中最先进的Swin Transformer架构,开发了银屑病皮肤损害面积计量模型APD,其准确率能达到95.96%,是目前报道的性能最佳的银屑病皮肤损害计量工具。但该模型仅在更易识别的斑块型银屑病皮肤损害图像上进行了训练和验证,应进一步开发其在其他类型银屑病皮肤损害计量中的应用。
PASI评分是皮肤科医生根据身体不同部位(头部、躯干、上肢和下肢)银屑病皮肤损害的受累面积、红斑、鳞屑、浸润厚度进行临床评估后得出的综合评分。相应的,ML方法也被应用于对红斑[17-18]、鳞屑[ 19 ]、浸润厚度进行自动评估。George等[17]开发了一种半监督计算机辅助系统,可用于自动评估红斑严重程度,模型F1评分可达0.71。在综合评估方面,该团队进一步基于BoVW模型开发了量表严重程度评估法,准确率为80.81%[20]。Schaap等[21]利用CNN 对不同部位皮损图像进行自动PASI评分,并在4个具体项目的评估上分别与医生进行比较。结果显示,CNN在红斑、鳞屑和浸润厚度的评估方面与医生识别结果相当,同时在面积评估上优于医生。在此基础上,Okamoto等[22]开发了一种简化的银屑病面积与PASI评分标准,患者只需上传临床照片即可获得与医生水平相近的银屑病严重程度评估结果。
总之,基于ML的银屑病评估工具有望帮助减少皮肤科医生的工作负担,同时缩小不同机构评估的差异。未来仍需要基于更全面的人口样本,开发客观、准确的银屑病评估工具以提高评估的标准化。
(三)银屑病的进展预测
大约30%的银屑病患者可能会在疾病发展过程中出现关节炎症状,即进展为关节型银屑病(psoriatic arthritis,PsA),表现为不可逆的关节损害,包括关节疼痛、肿胀、僵硬、关节变形等,对患者生活质量造成重大影响。因此,PsA的早期识别和进展风险预测对于患者进行早期检查、早期治疗尤为重要。
Patrick等[23]利用遗传标记构建了银屑病进展为PsA的风险预测模型,其AUC值为0.82。同时,该研究结合统计分析和ML技术识别了各种银屑病亚型之间的遗传差异,并进行了个性化的银屑病亚型风险评估。然而,该模型需要患者进行全基因组基因检测,相对检查费用昂贵、耗时。相比之下,利用电子病历数据构建的PsA预测模型可能更具有实用性和可操作性。Lee等[24]基于443例PsA患者和1 772例未进展为PsA的银屑病患者的临床资料,以2.5年(131周)为观察窗,0.5年(25周)为预测窗,构建CNN模型,可提前6个月预测新发PsA,其AUC值为0.70,敏感度为0.80,特异度为0.60。最近,在一项基于中国患者群体的研究中,Xu等[25]根据1 122例银屑病患者的随访数据,提取出104种临床特征,开发了多个PsA进展风险预测模型。其中,结合最大相关最小冗余(mRMR)特征选择算法的AdaBoost算法性能最佳,当使用mRMR选择27个临床特征时,其AUC值和精准率-召回率曲线下面积(area under the precision-recall curve,AUPR)值分别可达到0.80和0.83,可以较好地预测3年内从非PsA进展到PsA的风险。值得一提的是,该模型在前瞻性验证中,仍取得了83.3%的正确率。未来,该模型有望在帮助中国银屑病患者进行早期诊断、预防和控制PsA方面得到推广和应用。
(四)银屑病的治疗反应预测
近年来,生物制剂的应用给银屑病这一难治性皮肤病带来了希望,但仍有相当比例的患者无法从生物制剂治疗中获益,此类患者则被视为无应答。因此,临床上亟须开发预测生物制剂治疗反应的工具,以帮助医生为患者制定和实施个性化治疗策略。
早期,研究者主要利用血液样本的检测数据来构建银屑病治疗效果预测模型。Tomalin等[26]分别在基线和治疗4周后,对银屑病患者进行92种炎症蛋白和65种心血管疾病蛋白检测,进一步结合bagging等集成学习技术来预测托法替尼和依那西普治疗12 周是否能够达到PASI 75。在一项单中心前瞻性临床研究中,Damiani等[27]基于患者血常规、肝功能等数据构建了ANN模型,用于预测司库奇尤单抗治疗效果,其在识别治疗有效与无效的准确率分别为90%和93.75%。随后,电子病历等文本数据也被应用于开发银屑病治疗反应预测模型。在最近的一项研究中,Du等[28]利用3 388例银屑病患者治疗数据和病历记录分别构建了传统的统计模型与多个ML模型,用于预测7种不同生物制剂的治疗预后。在预测阿达木单抗5年停药概率上,基于GBT算法的ML模型AUC值可达0.85,而基于Cox回归的列线图(Nomogram)的AUC值仅为0.61。但两类模型均显示最重要的预测因素是生物制剂种类、性别和体重。
此外,除了应答不佳和耐药,生物制剂造成的免疫漂移也是一个备受关注的临床问题。银屑病和特应性皮炎是表型截然不同的两种慢性皮肤病,但两种疾病可能会在同一患者中同时出现,或在疾病过程中突然出现表型转换(如特应性皮炎向银屑病转换或银屑病向特应性皮炎转换),此类患者被称为“Flip-Flop”(FF)患者。最近,Müller等[29]基于300例患者(238例特应性皮炎、49例银屑病、13例FF)的临床信息,选取20个特应性皮炎或银屑病的典型临床特征,开发了第一个识别FF患者的ML模型,并进行了前瞻性验证,预测准确率为89.7%。
综上所述,ML技术已被成熟应用于开发银屑病的诊断、评估和预后模型,并显示出较好的分类性能和预测能力。不仅如此,ML还可应用于确定银屑病生物标志物[30-31]、指导银屑病治疗决策[3 2]和识别药物靶点[33-34]等。相信未来会有更多的研究将ML融合进银屑病诊疗的各个环节,帮助皮肤科医生为患者提供更准确和个性化的治疗方案。
三、不足与展望
尽管ML在银屑病诊疗中的应用硕果累累,但开发出适用于临床真实应用场景的银屑病自动化诊断评估模型仍面临诸多挑战。
一方面,存在一些ML面临的共性问题。首先,ML对于准确、完整、标准化的数据有较高的要求。数据质量决定着模型的性能和结果的可靠性,但在临床实践中,皮肤损害图像常因软硬件设备、操作者等因素导致参数不一致。同时,不同医生进行数据标注时所采用的判断标准也存在差异。针对上述问题,临床上亟须建立标准化的数据采集流程和标注规范。除了数据来源方面的局限性外,ML自身还存在着一些不足,限制了其临床应用。ML算法形成的机制是不可见的,而医生在做出医疗决策时必须向患者充分解释其决策依据,因此“黑匣子”问题会大大降低ML在临床实践中的可信度。技术层面上,ML模型易受到图像扰动影响,输入图像的微小变化(如图像旋转、色彩平衡改变等)就足以严重降低模型准确率[35],需要发展新的网络架构以提高其对图像扰动的鲁棒性。此外,当前大部分ML研究仅进行内部验证从而得到模型的高准确率,未来则需要不同机构的皮肤科医生加强多中心合作,通过开展外部验证和前瞻性验证,以确保模型在不同人群中应用的可靠性和有效性。
另一方面,更加贴合银屑病临床诊疗现状的个性化算法仍有待开发。例如,银屑病患者经过治疗,斑块皮肤损害清除后可能会出现炎症后色素沉着或色素减退[36]。因此,构建ML模型时,除了纳入横断面数据,还应该增加纳入治疗前后皮肤损害图像,以加强模型对治疗后色素沉着异常的识别。同时,为了更好地针对银屑病做出专业诊断和治疗建议,应参考皮肤科专家建议,根据银屑病的特征性表现(如银白色鳞屑)来构建更能体现疾病特征的特征集。此外,当前诸多研究忽略了不同年龄层银屑病患者的临床表现差异。例如,对于儿童银屑病患者,应更多关注头皮、面部等部位皮肤损害[37]。为了贴合临床需求,分别设计适用于不同年龄银屑病患者群体的诊断评估模型是十分有必要的。
总体而言,ML为银屑病诊断、评估、预后模型的构建提供了重要的技术支撑,有望改变银屑病未来的诊疗模式。展望未来,为进一步提高模型的泛化能力和预测准确性,皮肤科医生应当与ML领域专家积极合作,在临床上开展多中心、前瞻性的研究以探究ML模型在真实世界应用的有效性。另一方面,针对“银屑病易复发”这一临床治疗瓶颈,可结合ML技术来筛选银屑病复发的特征,进而早期识别银屑病复发的患者,并为其设计全面的个性化治疗方案。最后,如何结合ML技术与单细胞测序、空间转录组等新兴组学技术深入探索银屑病发病机制,以及挖掘治疗靶点也是未来的研究热点。
(参考文献见本刊网站)
杂志介绍
《数字医学与健康》(CN 10-1909/R,ISSN 2097-3349)是由中国科协主管、中华医学会主办的多学科交叉性学术期刊。本刊已被“中华医学期刊全文数据库”“维普中文期刊资源数据库”“万方数据库”收录。
办刊宗旨:聚焦国内外数字医学和健康领域的最新发展方向,刊载数字医学和健康领域的新理论、新技术、新方法,打造学术与技术的交流与合作平台,助力“健康中国”战略。
报道范围:国内外数字医学和健康领域前沿进展;数字和信息技术在公共卫生、疾病预防、健康管理、精准医疗、辅助决策、药物研发、临床科研、行业治理、医院管理、医学教育、医疗保险、数据管理及安全等领域的应用;医学和健康与现代信息学等相关学科交叉领域的新理论、新技术、新观点等;数字医学和健康领域的国家政策和法规、行业标准和共识、循证指南、伦理要求及产业信息。
主要栏目:述评、专家笔谈、标准与规范、论著、研究方法与报告、综述、产业研究、未来医学、技术介绍与评估、伦理与监管、讲座、文献速览等。
编辑部地址:北京市西城区东河沿街69号405室,邮政编码:100052。
联系电话:010-51322158,Email:dmh@cmaph.org。
更多阅读: