引用本文:茆晶晶,周忠伟.深度学习在口腔颌面外科领域中应用研究进展[J].中国实用口腔科杂志,2024,17(4):474-480. DOI:10.19538/j.kq.2024.04.017
摘要:过去几十年,人工智能飞速发展。深度学习作为人工智能的重要分支,因较传统算法更出色的特征提取能力被广泛应用于各专业领域。在医学领域,目前基于卷积神经网络的深度学习已在疾病的病理与影像学诊断、治疗方案的制定、预后预测等方面做出巨大贡献。文章就以卷积神经网络为主的深度学习在口腔颌面外科疾病诊疗中应用研究进展做一综述,并分析当前研究面临的挑战,以期为其进一步临床应用提供依据。
关键词:卷积神经网络;口腔颌面外科;深度学习;影像分析
近年来,随着医学影像数量指数增长,依赖人工阅片的传统图像分析已无法满足临床需求,短期判读大量影像数据的工作强度也导致了漏诊、误诊的潜在隐患。与此同时,人工智能(artificial intelligence,AI)技术的蓬勃发展推动了大量AI医学影像研发及应用研究。作为AI的重要分支,深度学习(deep learning,DL)在医学领域中的应用有效缓解了上述困境。卷积神经网络(convolutional neural network,CNN)是DL的代表算法之一,因其出色的图像任务(包括图像识别与分类)处理能力在疾病智能诊疗中独占一席。当前对CNN的应用研究涉及肺疾病[1]、乳腺疾病[2]、肝脏疾病[3]、心脏疾病[4]等。在口腔医学领域中,学者对 CNN 辅助诊疗的探索亦有所建树。口腔颌面外科学是口腔医学的重要组成部分,对该领域智能医疗技术的研发具有重要的临床价值和广阔的应用前景。现阶段CNN参与口腔颌面外科疾病诊疗大多依靠对医学影像及病理图像的判读。前者包括对正常解剖结构的分割及病变部位的检测与分类,后者则涉及细胞学初筛、肿瘤生物标志物评分、组织病理诊断及辅助预后判断等方面。值得注意的是,临床中口腔恶性肿瘤的检测常需经验丰富的医生及侵入性操作,为患者增加额外损伤的同时,在医疗资源匮乏的地区患者可能因错过早期诊断而贻误治疗时机。近年来,一些学者利用CNN开发了直接针对摄影图像的口腔癌检测系统,并取得了较为满意的效果,为低成本、低技术敏感性、无创化的口腔恶性肿瘤检测提供了新研究方向[5-8]。本文就以CNN为主的DL在口腔颌面外科疾病诊疗中应用研究进展做一综述,并分析当前研究的困境与挑战,为其进一步临床应用提供依据。DL源于神经网络,是对传统神经网络的进一步改进。区别于传统浅层网络,DL模仿脊椎动物视觉识别的生物学机制,利用多层次运算结构实现特征逐级提取,克服了传统机器学习拟合能力不足的缺陷。迄今为止,包括深度前馈网络、深度信念网络、CNN等在内的多种DL技术已被应用于医学领域,其中以CNN最常见。
CNN是一类由卷积层、池化层、全连接层组成的神经网络模型。CNN的发展始于对猫大脑中视觉系统的研究,2012年Krizhevsky 等[9]在Imagenet图像识别大赛中提出了一种全新的CNN网络——AlexNet,使 CNN 迎来了历史性突破,自此飞速发展。相比人工神经网络,CNN通过卷积运算实现特征自动提取,利用池化操作减少参数数量,降低模型复杂度,从而提高运算效率,避免过拟合。CNN最初主要应用于图像识别,随数据量扩增及算法的改进与优化,其在辅助临床决策、疾病预后预测等方面亦有良好应用前景。口腔颌面医学影像分析是辅助临床决策的重要手段,其基础是对口腔颌面相关解剖位置的精确识别。
2. 1 牙齿的分割 早期有研究建立了基于曲面体层片的牙齿分割模型,然而该研究无法分割第三磨牙,在低对比度、相邻牙齿边界重叠、牙齿结构存在个体差异等情况下分割性能亦有所降低[10]。针对该缺陷,有研究借性能更佳的快速区域卷积神经网络(region-based convolutional neural network,R-CNN)建立了更为准确的牙齿分割模型。该模型在牙齿分类与编号方面的灵敏度与特异度与专家标记无显著差异[11]。实现初步的牙齿分割与分类后,Estai等[12]提出三步法精准分割牙齿边界,交叉验证结果显示,牙齿边界检测的灵敏度和准确率均为 0.99,对牙齿编号的灵敏度和准确率也达到0.98。相比曲面体层片,三维成像的锥形束 CT(cone beam CT,CBCT)和CT能更准确反映牙齿形态与牙列关系。2017年,Miki等[13]首次实现了在CBCT中利用CNN自动识别牙齿,然而该研究并未涉及牙齿的边界分割。同期Xia等[14]利用阈值和快速行进分水岭算法成功在上下颌牙影像重叠的CT 图像中分割出完整的单个牙齿模型。然而上述研究受限于数据集,未考虑射线硬化伪影等噪声影响。基于此,Ayidh Alqahtani等[15]使用戴有正畸托槽的215例CBCT扫描数据组成数据集,利用该数据集训练模型在存在金属伪影的情况下准确分割牙齿的能力;结果显示,该模型分割含伪影牙齿的召回率和精确率均达99%以上。Chen等[16]按照临床复杂的口腔情况将异常牙齿细化为种植修复体、多生牙、智齿、金属材料充填、错位牙等类别,在此基础上得到牙齿分割的 DICE 相似系数(dice similarity coefficient,DSC)高达0.930。
2. 2 颌骨的分割 早期用于颌骨分割的模型多为 U-Net、Seg-Net 等。考虑到金属伪影的影响,Qiu等[17]提出由粗略到精细二步法分割下颌骨,该法成功克服了CBCT中低对比度及金属伪影的影响,DSC 高达 0.946。Zhang 等[18]在颌骨分割的基础上使用多任务全卷积网络(fully convolutional network,FCN)框架标记测量颌骨解剖标志点,该研究对颌骨的分割不再局限于下颌骨,且对上下颌骨中的15个解剖标志点检测误差小于1.2 mm,具有显著临床意义。为进一步适应临床中患者颅颌面解剖结构及疾病的多样性,Torosdagli等[19]通过对 50 例高解剖变异性患者 CBCT 数据的训练,实现了在发育畸形、损伤、金属矫治器、外科手术后、牙齿填充物、牙缺失等多种解剖情况下的全自动颌骨分割与解剖标志点识别,为智能医疗的临床推广奠定坚实基础。2. 3 软组织的分割 软组织分割是放疗靶区勾画的基础,靶区和危险器官(organ at risk,OAR)勾画的准确性直接影响治疗计划质量。目前临床放疗计划设计通常以CT来确定靶区及OAR。Önder等[20]使用U-Net行CT图像中腮腺的自动分割,其曲线下面积(area under the curve,AUC)值达到0.96,证明自动分割腮腺的可行性。van Rooij等[21]在分割腮腺和下颌下腺时,通过数据扩增的方式使腮腺和下颌下腺平均 DSC 分别提高了 3%和4%,然而其分割效果仍有待提高。究其原因,可能是头颈部复杂结构加剧了 CT 图像中多器官分割的困难性。磁共振成像(magnetic resonance imaging,MRI)具有优越的软组织对比度,因此被越来越多地用于放疗前软组织分割。有团队将掩码评分R-CNN用于MRI中多器官的自动勾画,该算法可实现左(右)视神经、左(右)腮腺、口腔等17个解剖结构的轮廓勾画,平均DSC可达0.78[22]。
3. 1 头颈部恶性肿瘤的检测与分类 恶性肿瘤常伴转移,头颈部恶性肿瘤转移以颈淋巴结多见[23],早期诊断颈淋巴结转移是影响患者生存率的关键因素。临床早期诊断颈淋巴结转移主要依靠 B 超、CT、MRI 等影像学手段。当前,受医生经验差异影响,精准检测位置较深、体积较小的隐匿性转移淋巴结仍是传统人工分析影像图片的一大挑战。为此,大量研究将 DL 用于转移淋巴结检测,以期提高检测准确率。Ariji等[24]收集56例口腔鳞状细胞癌(oral squamous cell carcinoma,OSCC)患者的159个转移性和517个非转移性淋巴结的CT数据,借此建立的辅助诊断系统可初步筛选OSCC 转移淋巴结。然而,在面对外部测试集时,该模型对转移和非转移淋巴结的召回率仅为73.0%和 52.5%,检测效果欠佳。为提高准确率,Xu等[23]分两阶段检测口腔癌颈部转移性淋巴结,其中第一阶段分割软硬组织,第二阶段鉴别转移和非转移性颈淋巴结,最终模型的检测准确率最高可达0.8509,远高于外科医生(0.5500)和放射科医生(0.6658)。Zhang 等[25]将传统影像组学方法与CNN融合,利用由良性淋巴结肿大、转移性淋巴结和淋巴瘤的 CT 图像组成的数据集训练模型鉴别颈部淋巴结肿大的能力,该模型的分类总体准确率达到0.875,显著高于放射科医生(0.627)。为提高较小颈淋巴结的诊断准确性,另有研究设计了一种放射组学和三维CNN的融合模型,通过证据推理将CT和Pet-CT中颈淋巴结的预测结果输出融合,这种方法对正常、可疑、转移淋巴结的分类准确率可达 0.88,高于单独应用放射组学模型(0.75)和三维CNN模型(0.81)[26]。除影像学手段外,素有“金标准”之称的组织病理学诊断同样重要。CNN问世前已有多种机器学习方法被用于OSCC活检图像的识别。在此基础上,Yang 等[27]设计了一种包含 7 层结构的 CNN模型对OSCC活检图像进行检测,对100张测试集活检图像的检测结果显示,模型的检测性能显著高于初级病理科医生;模型辅助下的初级病理科医生诊断水平可接近资深病理学专家,平均检测时间也缩短了6.26 min,诊断效率显著提升。受限于数据集规模,使用传统训练方法建立的模型在用于其他医疗中心的图像识别时往往性能欠佳。迁移学习的使用可在一定程度上弥补数据量小,数据种类少的不足。迁移学习的中心思想是“举一反三”,即将某个相关领域学习到的知识结构应用于目标领域,从而改进目标领域的学习效果。2022 年,Rahman 等[28]收集 2511 张 OSCC 图像和2435张正常图像,利用这些图像改进预先在其他任务中训练好的模型AlexNet,在最终建立的模型中,训练准确率达97.66%,测试准确率达90.06%。
头颈部恶性肿瘤的早期诊断对降低死亡率至关重要。对OSCC而言,大多数患者早期仅表现为一些无明显不适的黏膜改变,因此很容易被误诊,最终贻误治疗时机。基于此,近年来逐渐有研究聚焦于普通摄影图像,以期通过摄影图像实现OSCC的早期诊断[29]。2020年,Fu等[30]开创性地将研究对象聚焦于普通口内黏膜摄影图像,利用5775张OSCC口内像开发算法,并使用来自代表性期刊的420张口内像作为外部验证集;结果显示,该算法的准确率、灵敏度、特异度均与OSCC领域专家的水平相当。Warin 等[5]收集 OSCC、口腔潜在恶性 疾 病(oral potentially malignant disorders,OP⁃MDs)及正常黏膜口内像共980张分别建立分类和检测模型,其中分类模型在 OSCC 和 OPMD 上的AUC 值分别可达 1.00 和 0.98;尽管检测模型性能相比分类模型较差,AUC值仅为0.88和0.64,但其水平也与普通执业医师相当。上述利用普通口内黏膜摄影图像检测OSCC的研究降低了诊断的技术敏感性,有望在缺乏专业医生和影像学、病理学等辅助手段的条件下实现对OSCC的早期诊断。
3. 2 颌面部骨折的诊断 颌面部骨折是口腔颌面外科常见疾病之一。2017年,全球颌面部骨折新发病例约为754万例,其中我国约占14%[31]。罹患颌面部骨折会导致患者功能障碍,带来美学隐患,影响心理健康,准确的诊断及恰当的治疗方案对功能重建及面部美学至关重要。颌面部骨折智能医疗的研究晚于头颈部恶性肿瘤,当前仍处于初步探索阶段。因上颌骨解剖结构复杂,当前研究多见于下颌骨。相关研究大多在曲面体层片中实现,其中以Warin等[32]研究的模型性能较佳。该研究分两步,首先利用下颌骨骨折和正常下颌骨曲面体层片训练模型分类骨折和正常下颌骨的能力,在此基础上通过骨折曲面体层片进一步训练模型进行骨折部位检测。测试样本中显示分类模型的灵敏度、特异度和AUC值均达到了100%,检测模型的精确率也高达 0.901。考虑到曲面体层片提供的骨折信息有限,2022 年 Wang 等[33]收集686例下颌骨骨折患者的CT数据,选取1558张图片组成数据集,通过部位分割-骨折检测的方法实现了 CT 图像中下颌骨骨折的检测,其灵敏度、特异度及AUC值均达90%以上。随国内外研究的不断深入,当前研究已开始尝试建立包括上下颌骨在内的全面部骨折诊断模型。Warin 等[34]将全面部骨分为额骨、面中部骨及下颌骨,选用目前较先进的分类和检测模型DenseNet及Faster-RCNN进行训练,检测模型对三类骨折识别的精确率均在0.7 以上;而分类模型性能不甚理想,其中分类面中部骨折的准确率仅为0.28。3. 3 上颌窦炎、阻生齿、囊肿等常见疾病的诊断 除恶性肿瘤与颌面部骨折外,涉及其他口腔颌面外科常见疾病的相关研究同样方兴未艾。Kotaki等[35]将已经通过某机构的曲面体层片训练好的视觉几何组 16 层网络(visual geometry group 16-layer network,VGG-16)模型应用于另一机构的曲面体层片及华特位片,通过迁移学习得到上颌窦炎诊断的目标模型,该模型在曲面体层片及华特位片中诊断上颌窦炎的 AUC 值分别为 0.863、0.830,诊 断 水 平 与 放 射 科 医 生 一 致 。Kuwada等[36]采用含和不含上颌埋伏多生牙的曲面体层片各 275 张,以评估不同的 CNN 架构对上颌埋伏多生牙的检测性能;结果显示,最优模型检测网络(detection network,DetectNet)的特异度高达 1.0。由于第三磨牙的高解剖变异性,曲面体层片诊断阻生第三磨牙可能会丢失部分信息。因此,Safi等[37]对含 204 颗下颌第三磨牙的 CBCT 数据进行深层网络训练;该模型不仅能检测阻生第三磨牙,更进一步实现牙齿解剖位置、倾斜角度的检测,以及与下颌管关系的测定,可有效降低下颌第三磨牙拔除术中损伤下牙槽神经的风险。Lee等[38]使用迁移学习搭建牙源性囊肿(牙源性角化囊肿、含牙囊肿和根尖囊肿)检测和分类模型,该模型对CBCT和曲面体层片中3种疾病检测的灵敏度和特异度均大于77%,且在CBCT中性能显著优于曲面体层片。
4 卷积神经网络在口腔颌面外科疾病治疗和预后中的应用
在辅助口腔颌面外科疾病治疗领域,人工智能的发展尚处于萌芽状态,目前多见于头颈癌放疗靶区的勾画及预后预测。放疗是恶性肿瘤综合序列治疗的重要部分,在传统方法中,放疗科医生需要手工在肿瘤患者的 CT 图像中逐层勾画原发灶及重要危及器官,进而根据肿瘤大小、三维形态等设计具体照射方案。这种方法不仅耗时长,且受医生经验差异影响,该问题在头颈癌中尤其显著[39-40]。因此,准确又智能地勾勒放疗靶区是人工智能在该领域的研究重点。为提高效率,实现精准放疗,一些研究先后设计出全自动头颈部肿瘤危及器官分割模型,所有模型对肿瘤和危及器官的勾画性能均达到经验一般的肿瘤医生水平[41-43]。其中,Cardenas等[41]设计的模型性能与肿瘤专家一致,且能在小于4 min内完成一整幅头颈部CT的勾画。
Kim 等[44]基于深度生存分析进行 OSCC 患者的预后预测,其测试集和验证集的 C 指数分别达到 0.810 及 0.781,显著高于传统随机生存森林模型(0.770、0.764)和 Cox 比 例 风 险 模 型(0.756、0.694)。Huynh 等[45]比较了传统影像组学模型和CNN模型对头颈癌患者预后预测的能力,结果表明,尽管二者均可取得良好表现,然而传统影像组学模型存在过拟合问题,泛化能力也较CNN模型差。上述基于 DL 的生存预测提高了预后预测准确性,可有效指导医生选择治疗方案,避免非必要治疗。此外,第三磨牙与颌骨位置关系的多变性也受到学者关注。有研究提出一种ResNet-34模型以判断曲面体层片中下颌第三磨牙与相邻结构的关系,根据 Pederson 指数(Pederson difficulty in⁃dex)预测下颌第三磨牙拔除难度并据此分类;与专家测定值相比,该模型的下颌第三磨牙在颌骨中的深度和角度方面预测Kappa值分别为0.71和0.86,预测结果较可靠[46]。人工智能在口腔医学领域的应用改变了传统诊疗模式,大量基于CNN的DL应用研究进一步证实口腔颌面外科疾病智能诊疗的可行性。但受多种因素限制,全自动疾病诊疗仍具有极大挑战性。
受限于数据集规模和质量,当前一些研究仍无法取得满意的效果。数据集是影响模型性能的关键因素。在临床中,受医疗设备差异及疾病发病率影响,数据集并不能全面反映疾病的全面性和群体特征。针对临床中同病异影、异病同影及非典型病例或罕见病等情况,人工智能的表现力尚待提高。同时,数据的不惟一、不完整、不可读及不满足影像学特定要求等问题也严重影响数据集质量[47]。基于此,多种改进方法应运而生。数据集方面,通过几何变换、色彩变换等数据增强方法可增加数据集规模,模拟临床中疾病表现的多样性。利用数据清洗补全不完整数据,删除不完整、不可读、未脱敏等数据,以此提高数据集质量。针对成像过程中不同设备、参数、分辨率、维度,甚至成像方式等差异,使用多元数据融合技术将不同设备、不同成像方式的数据集图像进行整合,从而提供更全面的信息。
临床中,一种疾病往往有不同的表现,这种“同病异影”的现象增加了模型预测的不确定性。Wu等[48]利用一种不确定性感知的深度核学习模型量化MRI中的不确定图像,该模型通过CNN和稀疏高斯过程估计预测中的不确定性,增加了模型的可靠度。尽管尚未见不确定性量化方法应用于口腔颌面外科的研究,该研究仍为解决“同病异影”及“非典型病例”带来的模型不确定性问题提供了一个新研究方向。不同病变可能形成相似或相同的影像,这种“异病同影”现象在一些肿瘤的影像学表现中尤为显著。对于疾病检测,多任务学习意味着模型可同时学习各种成像方式(如摄影照片、影像学图片、病理学图片)中的疾病表现,模拟临床医生从不同角度综合评价疾病,最终做出准确诊断。受发病率影响,临床中难以获取罕见病的数据,导致基于监督学习的图像识别方法不能直接应用于罕见病的检测。相比之下,收集正常的训练样本相对容易。有团队使用基于自编码器的无监督学习模型重建输入图像,通过假设正常图像的低重建误差及异常图像的高重建误差来识别异常,并取得了较满意的效果,为罕见病的自动检测开辟了新道路[49]。此外,模型结构的不断迭代也推动着智能医疗的完善。自编码网络属于无监督神经网络,其优点是模型表达力强,可很好地处理具有高维稀疏性的数据,从而达到减少无关和冗余数据的目的。降噪自编码器和卷积自编码器是医学影像中2个常用的改进算法,前者通过添加噪声增强网络的鲁棒性,后者通过权值共享保持空间信息不变,避免了图像信息流失。生成对抗网络是一种由生成网络和判别网络组成的深度生成模型,该模型可直接由生成网络生成样本数据,并对整个图像进行评价分析,目前被广泛用于图像降噪等图像后处理领域。医学图像中通常包含大量信息,利用裁剪等方式提取感兴趣区域会增加模型工作量,影响识别效率。有研究在分割网络中引入注意力机制,将注意力放在目标特征上,通过基于权重的局部特征融合分割出牙齿边缘等低特征识别度区域,提高牙齿边缘分割的准确度和光滑度[50]。随着对DL、CNN研究的不断深入与共享数据集规模的不断扩大, “DL+医学影像”模式已是大势所趋。针对当前智能医疗的困境,已有研究探索利用DL进行多病种[51]、多成像方式[35]的疾病预测的可行性,并取得初步成效。这种通过算法改进及数据集完善实现跨病种、跨医学影像种类的诊疗模式,不仅推动人工智能在疾病诊疗领域的广泛应用,也为未来的研究指明方向。未来的研究将继续聚焦于算法优化、数据集扩展及临床应用的深度融合,以进一步提升智能医疗的诊治水平。