年度优秀论文 | 基于深度学习的儿童曲面体层X线片牙齿数目异常识别模型的研发

健康   2024-09-24 16:57   北京  

 点击“中华口腔医学杂志”快速关注本刊官微       












作者:曾雪晴 夏斌 曹战强 马天宇 许忞頔 徐子能 白海龙 丁鹏 朱俊霞

通信作者:朱俊霞

作者单位:北京大学口腔医学院·口腔医院儿童口腔科 国家口腔医学中心 国家口腔疾病临床医学研究中心 口腔生物材料和数字诊疗装备国家工程研究中心 口腔数字医学北京市重点实验室(曾雪晴、夏斌、马天宇、许忞頔、朱俊霞);北京大学口腔医学院·口腔医院信息中心 国家口腔医学中心 国家口腔疾病临床医学研究中心 口腔生物材料和数字诊疗装备国家工程研究中心 口腔数字医学北京市重点实验室(曹战强);北京羽医甘蓝信息技术有限公司(徐子能、白海龙、丁鹏)

引用本文:曾雪晴, 夏斌, 曹战强, 等. 基于深度学习的儿童曲面体层X线片牙齿数目异常识别模型的研发[J]. 中华口腔医学杂志, 2023, 58(11): 1138-1144. DOI: 10.3760/cma.j.cn112144-20230831-00128.

 摘要

目的

基于深度学习技术识别儿童曲面体层X线片(以下简称曲面体层片)中的牙齿数目异常,提高临床医师工作效率,减少误诊与漏诊。


方法

从北京大学口腔医学院·口腔医院儿童口腔科2012年11月至2020年8月间拍摄的符合纳入和排除标准的曲面体层片中抽取800张4~11岁儿童的曲面体层片,使用Python(3.9版本)编写程序随机分配为训练集(480张图像)、验证集(160张图像)和内部测试集(160张图像);并收集北京大学口腔医学院·口腔医院第一门诊部连续半年内拍摄的全部4~11岁儿童曲面体层片,共计1 707张图像由医师阅片确定每颗乳牙、恒牙、恒牙胚和额外牙的轮廓并标识牙位。使用训练集训练以ResNet-50为骨干网络的深度学习模型,在验证集中对模型进行微调,通过内部测试集和外部测试集评估模型性能,根据有无牙齿数目异常分为两类计算灵敏度、特异度、阳性预测值和阴性预测值,再分为同时存在额外牙与恒牙缺失、仅存在额外牙、仅存在恒牙缺失、牙齿数目正常四类计算 Kappa值。


结果

有无牙齿数目异常两类图像在内部测试集中的灵敏度、特异度、阳性预测值和阴性预测值分别为98.0%、98.3%、99.0%、96.7%,外部测试集中的灵敏度、特异度、阳性预测值和阴性预测值分别为97.1%、98.4%、91.9%、99.5%。牙齿数目正常、同时存在额外牙与恒牙缺失、仅存在额外牙、仅存在恒牙缺失四类图像在内部测试集中获得的 Kappa值为0.886,在外部测试集中获得的 Kappa值为0.912。


结论

本研究开发了基于深度学习的儿童牙齿数目异常识别模型,其能在识别儿童曲面体层片正常乳恒牙及恒牙胚的基础上,确定额外牙的位置并输出缺失恒牙的牙位,从而辅助诊断有无牙齿数目异常。






作为儿童口腔医学应用最为广泛的影像学检查方法之一,曲面体层X线片(以下简称曲面体层片)适用于先天性缺牙和额外牙等牙齿数目异常的检查与诊断 [ 1 ] 。目前,采用深度学习技术在儿童曲面体层片中进行牙齿识别的研究探索了检测正常乳恒牙或恒牙胚、检测正中位置的额外牙或根据有无正中额外牙对图像进行分类 [ 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 ] 。这些研究不能同时检测出乳恒牙、恒牙胚和额外牙,无法识别出非正中位置的额外牙,也不关注先天缺牙等牙齿缺失表现,尚不能满足临床工作需求。

本研究使用4~11岁儿童曲面体层片开发基于深度学习的儿童牙齿识别模型,该模型能检测儿童曲面体层片中的乳恒牙、恒牙胚和额外牙,在此基础上确定图像中额外牙数目和位置并输出缺失恒牙(第三恒磨牙除外)的牙位,从而初步诊断有无牙齿数目异常,提高临床医师工作效率,减少误诊与漏诊。


资料和方法
本研究使用的数据均为既往临床诊疗产生的数据,研究经过北京大学口腔医院生物医学伦理委员会评审,设立为免除受试者知情同意项目(审批号:PKUSSIRB-202171201),全部图像脱敏后以jpg格式使用。

1.训练集、验证集和内部测试集的数据准备:
(1)样本量的计算与调整:目前训练人工智能模型所需的样本量尚无明确的计算公式 [ 10 ] ,建议根据假设检验对样本量进行估计 [ 11 ] 。首先参照诊断试验的公式( 式1 )确定最小样本量 [ 12 ] 

其中检验水准α取0.05, Z α/2为正态分布中累积概率的 Z值( Z 0.05/2=1.96),允许误差取0.1,将预期的灵敏度和特异度 p均设为0.85,计算得到病例组和正常对照组的最小样本量均为48张。考虑到病例组包含存在额外牙与存在恒牙缺失两大类情况,在维持病例组与对照组数据基本平衡(不超过3∶1)的情况下将病例组的样本数量增加一倍 [ 13 ] 。考虑到根据影像报告划分的样本类型与实际标注情况略有差异,进一步扩大10%的样本量 [ 14 ] 。计算得到内部测试集样本数量为159张,训练集、验证集、内部测试集的比例设置为6∶2:2 [ 15 ] ,向上百位取整后最终确定的训练集、验证集、内部测试集样本量为800张。

(2)纳入标准:①拍摄年龄为4~11岁,年龄下限为4周岁0周月,上限为11周岁11周月;②对应影像报告完整。

(3)排除标准:①患有系统病、遗传病、颌骨发育异常与占位病变、牙齿形态结构发育异常等疾病;②图像存在伪影或变形等影响正常牙齿轮廓识别与标注的情况。

(4)分类抽样:收集2012年11月6日至2020年8月20日在北京大学口腔医学院·口腔医院儿童口腔科就诊的4~11岁儿童曲面体层片,初步筛选后获得6 611张曲面体层片。为避免不同数据集间图像重复,依据影像报告进一步划分为同时存在额外牙与恒牙缺失、仅存在额外牙、仅存在恒牙缺失、牙齿数目正常4种类型,参照每种类型图像的数量配额抽样800张图像,再使用Python(3.9版本)编写程序以6∶2:2的比例随机分配产生训练集、验证集和内部测试集 [ 15 ] 

2.外部测试集的数据准备:为测试模型的泛化能力 [ 16 ] ,收集北京大学口腔医学院·口腔医院第一门诊部2022年6月1日至12月31日拍摄的全部4~11岁儿童的曲面体层片,共计907张,除年龄范围外不进行其他筛选。

3.牙齿标注:对全部训练数据进行标注,由医师判断正常乳恒牙和额外牙是否存在,以牙冠开始钙化作为牙齿存在的判断标准,对应Nolla [ 17 ] 牙齿发育分期的2期与Demirjian等 [ 18 ] 发育分期的A期。用连续光滑的闭合曲线描绘牙齿轮廓并标识牙位。正常乳恒牙的牙位以国际牙科联盟牙位记录法表示;单颗额外牙被记录为“91”,若存在两颗额外牙则分别记录为“91”和“92”,存在3颗额外牙时以此类推;缺失恒牙不需要特殊标注。

(1)一致性检验:首先由一名高级职称医师带领一名住院医师判读200张以上的儿童曲面体层片,完成培训后高级职称医师与住院医师分别对另外抽取的40张曲面体层片进行标注,比较标注结果并进行组间一致性检验。住院医师在完成首次标注2周后重新标注,比较前后两次的标注结果并进行组内一致性检验。统计每颗正常乳恒牙及额外牙是否存在,计算 Kappa值。计算组内一致性得到的 Kappa系数为0.98,计算组间一致性得到的 Kappa系数为0.99。

(2)正式标注:由一名住院医师对全部训练数据进行标注,并在间隔2周后对全部标注进行核对,若标注时存在疑问或前后标注不一致则由高级职称医师复核标注结果。训练数据的实际构成见表1 。



在训练集、验证集和内部测试集的800张图像中,共有来自283张曲面体层片的364颗额外牙,其中207张(73.1%)只有1颗额外牙,71张(25.1%)有2颗额外牙,5张(1.8%)有3颗额外牙。在外部测试集的907张图像中,共有来自33张曲面体层片的37颗额外牙,其中29张(87.9%)只有1颗额外牙,4张(12.1%)有2颗额外牙。图像不同区域的额外牙数量分布见表2 。


在训练集、验证集和内部测试集的800张图像中,共有来自301张曲面体层片的762颗恒牙缺失,其中136张(45.2%)仅缺失1颗,82张(27.2%)缺失2颗,25张(8.3%)缺失3颗,缺失3颗以上的为58张(19.3%)。在外部测试集的907张图像中,共有来自110张曲面体层片的211颗恒牙缺失,其中61张(55.5%)仅缺失1颗,32张(29.1%)缺失2颗,6张(5.5%)缺失3颗,缺失3颗以上的为11张(10.0%)。不同牙位缺失的恒牙数量分布见表3 。


4.模型开发:深度学习模型的开发使用了迁移学习的方法 [ 19 ] ,将本课题组研究人员既往使用6 046张曲面体层片训练获得的能初步识别曲面体层片中牙齿的模型作为预训练模型 [ 20 ] 。开发预训练模型的训练数据来自全年龄段,其中混合牙列图像(1 918张,31.7%,平均年龄9.3岁)牙齿数目异常的比例为14.0%(269/1 918);乳牙列图像(272张,4.5%,平均年龄4.4岁)牙齿数目异常的比例为14.3%(39/272)。该预训练模型分为两个阶段,首先利用U-Net算法从输入的原始曲面体层片中提取牙齿所在区域,再通过骨干网络为ResNet-50的混合任务级联(hybrid task cascade,HTC)模型对牙齿进行检测、分割和编号,HTC模型是在Mask R-CNN和Casecade R-CNN基础上开发的实例分割多阶段模型,能同时处理多项相关任务 [ 21 ] 。本研究使用训练集图像对预训练模型中的参数进行微调,使微调后的模型能更好地识别存在牙齿数目异常的混合牙列及乳牙列儿童的曲面体层片,再通过验证集进一步调整参数。最终调整获得的儿童牙齿识别模型,将曲面体层片作为输入,处理后能输出图像中每颗乳牙、恒牙(含恒牙胚)与额外牙的区域及对应牙位( 图1 ),通过将识别出的牙齿牙位与正常情况比较获得缺失恒牙的牙位,例如识别的牙位中不包含“22”,则报告22缺失。

图1 牙齿数目异常识别模型输出图像示例

5.评价指标计算:应用SPSS Statistics 27.0 软件(IBM,美国)进行统计学处理。“True/False”表示以医师的分类结果作为标准时模型的分类结果准确/不准确,“Positive/Negative”表示模型诊断图像中有/无牙齿数目异常,因此所有图像可分为四类:真正例(true positive,TP)表示模型正确诊断出图中有牙齿数目异常的图像数量,真负例(true negative,TN)表示模型正确诊断出图中无牙齿数目异常的图像数量,假负例(false negative,FN)表示模型未能诊断出图中有牙齿数目异常的图像数量,假正例(false positive,FP)表示模型误诊断出图中有牙齿数目异常的图像数量。计算灵敏度、特异度、阳性预测值、阴性预测值及其95%置信区间(confidence interval, CI)。灵敏度=TP/(TP+FN),特异度=TN/(TN+FP),阳性预测值=TP/(TP+FP),阴性预测值=TN/(FN+TN)。

为比较学习前的预训练模型与最终模型间灵敏度的差异是否有统计学意义,对有牙齿数目异常的图像学习前后的识别结果进行配对卡方检验。为比较预训练模型与最终模型间特异度的差异是否有统计学意义,对无牙齿数目异常的图像学习前后的识别结果进行配对卡方检验。再根据牙齿数目正常、同时存在额外牙与恒牙缺失、仅存在额外牙、仅存在恒牙缺失将图像分为四类,计算医师分类结果与模型分类结果的 Kappa值。检验水准为双侧α=0.05。


结果

深度学习模型学习前后输出图像的对比示例见图23 。根据有无牙齿数目异常计算的评价指标见 表4 。深度学习模型学习前后灵敏度与特异度的比较结果见 表5 。牙齿数目正常、仅存在额外牙、仅存在恒牙缺失、同时存在额外牙与恒牙缺失四类图像在内部测试集中获得的学习前后的 Kappa值分别为0.758和0.886,在外部测试集中获得的学习前后的 Kappa值分别为0.917和0.912。



图2 深度学习模型通过训练识别出上颌前牙区的额外牙  A:学习前,未识别额外牙;B:学习后,识别出额外牙(91)


图3 深度学习模型学习后修正上颌前牙区额外牙的牙位  A:学习前,将额外牙错误识别为乳牙(61);B:学习后,正确识别出额外牙(91)



进一步分析学习后模型输出错误的图像,发现对检测额外牙发生错误的情况基本分为以下两类:①成功检测出额外牙轮廓,但额外牙与邻近正常牙齿形态相似无法辨别;②未能检测出额外牙的轮廓。

检测恒牙缺失发生错误的情况基本分为以下两类:①成功检测出正常恒牙轮廓,但牙位识别错误,导致输出的缺失恒牙牙位错误,包括以下情况:错误辨别恒牙与恒牙,如在恒下前牙存在缺失的情况下,混淆下中切牙与下侧切牙;错误辨别乳牙与恒牙,如在恒前磨牙早萌的情况下,将恒前磨牙识别为乳磨牙。②未能检测出正常恒牙的轮廓,主要原因是受额外牙轮廓的干扰( 图4 ),个别原因是牙胚所处发育阶段较早。


图4 学习后模型受额外牙影响遗漏正常牙齿轮廓导致输出缺失牙位错误的输入和输出图像 A:输入图像;B:输出图像,模型识别出额外牙(91)与22,未识别出21


讨论
在儿童曲面体层片牙齿识别深度学习的研究中,Kılıc等 [ 2 ] 仅检测5~7岁儿童的乳牙及牙位。Kaya等 [ 3 ] 的一项研究检测5~13岁儿童的乳牙与已萌出的恒牙及牙位,Kaya等 [ 4 ] 的另一项研究能识别所有恒牙胚,但不能识别具体牙位。Pinheiro等 [ 5 ] 的研究虽然能同时识别乳牙、恒牙与恒牙胚及对应牙位,但识别全部乳牙的平均阳性预测值仅为67.8%。Ahn等 [ 6 ] 、Mine等 [ 7 ] 、Kim等 [ 8 ] 的研究仅根据是否存在正中额外牙对曲面体层片进行分类。Ha等 [ 9 ] 仅检测定位3岁以上儿童曲面体层片中的正中额外牙,无法检测正常牙齿。上述研究均未披露模型对恒牙缺失的识别结果,主要目的为检测正常乳恒牙的研究对额外牙的识别能力也并不明确,主要目的为检测正中额外牙的研究则不能识别邻近的正常牙齿,而本研究模型识别错误的情况提示,同时识别额外牙与邻近正常牙齿正是相关模型开发需要处理的难点之一。因此,本研究的创新点是在识别儿童曲面体层片中所有乳恒牙、恒牙胚和额外牙(不限于正中额外牙)的同时,确定图像中每颗额外牙的具体位置并输出缺失恒牙及恒牙胚的牙位,关注图像中有无牙齿数目异常。

训练数据的构成对于医学影像智能模型的开发至关重要 [ 22 ] 。目前尚无公开的儿童曲面体层片数据库。Silva等 [ 23 ] 建立了1 500张曲面体层片数据集,其中有170张图像总牙数超过32颗(可能为混合牙列图像),但缺乏原始年龄信息等相关临床数据。预训练模型的数据集中混合牙列及乳牙列图像共占36.2%,存在牙齿数目异常的图像比例为14.1%,更侧重于对全年龄段不同情况下正常牙齿的识别 [ 20 ] 。因此,本研究收集了4~11岁儿童的曲面体层片,并通过影像报告初步筛选分类后进行抽样,使各周岁病例组与对照组的数据基本平衡,调整后的模型能更好地识别存在牙齿数目异常的儿童曲面体层片。

经过训练的模型在内部测试集中的灵敏度从88.1%上升到98.0%,在外部测试集中的灵敏度从92.1%上升到97.1%,学习前后灵敏度的数值差异有统计学意义,说明模型经过学习后更敏感,漏诊额外牙和(或)恒牙缺失的概率降低。在灵敏度上升的同时,内部测试集和外部测试集中学习前后特异度数值的差异均无统计学意义,说明模型经过学习后误诊的概率无显著变化。学习后的模型在内部测试集中获得的灵敏度和特异度分别为98.0%和98.3%,在外部测试集中获得的灵敏度和特异度分别为97.1%和98.4%,说明学习后的模型漏诊、误诊牙齿数目异常的概率很低。在灵敏度和特异度一定的情况下,受试人群的患病率越低,阳性预测值越低 [ 24 ] 。阴性预测值与阳性预测值类似,受患病率的影响。外部测试集中的阳性预测值低于内部测试集,阴性预测值高于内部测试集,这也符合外部测试集中牙齿数目正常图像所占比例较高的情况。图像四分类时,学习后的模型获得的内部测试集和外部测试集的 Kappa值分别为0.886和0.912,均处于“非常高”级别,也说明学习后的模型识别能力很好。

根据Anthonappa等 [ 25 ] 的研究,具备1~2年临床经验的儿童口腔医师与刚完成基础培训的医师对同一批曲面体层片识别出的额外牙总数差异有统计学意义,说明医师的临床经验可影响其对额外牙的判断,提示本模型在为临床医师提高工作效率、减少误诊与漏诊时,对低年资医师更能发挥辅助判读的作用。

本研究虽然使用了来自不同机构的影像数据,但还不能覆盖不同地区、不同级别的医院,所开发的模型性能还需要在不同外部验证集中进一步验证。训练数据排除了存在伪影及变形等的曲面体层片,所用图像中位于下前牙、前磨牙和磨牙区域的额外牙数量较少,学习后的模型检测额外牙发生错误和受额外牙干扰识别恒牙缺失发生错误所涉及的部位主要是上前牙区域;后续研究可以补充对应训练样本,探索影响模型识别能力的因素,扩充模型的适用范围。受训练材料与模型设计限制,本模型输出的是对图像中牙位的识别结果,临床应用中需要医师综合患儿年龄、外伤史、拔牙史等判断是否为先天性缺牙。此外,曲面体层片对于额外牙仍存在漏诊的可能 [ 26 ] 。未来可以尝试结合病历文本等进行智能判断,尝试结合X线片、锥形束CT等其他资料互相验证,继续开发其他辅助判读儿童曲面体层片的模型,最终实现口腔医学影像的一站化智能辅助判读。随着人工智能理论和技术的快速发展、医学影像数据库的逐步建设、口腔医师与算法工程师等相关技术人员合作的逐渐加深、相关法规政策的持续完善,人工智能终将成为口腔医师的好助手,促进医疗水平的持续提升。

利益冲突  所有作者声明不存在利益冲突

志谢 李雪迎教授为统计指标选择提出的建设性意见

作者贡献声明 曾雪晴:研究实施、文章撰写、统计分析;夏斌:研究设计、指导文章撰写、工作支持;曹战强:采集数据、技术指导;马天宇、许忞頔:参与研究实施;徐子能、白海龙、丁鹏:研究实施、技术指导;朱俊霞:研究设计与实施、指导文章撰写、工作支持


(参考文献略)

*转载请获得本公众平台许可*



中华口腔医学杂志
《中华口腔医学杂志》官微,及时发布《中华口腔医学杂志》最新资讯,搭建口腔医学移动交流平台。
 最新文章