新突破丨医学图像标签清洗提高数据质量——汕头国际眼科中心陈浩宇教授团队最新研究成果发表于npj Digital Medicine

健康   2025-01-10 21:52   贵州  

本文转自:医学进行时


最新研究成果发表
医学图像标签清洗

提高数据质量 增强模型性能


人工智能(AI)技术的快速发展和广泛应用在带来便利和创新的同时,也引发了一个关键问题——不确定性。继研究解决了模型的不确定性表达问题后,汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授团队在研究数据本身固有的随机性或噪声所带来的不确定性方面取得了新突破。

近日,陈浩宇教授团队的最新研究成果《Efficiency and Safety of Automated Label Cleaning on Multimodal Retinal Images》(多模态视网膜图像自动化标签清洗的有效性和安全性研究)在npj Digital Medicine》(Nature子刊,影响因子12.4,中科院1区TOP期刊)上发表。这也是团队发表的第四篇关于医学人工智能不确定性的高分论文。

文章链接:

https://www.nature.com/articles/s41746-024-01424-x


这是该团队继

  1. 1.     2023年发表于《Nature Communications》(影响因子14.7,https://www.nature.com/articles/s41467-023-42444-7)

  2. 2.     2024年中发表于《Medical Image Analysis》(影响因子10.7,https://www.sciencedirect.com/science/article/abs/pii/S1361841524001397)

  3. 3.     2024年底发表于《Cell Reports Medicine》(影响因子11.7,https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(24)00647-5)

之后的第四篇关于医学人工智能不确定性的高分论文。




在医学图像的有监督学习过程中,专业医师标注的图像标签通常被当作金标准(Ground Truth),作为训练和评估模型的基准。然而,越来越多的研究者开始意识到,这些所谓的“金标准”并非完美无缺。它们可能包含漏诊、错诊以及标签不一致等噪声问题,这些问题的根源可能在于标注者的主观判断差异、复杂病例的诊断难度,或是标注过程中的人为失误。这些噪声不仅降低了数据集的整体质量,还可能对模型的训练和预测性能产生负面影响,导致模型学习到错误的特征和模式,进而影响其在实际临床应用中的准确性和可靠性。

随着人工智能技术在眼科领域的不断深入和广泛应用,数据集的规模和复杂性也在不断增加。高质量、准确标注的数据集对于训练出高性能的医学图像分析模型至关重要。然而,数据集质量与标签准确性的问题却变得愈发突出,成为制约人工智能在眼科领域进一步发展的瓶颈之一。在数据集迅速膨胀的背景下,传统的人工手动清洗和标注方法已经难以满足需求,不仅耗时耗力,而且难以保证一致性和准确性。因此,探索一种既高效又安全的自动化方法来清洗视网膜图像,提高数据集的质量和标签的准确性,显得尤为关键和迫切。这不仅能够为人工智能模型的训练提供更加可靠的数据基础,还能推动医学图像分析技术在眼科领域的创新和应用,为临床诊断和治疗提供更加精准的辅助支持。





多模态视网膜图像标签噪声清洗

视网膜疾病是常见的不可逆性致盲眼病,早期诊断和及时治疗对于防止患者视力丧失至关重要。在人群筛查和临床诊断中,眼底彩照(CFP)和光学相干断层扫描(OCT)是最常用的检查手段。数据是人工智能开发的基础。近年来,基于CFP和OCT的眼科人工智能技术迅速发展,这主要得益于高质量图像数据集的建立。但是,据报道,现存的主流公开数据集标签噪声可高达40%。然而,传统的图像标注和清洗过程不仅耗时费力,还不可避免地引入主观误差。因此,在不断增长的数据集清洗任务中,寻找一种客观的自动化图像标签清洗方法显得尤为重要。

为了探究通用开源框架Cleanlab在视网膜图像标签清洗的有效性和安全性,研究团队首先收集了CFP和OCT两种模态的多种常见病图像,经过标注后建立了多分类数据集。通过主动梯度引入噪声的伪标签策略,构建了多组多模态多分类视网膜图像噪声数据集。

研究流程示意图

将不同噪声梯度的数据集逐一输入到Cleanlab中,进行多轮无监督的标签问题检测与修正,并详细记录每轮标签清洗及数据迭代后的结果。经过六轮标签清洗,标签准确性显著提升了3.4-62.9%,数据集质量分数也大幅提高了5.1-74.4%,充分验证了标签清洗的有效性。

此图展示了在重复的标签清洗和数据迭代后,在CFP和OCT两种模态的不同噪声梯度数据集中,标签准确性和数据集质量分数显著提升且维持在高水平。

结果显示,该自动清洗方法能够正确更正绝大多数(96.6-97.5%)的伪标签,仅有极少数标签被遗漏(0.5-2.8%)或错误分类(0.4-10.6%),如下表所示。这一结果充分证明了该方法的有效性和低风险性。

随后,研究团队利用清洗前后的数据集分别对RETFound模型进行了微调,并在同一个独立测试集上对模型性能进行了比较。结果显示,使用清洗后的数据集进行微调的RETFound模型在分类准确性上提升了0.3-52.9%。这一结果充分证明了标签清洗对提高RETFound模型微调后分类性能的显著效果。

此图展示了标签清洗对RETFound微调模型分类准确性的显著提升效果。图中上半部分代表CFP数据,下半部分代表OCT数据。其中,红色表示清洗前的性能,而绿色则展示了清洗后的性能提升。







研究成果亮点


从临床实践角度出发,解决人工智能研究痛点

研究团队基于临床实践,采用开源通用模型来应对视网膜人工智能领域中图像标签错误的挑战。Cleanlab框架作为该项目的核心工具,拥有多项显著优势:其开源且免费的特性使得广泛的用户群体能够轻松访问和使用;其无代码和简单实现的特性极大地降低了变成能力要求,使得医学背景出身的临床工作者也能轻松上手;其在CFP和OCT这两种截然不同的图像类型中均显示出卓越的有效性,表明其以数据为中心的方法,不依赖于特定模型,具有广泛的适用性。Cleanlab能够客观地帮助临床工作者识别并修正图像数据集中的噪声标签,大幅减轻了工作负担,并降低医学人工智能应用中的潜在风险。



创新设计数据集质量分数指导的标签清洗策略

研究团队从实际需求出发,创新性地设计了基于数据集质量分数的标签清洗策略。在该研究中,利用数据集质量分数与标签准确性之间的强相关性,开发了一种新的清洗策略,该策略能够有效指导标签清洗的启动和终止,从而避免了不必要的过度清洗。这种方法不仅提高了清洗效率,也更好地满足了医学人工智能开发的实际需求。

图(a)和(b)展示了数据集质量分数与标签准确性之间的强相关性,并绘制了ROC曲线并计算了Cutoff值(图c和d)。当数据集质量分数超过所确定的阈值时,标签准确性可以达到0.98以上,此时可以停止标签清洗过程。



公开数据集作外部测试以证明方法的有效性

研究团队在内部数据集上进行严密的实验和评估之后,又进一步将这一方法成功应用于两个著名的公开数据集——EyePACS和APTOS-2019,可有效地检出糖尿病视网膜病变的分级错误,提高标签准确性和数据集质量,从而验证了本研究方法的普适性和适用性。此外,通过与Docta和Fastdup这两种其他标签清洗框架的性能对比,进一步证实了基于Cleanlab的自动标签清洗方法的有效性和优越性。

本图展示了在EyePACS和APTOS-2019这两个公开数据集中,Cleanlab相较于Docta和Fastdup能够更有效地提升数据集的标签准确性,并保持其在较高水平。



在医学人工智能领域,高质量数据是确保其安全性和实际应用成功的关键。该项目从临床需求出发,解决了人工智能研究中的标签噪声的关键问题。这不仅标志着工程技术在临床医学中的成功应用,也成为了临床工作者推动人工智能研究的典范。该研究凸显了跨学科合作的重要性,并展示了医工合作在挖掘人工智能研究潜力方面的巨大潜力。

论文由汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授作为通讯作者,汕头国际眼科中心的林田博士生、哈佛医学院 (今于新加坡国立大学)的王猛博士作为共同第一作者。汕头国际眼科中心林艾迪博士、麦小婷博士、梁惠愉研究生,新加坡国立大学覃宇宗教授作为共同作者。

该研究得到了国家重点研发计划、广东省教育厅、汕头市科技计划等项目的资助。


班编辑:CQY

值班审核:CQY

推荐文章

2023年中国眼科十大新闻:光明的见证与未来的启示

人工智能在眼科、视光学和视觉科学中的新前沿

AI在白内障手术领域的应用

人工智能在青光眼防治中的应用潜力和方向

利用眼球追踪和AI居家治疗儿童“斜弱视”

免责声明:部分文章转载自互联网及其他公众平台,转载文章 旨在知识分享,如涉及作品内容、版权和其它问题,请联系我们删除!内容仅供读者参考,特约授权文章版权归原作者所有,转载须得授权!文章内容为作者个人观点,并不代表本公众号赞同或支持其观点。本公众号拥有对此声明的最终解释权。

睛彩眼科网
睛彩视记——精彩视界全记录 www.yanke360.com
 最新文章