2024年12月,周建桥主任医师在《Research》【IF8.5,Q1】杂志发表题名为“Synthetic Breast Ultrasound Images: A Study to Overcome Medical Data Sharing Barriers.”——合成乳腺超声图像:突破医学数据共享障碍的研究论文。
瑞金医院超声医学科周建桥主任医师、夏蜀珺医师、董屹婕副主任医师、上海交通大学医学院临床研究中心生物统计教研室宋艳艳副研究员为论文的共同通讯作者;瑞金医院超声医学科徐嘉乐博士研究生、华晴医师、贾晓红医师为论文的共同第一作者。
doi:10.34133/research.0532.
研究背景
医疗大数据在提升医疗保健质量和推动医学研究方面具有巨大潜力。然而,出于隐私保护的考虑,跨机构的数据共享受到监管和限制,难以构建多样化和大规模的数据集。传统的去识别化方法存在被重新识别的风险,差分隐私方法则会因为引入噪声而降低数据实用性。在监管严格的地区,联邦学习被视为一种解决方案,但仍可能在模型更新或最终模型中泄露隐私。因此,如何在保护患者隐私的前提下,实现安全的医疗数据共享,成为亟待解决的重要问题。
研究进展
针对上述挑战,周建桥教授团队开发了CoLDiT潜在扩散模型,能够生成高质量的乳腺超声图像(见图1),涵盖不同的BI-RADS分类。团队使用了来自202家医院的9705张乳腺超声图像进行训练,涉及5243名患者,采用多种超声设备,确保数据的多样性和广泛性。
图1 CoLDiT合成的不同BI-RADS分类的乳腺超声图像为验证合成图像的隐私保护性能,研究团队通过最近邻分析确认,CoLDiT生成的图像未复制训练集中的任何图像,保障了患者隐私的安全。为评估合成图像的质量,邀请了超声科医生进行真实性和BI-RADS分类评估。结果显示,除一位高年资医生的AUC得分大于0.7外,其余五位医生在区分真实和合成图像时的AUC范围为0.53~0.63,表明合成图像具有较高的真实性(见图2B)。图3展示了六位超声科医生中至少有四位将真实和合成图像混淆的实例。BI-RADS分类评估结果显示,医生们对合成图像的分类准确性不逊于真实图像(见图2C)。图3 六位超声科医生中至少有四位将真实和合成图像混淆的实例此外,研究还利用合成的乳腺超声图像对BI-RADS分类模型进行了数据增强。结果表明,将训练集中的一半真实数据替换为合成数据后,模型性能与仅使用真实数据训练的模型相当(P=0.81)(见图4)。图4 合成乳腺超声图像用于数据增强的评估过程和结果这是首次在超声影像合成中应用基于Diffusion Transformer(DiT)的潜在扩散模型。相比传统的基于UNet架构的扩散模型,Transformer以其卓越的长程依赖建模能力,使模型能生成更一致、细节更丰富的图像,显著提升了合成质量。此外,研究在模型推理阶段采用无分类器引导策略,实现了不同BI-RADS分类乳腺超声图像的条件生成。这一功能在医学领域尤为重要,生成适合特定临床场景的图像,有助于支持精确诊断和治疗规划,提供可靠的数据来源。通过推动合成数据技术的发展,团队期望打破当前医疗数据共享的壁垒,促进跨机构合作,加速医学研究和临床应用的进步。团队相信,合成数据作为保护隐私的解决方案,将在医疗大数据的安全利用中发挥关键作用,最终提升患者的医疗服务质量和健康水平。未来,周建桥教授团队计划将生成式人工智能与更多类型的医学影像数据相结合,验证其在不同医疗场景下的适用性。
The vast potential of medical big data to enhance healthcare outcomes remains underutilized due to privacy concerns, which restrict cross-center data sharing and the construction of diverse, large-scale datasets. To address this challenge, we developed a deep generative model aimed at synthesizing medical data to overcome data sharing barriers, with a focus on breast ultrasound (US) image synthesis. Specifically, we introduce CoLDiT, a conditional latent diffusion model with a transformer backbone, to generate US images of breast lesions across various Breast Imaging Reporting and Data System (BI-RADS) categories. Using a training dataset of 9,705 US images from 5,243 patients across 202 hospitals with diverse US systems, CoLDiT generated breast US images without duplicating private information, as confirmed through nearest-neighbor analysis. Blinded reader studies further validated the realism of these images, with area under the receiver operating characteristic curve (AUC) scores ranging from 0.53 to 0.77. Additionally, synthetic breast US images effectively augmented the training dataset for BI-RADS classification, achieving performance comparable to that using an equal-sized training set comprising solely real images (P = 0.81 for AUC). Our findings suggest that synthetic data, such as CoLDiT-generated images, offer a viable, privacy-preserving solution to facilitate secure medical data sharing and advance the utilization of medical big data.医疗大数据在提升医疗保健质量和推动医学研究方面具有巨大潜力。然而,出于隐私保护的考虑,跨机构的数据共享受到严格监管和限制,难以构建多样化和大规模的数据集。如何在保护患者隐私的前提下实现安全的医疗数据共享,成为亟待解决的重要问题。针对这一挑战,研究者开发了CoLDiT,一种基于Transformer架构的潜在扩散模型,用于生成不同BI-RADS分类的高质量乳腺灰阶超声图像。模型训练使用了来自202家医院的9,705张乳腺超声图像,涵盖5,243名患者和多种超声设备,确保数据的多样性和广泛性。通过最近邻分析验证,CoLDiT生成的图像未复制训练集中的任何图像,保障了患者隐私安全。医生评估实验证实了这些图像的真实性,其受试者工作特征曲线下面积(AUC)评分范围为0.53至0.77。此外,合成的乳腺超声图像能够有效增强BI-RADS分类模型的训练数据集,其性能与使用等量真实图像的训练集相当(AUC P=0.81)。研究表明,CoLDiT生成的合成数据为实现医疗数据的安全共享提供了一种切实可行的解决方案,有望推动医疗大数据的广泛应用。
周建桥 主任医师,博士研究生导师,上海交通大学医学院附属瑞金医院超声医学科;研究方向:甲状腺、乳腺等浅表器官的超声诊断、超声引导下的介入诊断与治疗。
董屹婕 副主任医师,上海交通大学医学院附属瑞金医院超声医学科;研究方向:甲状腺、乳腺等浅表器官的超声诊断、超声引导下的介入诊断与治疗。
夏蜀珺 主治医师,上海交通大学医学院附属瑞金医院超声医学科;研究方向:甲状腺、乳腺等浅表器官的超声诊断、超声引导下的介入诊断与治疗。
贾晓红 主治医师,上海交通大学医学院附属瑞金医院超声医学科;研究方向:甲状腺、乳腺等浅表器官的超声诊断。
华晴 住院医师,上海交通大学医学院附属瑞金医院超声医学科;研究方向:甲状腺、乳腺等浅表器官的超声诊断。
徐嘉乐 博士研究生,上海交通大学医学院附属瑞金医院超声医学科;研究方向:超声人工智能。
Synthetic Breast Ultrasound Images: A Study to Overcome Medical Data Sharing Barriers.pdf