影像诊断试验的准确度往往不仅取决于仪器或算法的特性,还受潜在干扰因素的影响,包括:阅片者的经验水平(如阅片者的能力、阅片结果的稳健性)及病例影像的变异(如病例的难易程度、影像质量)等。传统影像诊断试验准确度评价研究通常纳入1~2名阅片者,每名阅片者各自对部分病例进行评价,分析时将所有阅片者基于同一诊断方法的阅片结果作为一个整体,故只能估计两种诊断方法的准确性指标,而无法考虑阅片者及病例影像的变异。如果忽略这些变异,可能使检验效能降低,尤其当变异较大时,可能导致准确度估计的精度下降,甚至产生偏倚。近年来有学者提出多阅片者多病例设计(multi-reader multi-case,MRMC),该设计通常要求多名阅片者同时对所有病例进行评价,因此在统计分析时,能够考虑阅片者及病例影像变异对诊断试验结果的影响,从而实现对诊断准确度的无偏估计及准确推断,增加检验效能,并使结果能够外推至研究纳入的病例及阅片者之外的病例和阅片者总体。
MRMC设计自提出以来广泛应用于计算机辅助诊断(computer aided diagnosis,CAD)、影像诊断及人工智能辅助诊断等产品的临床评价。美国食品药品监督管理局2022年颁布的指导原则Clinical performance assessment: considerations for computer-assisted detection devices applied to radiology images and radiology device data in premarket notification (510(k)) submissions中推荐使用MRMC设计评价CAD辅助诊断的临床表现。此外,美国影像学相关诊断设备的新产品上市申报也要求开展以受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)作为主要终点的MRMC研究进行临床验证。我国监管部门最近推出的《深度学习辅助决策医疗器械软件审评要点》和《乳腺X射线系统注册技术审查指导原则》中也推荐选择MRMC设计。
如前所述,相比传统准确度评价试验设计,MRMC设计有诸多优点。然而,MRMC设计可能存在阅片结果间复杂的相关关系,也可能存在诊断方法和阅片者间潜在的交互作用。因此无论是试验设计、样本量计算以及后续统计分析,都比传统设计更加专业和复杂。此外,近年来虽然国家药品监督管理局器械技术审评中心开始推荐采用MRMC设计,但由于这一设计方法在我国的应用起步较晚,且软件实现受限,故目前国内开展的MRMC研究仍然相对较少。同时,MRMC的应用仍存误用错用的问题,如Dendumrongsup针对已发表的MRMC研究质量分析报告中所述,有许多研究存在统计学检验效能低估、统计分析方法模糊不清的问题。
针对上述情况,本文旨在通过理论推导与实例研究,详细阐述MRMC设计中常用统计分析方法的原理和实际应用并辅以实现代码,旨在帮助研究人员更深入地理解MRMC设计的统计分析方法,推进MRMC设计的应用,从而更客观地评价影像诊断试验的准确性。此外,基于我们在实际临床研究中的观察,本文还归纳了目前MRMC设计与分析中的一些未满足的需求,并提出可能的解决方案。为方便理解,下文中提到的模型都将基于匹配阅片者匹配病例的全交叉析因设计且阅片者和病例都作为随机效应的情景。
引用本文
何倩, 潘喆敏, 向蔓, 宛慧琴, 秦婴逸, 贺佳. 多阅片者多病例设计影像诊断试验准确度评价的统计分析方法. 中国循证医学杂志, 2024, 24(9): 1085-1093. doi: 10.7507/1672-2531.202312140
免费获取全文请复制链接在浏览器中打开、或扫描下方二维码、或联系本刊官邮editor@cjebm.com。
原文链接:
https://www.cjebm.com/article/10.7507/1672-2531.202312140
二维码:
点击下方“阅读原文”查看我刊更多内容