引用本文
陈章哲,周冰妮,刘 伟,等. PI-RR系统的诊断效能及观察者间一致性:以雄激素剥夺治疗后大切片为参照[J]. 肿瘤影像学, 2024, 33 (3): 307-314.
基金项目:国家癌症中心攀登基金重点项目(NCC201909B03)
通信作者:刘晓航 E-mail: liuxiang_1940@163.com
PI-RR系统的诊断效能及观察者间一致性:以雄激素剥夺治疗后大切片为参照
陈章哲1,2,周冰妮2,刘 伟2,甘华磊3,杨丽瑞3,刘晓航2
1.上海市老年医学中心放射科,上海 201100 ;
2.复旦大学附属肿瘤医院放射诊断科,复旦大学上海医学院肿瘤学系,上海 200032 ;
3.复旦大学附属肿瘤医院病理科,复旦大学上海医学院肿瘤学系,上海 200032
[摘要] 目的:以雄激素剥夺治疗(androgen deprivation therapy,ADT)后前列腺全组织切片为参考标准,评估前列腺磁共振成像局部复发报告(Prostate Magnetic Resonance Imaging for Local Recurrence Reporting,PI-RR)的诊断效能及观察者间的一致性。方法:119例ADT后的前列腺癌患者术前行多参数MRI(multiparametric MRI,mpMRI)检查。由3名放射科医师独立分析MRI图像,根据PI-RR对影像学表现进行评分。在每个分区的基础上评估了PI-RP检测残留癌的诊断性能。采用χ2检验比较不同阅片者的癌症检出率(cancer detection rate,CDR)。通过Cohen’s Kappa分析评估总体和成对的阅片者之间在PI-RR评分和评分≥3或4分的残留癌区域的一致性。结果:病理学切片发现209个区域有癌残留。以3分为截断值时,灵敏度、特异度、阳性预测值、阴性预测值分别为74.2%~83.7%、86.4%~92.7%、51.3%~64.3%、95.4%~96.9%;以4分为截断值时,灵敏度、特异度、阳性预测值、阴性预测值分别为47.4%~56.5%、97.9%~98.6%、82.5%~85.3%、91.6%~92.9%。不同阅片者间CDR差异无统计学意义。在PI-RR评分和残留癌区检测方面,所有阅片者的总体一致性为中等,但高、中年资阅片者之间的一致性(中等至显著)高于中、低年资阅片者之间的一致性(一般至中等)。结论:PI-RR评分可以准确地评估ADT后前列腺癌的复发情况,为前列腺癌放疗后的治疗提供潜在的参考;但阅片者的经验会影响诊断结果及阅片者之间的一致性。
[关键词] 前列腺癌;雄激素剥夺治疗;弥散加权成像;磁共振成像
[Abstract] Objective: To evaluate the diagnostic performance and interreader agreement of Prostate Magnetic Resonance Imaging for Local Recurrence Reporting (PI-RR) using whole-mount histology of prostate after androgen deprivation therapy (ADT) as the standard of reference. Methods: Totally 119 post-ADT prostate cancer patients underwent multiparametric MRI (mpMRI) before prostatectomy. Three radiologists analyzed MRI images independently, scoring imaging findings according to PI-RR. Diagnosis performances for detection of residual cancer were assessed on per-sector basis. The cancer detection rate (CDR) was compared among readers with χ2 test. Overall and pairwise interreader agreement in assigning PI-RR scores and residual cancer sector with score≥3 or 4 were evaluated by Cohen’s Kappa analysis. Results: Two hundred and nine sectors with residual cancer were found on histology. The sensitivity, specificity, positive predictive value and negative predictive value at cutoff of score 3 ranged from 74.2% to 83.7%, 86.4% to 92.7%, 51.3% to 64.3%, and 95.4% to 96.9%, respectively, and at cutoff of 4, they ranged from 47.4% to 56.5%, 97.9% to 98.6%, 82.5% to 85.3%, and 91.6% to 92.9%, respectively. There was no significant difference among the CDR of readers. In PI-RR scores and detection of residual cancer sectors, overall interreader agreement was moderate for all readers, but agreement was higher between senior and intermediate readers (moderate to substantial) than between intermediate and junior readers (fair to moderate). Conclusion: MRI scoring with the PI-RR assessment provides accurate evaluation of prostate cancer after ADT, but readers’ experience influenced cancer diagnosis and interreader agreement.
[Key words] Prostate cancer; Androgen deprivation therapy; Diffusion weighted imaging; Magnetic resonance imaging
目前,前列腺影像报告和数据系统(Prostate Imaging Reporting And Data System,PI-RADS)已广泛用于初治前列腺癌(prostate cancer,PCa)患者的评估和分期,但其在治疗后的应用(如疗效评估等)仍缺乏研究。使用标准化的前列腺磁共振成像(magnetic resonance imaging, MRI)检查评估已治疗的PCa患者需要开展设计良好的临床对照研究[1]。
前列腺磁共振成像局部复发报告(Prostate Magnetic Resonance Imaging for Local Recurrence Reporting,PI-RR)旨在促进MRI采集、解读和报告的标准化,减少分歧,从而评估PCa局部复发并指导后续治疗[2],其设计了简化的及标准化的术语和报告内容,使用5个评估类别来评估复发的可疑程度。研究[3]证明,PI-RR可以为根治性治疗后的PCa患者提供可重复、结构化和准确的评估。然而,在这项研究中,PI-RR的评估类别是在患者为单位的基础上进行评估,且所有的阅片者都是有经验的放射科医师。基于病变或区域为单位的PI-RR分类的实际复发率可能更接近活检或治疗后的实际复发率,但目前尚不清楚,读者的经验对使用PI-RR的影响也有待 研究。
既往研究[4-11]对多参数MRI(multiparametric MRI,mp-MRI)检测放疗后的复发进行了研究,但这些研究多基于接受穿刺活检的随访患者,容易遗漏某些病灶、影响评估。根治性放疗(radical radiotherapy,RT)后接受根治性前列腺切除术(radical prostatectomy,RP)的患者非常少见,仅有的两项基于RP的研究[12-13]样本量都非常小,因此,我们需要通过与影像一一对应的更大样本量的临床研究予以验证。
雄激素剥夺治疗(androgen deprivation therapy,ADT)已成为局部晚期和转移性PCa非常重要的治疗选择,是目前放疗和术前重要的新辅助治疗方法[14]。如前所述,ADT后的前列腺病理学改变与RT后有很多共同之处,如鳞状化生、明显萎缩、正常腺泡的数量减少和体积缩小[15-16],ADT后与RT后前列腺的MRI表现也十分类似[17-20];同时,许多患者在ADT后会接受RP,可以获得更多的大切片病理学样本,因此,我们具备条件先在前列腺去势治疗患者中验证PI-RR系统,进而推广到放疗后患者。
因此,本研究的目的是基于前列腺大切片病理学检查结果,初步评估前列腺去势治疗后MRI图像中PI-RR的诊断能力及观察者间一致性,为进一步在放疗患者中使用PI-RR提供参考。
1
资料和方法
1.1 一般资料
收集2017年3月—2022年6月复旦大学附属肿瘤医院经新辅助内分泌治疗和术前MRI检查后接受RP的患者147例。纳入标准:① ADT前活检结果为临床显著PCa(Gleason评分>6、肿瘤最高比例>50%、≥2针阳性),之后由PCa根治术后病理学检查证实。② 术前2周内在本院行mpMRI[包括T2加权成像(T2-weighted imaging,T2WI)、弥散加权成像(diffusion-weighted imaging,DWI)和动态对比增强MRI(dynamic contrast-enhanced MRI,DCE-MRI)],图像质量足以进行诊断和分析。③ 患者接受了超过3个月的比卡鲁胺雄激素阻断治疗,并加上戈舍瑞林、亮丙瑞林或阿比特龙治疗,未接受其他治疗。排除标准:① 接受过任何形式的化疗或放疗;② MRI图像质量不佳。
1.2 检查设备及参数
术前采用两台德国Siemens公司的Magnetom Skyra 3.0 T MRI系统进行检查。采用T2WI、DWI和DCE-MRI分别在轴位、矢状位和冠状位上对整个前列腺和精囊进行成像。利用快速恢复T1加权序列(fast-recovery fast-spin echo,FR-FSE)获取T2WI图像,重复时间(repetition time,TR)/回波时间(echo time,TE)=7 120 ms/89 ms,激发次数2,层厚3 mm,层间距1 mm,矩阵324×320;快速扰相梯度回波(fast spoiled gradient-echo,FSPGR)序列获取T1WI图像,TR/TE=231 ms/2.5 ms,层厚5.5 mm,层间距1 mm,矩阵204×320。分段读出平面回波成像(readout-segmented echo-planar imaging,RS-EPI)获取DWI图像,TR/TE=4 670 ms/63 ms,视野182 mm×240 mm,层厚3 mm,层间距1 mm,矩阵88×116,切片位置与横断面T2WI相同,b值取50、1 000、1 500 s/mm2。在工作站上计算表观弥散系数(apparent diffusion coefficient,ADC)值并绘制ADC图。
1.3 组织病理学检查
RP后标本按照之前研究的方法进行处理[21]。组织学切片由1名有13年泌尿生殖系统病理学诊断经验的病理学家评估,事先不知活检和MRI结果。
显微镜下在切片上勾画肿瘤病灶。残留肿瘤由2名高年资泌尿生殖专业病理科医师一致确认。病理学分析独立于影像学分析进行,病理学家不知晓影像学数据,无法指导其组织分析。所有前列腺标本均完整送检,以确定是否有残留病灶。
与既往研究[12]相似,我们在大切片上及12扇区图相应区域上人工标记了每个残留病灶(图1)。
1.4 图像分析
由1名具有5年MRI经验的放射科医师在美国GE AW4.7工作站上组织阅片,并作为研究协调员,从其他3名具有不同前列腺影像学诊断经验(15、8和3年,分别记为医师1,医师2,医师3)的盆腔放射科医师处获得最终的阅片结果。在研究之前,每名医师使用PI-RR评估了2013—2016年至少100次ADT后的前列腺MRI图像。
按照Kowa等[12]的研究,将前列腺MRI分为12个区。首先,3名放射科医师知晓纳入标准,但不知道患者病史。PI-RR评分根据扇区而非病灶进行评估,因为ADT后许多病灶体积缩小、分布离散,难以确定病灶数量。按照PI-RR标准对各扇区进行评分,5分的内容略有变化(图2):1分,高b值DWI(b值=1 500 s/mm2)、ADC图及DCE图像上均未见异常;2分,高b值DWI上呈弥漫性中等高信号和/或ADC图呈弥漫性中等低信号,DCE呈阴性或轻度强化;3分,高b值DWI上呈局灶性高信号,ADC图呈局灶性低信号,DCE呈阴性或轻度强化;4分,高b值DWI上呈局灶性高信号,ADC图呈局灶性低信号,但活检证实原发灶不在同一区域,或者DCE图像上呈明显强化;5分,高b值DWI上呈局灶性高信号,在ADC图上呈局灶性低信号,活检证实与原发肿瘤在相同扇区。
如果符合以下情况,可以将PI-RR 4升级为PI-RR 5:① 弥散受限区域和增强的位置匹配;② 病理学检查证实病变与原发肿瘤位于同一区域(因为放射科医师对活检结果不知情)。
最后,所有医师对任何阳性发现的区域(PI-RR>2)均进行评分并记录在分区图上。研究协调员和病理科医师审核分区图,利用MRI和病理学图像将残留病变与影像学检查结果进行匹配,以进行确认。如果阳性发现在同一区域或至少有一半病变在同一区域,则视为匹配。
图1 前列腺数据收集图
图2 内分泌治疗后患者的MRI表现及对应PI-RR评分
A:64岁男性[前列腺特异性抗原(prostate specific antigen,PSA)=0.01 ng/mL]MRI图像示高b值DWI、ADC图及增强图像上未见异常信号,因此,所有分区评分PI-RR 1分;B:63岁男性(PSA=0.006 ng/mL)MRI显示右侧外周带弥漫性稍高信号(箭头所示),未见可疑局部复发灶,因此,分区评分PI-RR 2分;C:69岁男性(PSA=0.022 ng/mL)MRI示右侧外周带DWI呈局灶性高信号(箭头所示),ADC图未见低信号,增强后轻度强化(箭头所示),因此,该患者评分为PI-RR 3分;D:66岁男性(PSA=2.24 ng/mL),MRI检查示高b值DWI图上前列腺左侧外周带后部呈明显高信号(箭头所示),ADC图呈明显低信号,DCE轻度强化(箭头所示),因此,该患者评分为PI-RR 4分(无原发肿瘤部位资料);E:85岁男性(PSA=0.64 ng/mL)MRI示高b值DWI图上右侧外周带呈明显高信号(箭头所示),ADC图呈低信号(箭头所示),DCE-MRI呈明显强化(箭头所示),与活检证实的原发肿瘤区域相匹配,因此,该分区评分为PI-RR 5分。
1.5 统计学处理
采用Stata 12进行统计学分析。以PI-RR 3和4分为阈值计算每个分区检出残留癌的灵敏度、特异度、阳性预测值(positive predictive value,PPV)和阴性预测值(negative predictive value,NPV)。每个分区的癌症检出率(cancer detection rate,CDR)计算方法为MRI可疑发现并最终被证实为癌症的分区数量与病理学检查发现残留病变的总分区数量的比值,亦作为灵敏度。3名放射科医师间对比用χ2检验。可疑区域的定义为MRI检查结果类别高于3或4分的分区。
利用Cohen’s Kappa统计评估有残留区域的PI-RR分类(将MRI表现分为有残留病变和无残留病变)以及医师之间的一致性(分别使用3与4分为阈值)。当变量为二分类时,采用分析方法计算K值;当包含2名医师或变量为2个水平时,采用Bootstrap方法;必要时使用加权Kappa值。95% CI采用Bootstrap法计算,参考值如下:0.01~0.20,一致性较差;0.21~0.40,一致性一般;0.41~0.60,一致性中等;0.61~0.80,基本一致;0.81~0.99,几乎完全一致。
2
结 果
18例患者因接受放化疗、10个因图像质量不佳排除在外。剩余患者中,经病理学检查证实有残留病变者有80例,病理学完全缓解(complete response,CR)者39例。所有患者新辅助治疗后PSA均显著下降,中位PSA水平由78.50(4.63,|1 410.00)ng/mL下降至0.09(0.01,12.22)ng/mL(P<0.05)。
2.1 截断值为3和4时PI-RR的诊断效能
MRI阅片的结果见表1。对于3名医师,以3和4为临界值时的灵敏度、特异度、PPV和NPV也被列出。以PI-RR 3分为截断值时,3名医师的灵敏度、特异度、PPV和NPV分别为74.2%~83.7%、86.4%~92.7%、51.3%~64.3%和95.4%~96.9%;以4分为截断值时,分别为47.4%~56.5%、97.9%~98.6%、82.5%~85.3%和91.6%~92.9%。经验较少的阅片者的CDR相对较高,但3名医师在3或4分的截断值上的CDR差异无统计学意义(P>0.05)。
2.2 阅片者之间的一致性
PI-RR评分评估是否有残留癌时,所有阅片者间的一致性为中等(表2和图3、4)。
高年资与中等年资的阅片者(医师1 vs 医师2)在PI-RR评分方面的一致性为中等,在同时以PI-RR≥3分和PI-RR≥4分为阈值评估是否存在残留病灶方面的一致性较高。与低年资医师相比,高年资与中等年资的医师间的一致性更好(一般至中等,表2)。
图3 ADT后有残留病灶患者的MRI图像及对应病理学表现
A:T2WI示左侧外周带及双侧移行带弥漫低信号;B、D:左侧外周带及移行带病灶明显高信号,ADC减低,右侧外周带DWI呈稍高信号,左侧移行带明显强化,双侧外周带轻度强化。3名阅片者对左侧移行带、左侧外周带及右侧外周带的PI-RR评分分别为5、4、3分(不知道原发肿瘤部位);E:可以在左侧外周带及移行带(长箭头所示)及右侧外周带(短箭头所示)看到残留病灶;F:左侧移行带显示有明显恶性特征的残余肿瘤(HE染色,×5);G:右侧外周带及部分左侧外周带病灶在ADT后呈现轻微的透明细胞形态等特征性改变(HE染色,×10)。
图4 PI-RR评分存在分歧的ADT后有残留病灶患者的MRI图像及对应病理学表现
A:T2WI示中央腺体右前部椭圆形低信号病灶。B、D:病灶在DWI上呈高信号,ADC减低,与背景(箭头所示)相比呈中度强化。医师1和3评分为PI-RR 4分,医师2评分为PI-RR 2分。差异在于医师1、3主要根据PI-RR指南的DWI信号、ADC及DCE判断评分,而医师2考虑到T2WI上病灶边界清晰有包膜,认为为良性前列腺增生。E:病变在病理学切片上表现为一个边缘清晰的结节(箭头所示)。F:组织病理学图像(HE染色,×5)示间质增生中(箭头所示)混合散在残留癌(圆圈所示)。G:组织病理学图像(HE染色,×10)显示ADT后残留癌具有核仁不清、胞质透明、细胞核小深染等特征。
3
讨 论
本研究中,当PI-RR评分截断值为3分时,高年资的医师提供了中等的灵敏度、特异度、PPV和NPV;当PI-RR评分截断值为4分时,虽然PPV、特异度和NPV较高,但CDR、灵敏度很低。对于低年资的医师,以3和4为截断值时,CDR、灵敏度相对较高,但PPV很低。这一结果可能有两种解释。首先,由于内分泌治疗后前列腺一系列连续的变化,T2WI信号表现出不同程度的改变[22]并影响了解剖区域的分辨,通过形态学特征难以评估残留病灶的存在,阅片者必须依靠DWI信号或ADC值的变化。然而,在正常组织中,由于ADT导致血管外—细胞外间隙缩小、纤维化或凋亡,导致正常组织与癌组织的ADC和DWI信号差别减小,甚至与残留病变相似,使得在如此复杂的背景下难以识别肿瘤病变,进一步导致经验不足的医师高估了肿瘤的残留。同时,对于大多数PCa患者,ADT后肿瘤的总体ADC值会升高,体积会缩小,使病灶变得不明显,进一步降低了CDR。
高年资与中等年资的医师在PI-RR评分方面表现出中度一致性,在评估残留癌(以3或4分为截断值)方面表现出中度至基本一致性。低年资的医师与其他医师的一致性较差。由于正常组织和病变的结构和信号改变,很难像PI-RADS那样在边界、形状或大小方面为医师们建立一个稳定、清晰的形态学特征标准[23]。此外,细胞凋亡和腺体萎缩在ADT过程中同时发生,且ADT前几个月组织学变化多样,使得DWI信号和ADC值的变化更加不确定,难以设定信号或ADC的最佳临界值。由于缺乏明确的标准,阅片者之间的差异几乎是不可避免的。
在Gold等[24]的研究中,13%的残余PCa在ADT后为阴性,75%的残余PCa在DWI上为弱阳性,与本研究结果一致,表明一个不那么严格的标准在检测出残留病变方面更为合适。放疗后DWI检测前列腺复发的结果与之相似。部分研究[8,10,12]采用DWI和ADC图的信号受限作为复发的标准,与本研究的4分相似;研究[10]表明,基于每个分区(每个前列腺6个分区)的灵敏度为37.9%~52.9%,PPV为66.7%~76.7%;在另一项研究[8]中,灵敏度为68%,PPV为75%(每个前列腺8个分区)。使用Likert评分的一项研究[9]显示,当截断值≥3分时,每个分区的灵敏度为47%~59%,特异度为82%~93%;当截断值≥4分时,灵敏度为22%~55%,特异度为87%~95%。总体而言,上述研究和本研究均建议,对于治疗后的病变检出,应采用相对不那么严格的标准,并且研究均支持PI-RR指南,即评分≥3分应进行活检。由于PPV高且复发可能性较大(评分≥ 4分时),因此如果疾病可能复发,则可直接采取挽救性治疗措施而不用活检,而在临床低危患者中,可进行靶向活检以确认复发[2]。
本研究存在局限性。首先,虽然ADT后的前列腺在影像学和病理学特征上与RT后相似,但病理学改变较ADT后更为复杂。除类似于ADT的效应外,RT的变化具有辐射诱导效应,且随剂量和时间的不同而变化。两种治疗方法在PI-RR的应用上也存在差异;例如,放疗后的4分可能提示新发病变,但在本研究中,主要提示活检忽视的病变。其次,本研究结果可能难以在不同机构之间推广,因为来自同一机构的医师往往对图像解读表现出相似的方法和态度[25]。未来仍需大样本、多中心的前瞻性研究。第三,未评估ADC和DWI图像的可重复性,也没有评估病变的大小。
综上所述,当使用PI-RR系统时,我们在评分和评估ADT后大切片发现的残留病变方面得到了中等程度的一致性,其在有经验的放射科医师之间也有着可接受的一致性。虽然医师者间的一致性和残留病变检出受阅片者经验的影响,但PI-RR能有效地检测出ADT后MRI上的残留病灶,为放疗后PCa的治疗提供潜在的参考价值。
[参考文献]
编辑:徐虹
审核:倪明