述评·消化外科进展|多中心直肠癌真实世界数据库建设与数据质量控制策略——肖毅 李珂璇

文摘   科学   2025-01-27 11:05   四川  


如何引用
肖毅,李珂璇.多中心直肠癌真实世界数据库建设与数据质量控制策略[J].中华消化外科杂志,2025,24(1):77-81. 
DOI:10.3760/cma.j.cn115610-20241214-00557.


● 本文发表在《中华消化外科杂志》2025年第24卷第1期,欢迎阅读、引

肖毅教授

作者

肖毅  李珂璇

通信作者:肖毅

作者单位
中国医学科学院 北京协和医学院 北京协和医院基本外科结直肠专业组,北京
摘 要 

随着高质量循证医学研究提供的证据不断更新,中低位直肠癌的诊断与治疗呈现出模式复杂的特点,这符合真实世界研究要求。在真实世界数据库建设和数据采集过程中,数据库的字段选择、报告单的结构化设计以及数据收集中与收集后的质量控制,均会显著影响真实世界数据及其产生证据的质量。笔者期望通过分享建设中低位直肠癌全国多中心数据库的经验,为后续真实世界数据库建设提供参考。

关键词

直肠肿瘤;中低位;真实世界研究;数据库建设;数据质量控制;多中心研究


随着美国食品药品监督管理局《21世纪治疗法案》对于真实世界数据定义的确立,以及我国国家药品监督管理局药品审评中心多项真实世界研究指导文件和技术规范的发布,真实世界数据以其优于RCT的可推广性成为目前的热点研究[1‑4]。然而,真实世界研究的质量很大程度由真实世界数据来源决定,缺乏质量控制的数据收集会严重限制研究结局的可信度。目前,对于结直肠癌诊断与治疗领域既往发表的高质量真实世界研究,其重点集中于转移性结直肠癌[5‑12]。而转移性结直肠癌治疗用药模式复杂,患者依从性参差不齐且多数患者可能不符合RCT纳入标准,使其具有符合真实世界研究的优势。目前,中低位直肠癌的治疗模式多样,在不同地区、不同层级医疗机构的诊断与治疗模式都存在该特点。因此,中低位直肠癌治疗模式的相关研究符合真实世界研究要求。

回顾既往发表的结直肠癌真实世界研究,参研医学中心数量10~52家不等[5-8]。此外,CAPSTAN CRC研究通过分层随机抽样法选择62家具有代表性的医学中心和12家备选医学中心,以得到代表性强的真实世界数据[9]。通过增加参研医学中心的数量可提升研究的外推性,但也可能带来潜在劣势。真实世界研究本就存在数据来源复杂、数据质量良莠不齐的固有缺陷,数量庞大的参研医学中心可能涵盖不同地区、不同层级的医疗机构,其产生的数据很难进行统一的调取和整合,尤其是数量庞大的非结构化文本数据需后续手动管理。此外,大规模的数据处理需要相应的经济和人力成本,并对数据质量控制和治理提出更为严格的要求[13]。因此,笔者依据牵头开展“中低位直肠癌治疗模式的选择——前瞻性、全国多中心、真实世界研究(choice of the optimal treatment strategies for mid-low rectal cancerCOMREC study)”的相关经验,从中低位直肠癌真实世界数据库字段选择始末,纳入报告单结构化设计,以及数据收集过程中、收集后的质量控制方法介绍本笔者团队经验,旨在为后续数据库建设及真实世界研究提供参考。


一、直肠癌诊断与治疗数据字段的选择及流程字段的采集

针对直肠癌真实世界数据库字段选择问题,理论上应涵盖肠癌诊断与治疗全流程:术前诊断(检验与检查)、新辅助治疗、手术治疗、术后短期结局、病理学评估、辅助治疗、随访。其中随访应依照研究设计的终点指标,纳入肿瘤学结局事件。如何兼顾数据登记的可行性和全面性,选择合适的登记字段,是数据质量控制的先决条件之一。

国际结直肠癌登记联合会通过比较澳洲肠癌结局登记(Bowel Cancer Outcome RegistryBCOR)数据库、英国国家肠癌审计(National Bowel Cancer AuditNBOCA)数据库和荷兰结直肠审计(Dutch ColoRectal AuditDCRA)数据库的相关资料,汇总7个主要领域下的225个字段,其中上述3家数据库的共有字段仅38个,体现出不同数据库的低重合率[14]。以国际结直肠癌登记联合会研究结果为启示,现存的结直肠癌登记数据库可作为数据库字段选择的参考。另一方面,数据库字段选择也可参照澳大利亚昆士兰州癌症质量指数(cancer quality indexCQI)等质量控制方案[15]。参照笔者单位真实世界数据库建设的经验,设计数据库字段应考虑以下3项因素:(1)基础字段设计。可参考国际数据库公认的字段信息。(2)结局指标。应满足肿瘤学预后评估标准,如澳大利亚昆士兰州CQI,即涵盖有效性、安全性、可及性等相关指标。(3)根据研究目的和内容,选择治疗过程中需要收集的数据指标。以COMREC直肠癌真实世界数据库为例,即应涉及与治疗决策相关的肿瘤学分层相关字段。

在合理选择字段基础上,清晰定义的数据字典是收集高质量数据的重要条件。数据库中的客观数据字段,如年龄、性别无需过多定义界定,但是诸多与诊断、治疗过程及结局相关的信息,在登记过程中易出现定义混淆不清的问题,尤其是针对治疗流程字段的定义、手术名称分类的定义、术后并发症报告的标准等方面。对于不同字段的报告标准,可供参考的资料如下:(1)对于手术名称分类的定义。由中山大学肿瘤防治中心和中国临床肿瘤学会结直肠癌专家委员会组织编写的《结直肠癌标准数据集2018版》内容全面详实,涵盖结直肠癌手术的主要手术方式,可作为字段选择的参考[16]。(2)对于术后并发症报告。目前已有的数据库中,存在描述不统一的问题。如对于术后并发症中伤口感染的定义,BCOR数据库的定义为“发热、伤口周围蜂窝组织炎”,而DCRA数据库中没有明确的诊断说明,NBOCA数据库中则未纳入该项指标。在我国,由中国胃肠肿瘤外科联盟和中国抗癌协会胃癌专业委员会组织制订的《中国胃肠肿瘤外科术后并发症诊断登记规范专家共识(2018版)》,可作为登记数据诊断标准的参考。(3)需研究者自行定义建立标准的内容。对于部分相对较为客观的指标,如病理学报告,不同数据库之间也存在定义不统一的问题。在COMREC开展过程中,笔者发现对于病理学肿瘤退缩分级指标,不同研究单位参照的评估体系包括NCCNAJCCBeckerMandardMSKCCDowrak标准等。因此,在建立真实世界数据库时,需预先对相关指标定义统一标准,再按要求进行录入。

理想的真实世界数据收集,不仅要求研究者在数据库建立之初即对数据字段进行严格定义,更要求建设可供参考的行业内标准,以便于不同数据库间的数据沟通与合并,为更大规模的研究提供条件。


二、直肠癌影像学评估数据的规范化与结构化

影像学评估数据的收集是直肠癌真实世界数据收集中的重要环节。一份影像学评估报告,如直肠MRI检查报告,放射科医师出具后,可能会经过包含患者及家属、肿瘤内科医师、结直肠外科医师、放疗科医师等多方团队;而直肠MRI检查报告的准确性和报告内容效率可能对患者诊断与治疗链条中的每一环节产生显著影响。肿瘤临床分期的影像学评估直接影响患者诊断与治疗流程的决策,而肿瘤距肛缘距离、肿瘤与肛门直肠连接处的关系、肿瘤与腹膜返折的关系则直接影响手术方案的制订。在MERCURYGEMCAD 0801等临床研究结果公布后,肿瘤直肠系膜、筋膜侵犯,肿瘤肠壁外血管侵犯等直肠MRI检查指标被证实可显著影响患者预后[17-19]。这直接影响后续制订指南中对于分层诊断与治疗方案的推荐意见。

Al‑Sukhni[20]2013年针对外科医师开展的问卷调查结果显示:仅有40%的直肠MRI检查报告能够涵盖肿瘤T分期、N分期、环周切缘3项指标,提示直肠癌患者的影像学报告完整度仍有待提高。1项针对直肠MRI检查结构化报告的研究依据欧洲胃肠道和腹部放射学会共识定义直肠MRI检查13项关键指标,包括肿瘤位置和(或)肿瘤距肛缘距离,肿瘤体积,是否存在缩窄性病变,肿瘤与腹膜返折的关系,肿瘤直肠系膜、筋膜侵犯,肿瘤与耻骨直肠肌的关系,肿瘤与肛门括约肌的关系,肿瘤与肛提肌的关系,是否侵犯其他器官和(或)结构,是否存在远处转移,肿瘤T分期,肿瘤N分期,其他。与描述性文字报告比较,采用结构化报告可显著提高关键指标的报告结果,此外结构化报告还可显著提高对治疗方案决策和手术计划决策的支持程度[21‑22]

与瑞典的1项针对直肠MRI检查结构化报告的临床研究类似,笔者单位的直肠MRI检查报告也经历“非结构化”“最低结构化”“扩展结构化”3个阶段[23]。从全国性真实世界数据收集的角度,影像学评估报告的完整性直接影响数据记录质量。尤其是在参研医学中心数量庞大的情况下,规范化和结构化的MRI检查报告可极大提高数据收集效率和关键指标完整度,同时有利于通用化图片识别功能的开发,从而提高数据收集效率。笔者建议有条件的单位采用结构化报告作为直肠癌影像学评估标准报告。


三、真实世界数据质量控制要求

在完成上述字段设计、内容结构化等前提下,对于单中心专病数据库建设,可利用基于电子病历系统、医院信息系统、实验室信息系统多维度数据信息直接导入的模式完成数据采集。而全国多中心真实世界数据库则具有不同的特点,包括数据多源、格式迥异、沟通时间及空间成本高等问题,从而使得适用于专病数据库的数据采集模式不完全适用于多中心数据库的建设。

遵照美国食品药品监督管理局和欧洲药品管理局分别提出的ALCOACCEA数据标准,除上述已提及的数据库建设、数据采集前相关内容,在执行层面笔者建议从数据采集中、数据采集后几个关键节点筛选相应的质量控制要点[24‑25]。在数据采集中,应注意顺应多中心真实世界数据的特点,包括:(1)多中心数据的来源多样、格式不一,需要有针对性的设计数据采集方案。除人工手动录入外,可考虑开发图片识别模块,提高数据收集的效率和准确性,保障数据的可溯源性。(2)多中心数据的参与医学中心众多,需保证各个医学中心沟通到位。在此前提之下,建议有条件的研究单位与合同研究组织进行合作,由临床研究协调员、临床监查员组织协调工作并及时完成数据采集。此外,建议聘用专职研究助理,保证患者随访的及时性和完整性。而对于数据采集后的质量控制,需要制订数据质量管理计划。按照我国《用于产生真实世界证据的真实世界数据指导原则(试行)》的要求,需要分别制订系统和人工质量控制计划[3]。针对关键变量和其他变量,分别进行全面调阅和抽样调查,包括:(1)准确性查验。在数据实际收集过程中,设置专人定期检查数据库录入信息(包括图片自动识别信息)与原始上传图片资料的一致性。(2)完整性查验。观察性、治疗规范性相关研究中,在不干预的条件下,存在部分资料无法完全收集的可能性。应充分考虑该特点,提前于数据库中设定“未评估”选项,并于填写过程中进行缺失提醒,并定期查验完整性。在数据采集完成后,进行数据治理和缺失数据的处理。(3)一致性查验。不同的诊断与治疗字段间可能存在逻辑关联,可设置数据库自检或于数据治理过程中进行人工查验。


四、结语

大规模、多中心的真实世界研究开展过程中,数据库的建设和数据采集期间的质控是保证真实世界数据质量的重要前提,根据研究目的选择恰当的数据库字段、纳入高效准确的结构化影像学报告以及多中心数据采集过程中质量控制是其中的关键环节。笔者期望通过构建真实世界数据库的历程中所积累的经验与思考,为我国正处于经验积累阶段的真实世界研究发展提供具有可操作性的参考。

利益冲突  所有作者声明不存在利益冲突

参考文献

详见本刊官方网站 http://www.zhxhwk.com
版权声明

本文为《中华消化外科杂志》原创文章,版权归中华医学会所有。其他媒体、网站、公众号等如需转载本文,请联系本刊编辑委员会获得授权,并在文题下醒目位置注明“原文刊发于《中华消化外科杂志》,卷(期):起止页码”。谢谢合作!
本刊广告

< 左右滑动查看更多 >

中华消化外科杂志
传播《中华消化外科杂志》的最新资讯
 最新文章