数据提取|《系统评价与Meta分析论文撰写规范PRISMA解读》新书抢先看
学术
健康
2024-07-31 17:47
北京
编者按:虽然受到了一些质疑,但是循证医学仍然是现代医学不可动摇的基石。根据循证医学的理论,系统评价和Meta分析具有极高的证据等级,因此对临床决策的影响也极大。纵观各个权威学会制定的疾病诊疗指南,无不把系统评价和Meta分析的结论置于显著位置。规范化撰写系统评价和Meta分析类论文,以增强论文的临床影响力和穿透力,是每个从事系统评价和Meta分析的临床医生、研究人员不得不面对的问题。但是,系统评价和Meta分析的撰写情况却令人堪忧。尽管很多期刊编辑部和审稿人不遗余力推广系统评价和Meta分析的报告规范PRISMA声明,报告质量低下的系统评价和Meta分析仍然俯拾皆是。究其原因,很大程度上源于作者对PRISMA声明的理解不够深入。为了加深临床医生和研究人员对PRISMA声明的理解,从而进一步提升系统评价和Meta分析类论文的报告质量,AME出版社广邀国内多位在该领域颇具造诣的中青年专家共同编写《系统评价与Meta分析论文撰写规范PRISMA解读》一书。有别于官方发布的释义文件,本书对声明的解读多是基于经典的案例,同时辅以个人的心得体会,力争以读者喜闻乐见、通俗易懂的方式呈现。在本书正式出版发售之际,AME科研时间特推送图书内容以飨读者。今天分享的是“数据提取”。
数据提取(data extraction)是指按照纳入排除标准,从原始研究的全文或者研究者提供的资料中正确地收集相关数据的过程。数据提取的准确与否关系到研究结果的真实性与研究结论的可靠性,因此是开展系统评价与Meta分析过程中的关键步骤之一。数据提取过程不仅包括从原始文献中抄录信息,还涉及数据转换与数据分析等内容。在《系统评价与Meta分析优先报告条目》(PRISMA)声明中,对于数据提取部分的写作规范,只有两个条目,分别为:具体来说,条目9要求作者说明从纳入研究的原始报告中提取数据的具体方法,包括提取数据的审查员人数,他们之间是否独立工作,从原始研究作者那里获取或确认数据的任何流程,以及详细描述使用的自动化工具(如果适用)。条目10由两个子条目组成,条目10a要求列出并定义提取的所有数据的变量名称。此外,还要求对拟提取的数据的特征、属性、定义等进行定义和说明,比如拟提取的测量指标的检测时间、检测方法等。对于某一具体的数据,如果其在原始研究中有多个结果(比如采用了两种方法检测某种血清学标志物,或者在不同的时间点进行了检测),应说明数据提取时的取舍原则。条目10b要求列出并定义提取的数据的其他变量名称,例如,研究对象与干预措施的特征以及资金来源等。此外,还应该说明如何处理不清楚或缺失的信息。总之,条目9和条目10从文字和表单两个角度对数据提取过程进行了规范,本章将以举例说明的形式对条目9和条目10做进一步的解读,主要包括3个方面的内容,即数据提取的基本原则、数据提取表单的制作及数据转换。“The following detailed information was extracted carefully from each study, including authors’ name, publication dates, follow-up periods, countries, cohort sources, ages at baseline, gender ratios, sample sizes, case numbers, BMI categories, definitions of metabolic status, BMI-metabolic status phenotypes, adjusted confounders, outcome events, effect sizes, and 95%CIs. For studies without reported risk estimates, raw data, if available, were used to calculate effect sizes. Details of all included studies are shown in Table 1.Quality assessments of all potentially eligible studies were conducted using the Newcastle-Ottawa Scale (NOS) (Table S1) (19), which contains 8 items categorized into 3 domains: selection, comparability, and exposure. No studies were excluded due to their low quality scores. Data extraction and quality evaluation were conducted by two independent authors, and any disagreement was resolved by consensus with a third author.”这是一篇发表在ATM上的关于代谢健康的肥胖与脑卒中风险的基于前瞻性队列研究的Meta分析,圆括号内的数字表示参考文献序号。第一段的第一句,作者直接描述了数据提取的具体内容,包括作者的姓名、发表日期、随访日期、国家、队列来源、基线年龄、性别比例、样本量、病例数、BMI类别、代谢状态的定义、BMI代谢状态表型、校正的混杂因素、结果事件、效应量和95%置信区间(confidence interval,CI)。在第一段的第二句话中,作者特别提到,对于没有直接给出风险评估数据的研究,如果存在原始数据,则采用原始数据计算效应量,这种以原始数据为基础的二次计算可以较好地保持数据的客观性。第二段的前两句话介绍了采用的质量评估工具,即纽卡斯尔−渥太华量表(Newcastle−Ottawa Scale,NOS),这也是针对病例对照研究或队列研究较为常用的质量评估工具。需要注意的是,一些系统评价文章会将数据提取与质量评估(quality assessment)两部分内容放在一个章节中,但笔者不推荐这样做,因为从PRISMA声明中可以看出,这是两个相对独立的单元,单独、有序地展示会给审稿人一种思路清晰的感觉。第二段的最后一句话则体现了PRISMA声明中条目9的内容,即数据提取与质量评价均由两位作者独立进行,而解决分歧的办法是与第三位作者协商,以便达成一致意见。接下来我们来分析一篇干预性研究系统评价和Meta分析的数据提取部分。“Two reviewers extracted data independently from eligible studies using standardized forms to verify consistency and accuracy. The following information was recorded for each study: author, year of publication, nature of study, baseline demographic and clinical characteristics, right heart catheterization data, pre and post exercise intervention measures of outcome variables (6MWD, PeakVO2, PASPrest, HRrest, HRpeak, VO2 at AT, Workloadmax, SF-36 score) and adverse events. The 6MWD was reported in all studies. Both fatal and nonfatal adverse events among the exercise training patients were recorded.”这是一篇发表在JTD上关于运动训练和康复治疗肺动脉高压的有效性和安全性的Meta分析,其数据提取部分单独作为一个自然段,比较简洁。第一句话描述了数据提取的流程,即两个审查员采用标准化的表格从纳入的研究中独立提取数据以验证一致性与准确性。第二句话记录了数据提取的具体内容,包括作者信息、发表年份、研究设计、基线人口统计学与临床特征、右心导管数据,以及运动干预前与运动干预后对结果变量的测量等。其中,在描述两个审查员独立提取数据时,常用的表达方式包括two reviewers extracted data independently(主动语态)、data extraction was conducted by two independent authors(被动语态)。总结来看,上述两个例子体现了数据提取的基本原则,即保持数据客观性、多人独立提取,以及妥善处理分歧等内容。此外,在数据提取开始前还应当对审查员进行一致性培训,培训内容应包括以下几个方面:数据提取流程、表格制作规范以及如何正确理解文献中的特定表达方式等。“The quality of the included studies was assessed using the second version of the quality assessment of diagnostic accuracy studies (QUADAS-2) scale (41). The quality score of each study was determined on the basis of 14 items from four domains (description, signaling questions, risk of bias and concern about applicability). The specific data extracted from each study were the first author’ s name, year of publication, first author’s country, data source, gold standard, machine learning algorithm used, number of nodules, and data used to evaluate diagnostic performance (TP, FP, TN and FN). Two reviewers carefully rated the quality of all the included studies and extracted the data from these studies independently in accordance with the study protocol. Disagreements were resolved by discussion between the two reviewers.Moreover, to develop AI-assisted CT diagnostic technology for the classification of pulmonary nodules as benign or malignant, data related to the texture features extracted from CT images are usually divided into a training dataset and a testing dataset. The training dataset is used to develop a model for pulmonary nodule classification, while the testing dataset is used to validate the model created using the training dataset. In our systematic review, the results obtained from testing datasets were used for the meta-analysis and meta-regression. Some studies did not specify the training dataset and testing dataset, and in this case, all samples were extracted (5 studies). If a study included more than one testing dataset to test the classifier, all results from the testing datasets were recorded and used for the analyses (3 studies). If a study evaluated the classification accuracy using the chi-square test at different confidence levels, only the result at 95% confidence level was recorded and used for the analyses (1 study on Bayes classifier). If a study used many machine learning algorithms to classify pulmonary nodules, all of them were mentioned and recorded in the data tables (6 studies).”这是一篇发表在JTD上关于人工智能(AI)辅助CT诊断技术在肺结节分类中的诊断性能和医生认知的系统评价和Meta分析。其数据提取部分由两个段落组成,其中第一段一共四句话,谈到了三个方面的内容。一是采用了哪种质量评估工具,并进行了简单介绍,即诊断试验质量评价工具第二版(QUADAS−2),这也是诊断类Meta分析文章中比较常用的质量评估工具。与之前的版本相比,QUADAS−2将一些易混淆的条目内容进行了删除和完善,将评价的条目改为单独评价偏倚风险和临床适用性两个方面。二是描述了从每一项研究中提取的具体内容,包括第一作者的姓名、发表年份、第一作者所在的国家、数据来源、金标准、采用的机器学习算法、结节的数量,以及常用的用于评估诊断性能的指标[真阳性值(TP)、假阳性值(FP)、真阴性值(TN)和假阴性值(FN)]。三是给出了数据提取的流程,说明由多人独立提取并通过协商解决分歧。第二段则体现了PRISMA声明中条目10a的内容,即“对拟提取的数据的特征、属性、定义等进行定义和说明”。第一句话对要提取的数据进行了解释说明,为了开发人工智能辅助CT诊断技术,将肺结节分为良性、恶性,通常是将CT图像中提取的纹理特征相关的数据分为训练数据集和测试数据集。第二句话则描述了训练数据集和测试数据集的用途。作者之所以在此做一些背景介绍,主要是为第三句话做铺垫。将数据分为训练集和测试集之后,每个拟提取的数据都有了两种备选,要纳入哪部分的数据进行呢?作者明确给出了答案,即测试数据集。这一段最后四句话则是对测试数据集的进一步补充说明,包括四个方面:一是一些研究没有具体说明哪些是训练数据集,哪些是测试数据集,在这种情况下,提取所有样本(5项研究);二是如果一项研究包含多个测试数据集,那么所有来自测试数据集的结果都被纳入分析(3项研究);三是如果一项研究在不同的置信水平下使用卡方检验来评估分类的准确性,那么只取95%CI水平下的结果用于分析(1项关于贝叶斯分类器的研究);四是如果一项研究使用了许多机器学习算法来分类肺结节,那么所有这些方法都会被提取并记录在数据表中(6项研究)。从示例中的附表3可以看出,第一行就是前文提到的变量名称,从第二行开始,作者记录了从每一项研究中提取的具体条目信息。值得注意的是,第五项研究(Chang,2012)在测试训练模型的时候,作者采用了一种机器学习算法(支持向量机)和六个测试数据集,这就是上一段中作者提到的第二种特殊情况。此外,为了增强表格的自明性,作者在表格下方对TP、FP、FN、TN做了进一步的注释。可能有读者会问,在文中已经对名词缩写进行了解释,为什么还要在表格下方做标注呢?笔者认为这是一种很暖心、很有必要的做法,因为有的读者在阅读全文时喜欢先看图表,掌握文章的主要结果,之后再详细阅读文字。如果不在表格下方对缩写进行定义,会影响这些读者的阅读体验。接下来我们来分析一篇干预性研究系统评价和Meta分析的数据提取部分。“A standard data extraction form was created using REDCap (Vanderbilt University, USA). One reviewer (LH) extracted the data twice. Another two reviewers (RHP and BLH) checked the results of data extraction. The data of interest included study characteristics (name of first author, chronology of publication, country in which the study was conducted, study design, study period), case characteristics (surgical procedures, anaesthetic method, number of ports, sample size, age, sex, method of air leakage test, eligibility criteria) and outcomes (LOS, pain, postoperative complications, readmission). In case of missing or unclear data, we contacted the corresponding author of the study for details of interpretation or additional data. Continuous variables summarised as median and interquartile range were converted to mean and standard deviation.”这是一篇发表在JTD杂志上关于视频胸腔镜手术后省略胸腔引流的有效性和安全性的系统评价与Meta分析。与上一篇论文不同的是,作者首先给出了数据提取所采用的工具,即REDCap软件,括号里是软件的版本信息。REDCap是一个可靠的电子化数据管理系统,可以根据任何研究方案或研究目的量身定制数据采集策略。此外,还提供了自动化数据导出程序,可以很方便地把数据直接导出为Excel及常见统计软件(SPSS、SAS、Stata、R)识别的格式。那么这里有一个问题,我们应该采用纸质表格还是电子文档呢?其实数据提取表可以是纸质表格,也可以是电子文档,两者各有优势。纸质表格更适合纳入研究文献较少,审查员在同一单位(协作方便)的情况;当纳入研究文献较多、数据量较大或者需要跨区域协作时,电子文档显然更有优势。此外,我们看这段话的倒数第二句,“如果数据缺失或不清楚,我们联系原始研究的通讯作者进行详细解释或(获取)其他数据。”这一点很好地体现了PRISMA声明中条目10b的内容。还有一个小细节值得我们注意,示例中的表1的第一列是作者信息,由纳入研究的第一作者的姓、“et al.”以及参考文献序号组成,这是一种常规的表达方式。笔者在此还有两个小建议:一是如果表格空间允许,可以在“et al.”后注明纳入文献的发表年份;二是当纳入文献中有两篇或多篇研究的第一作者和发表年份重复时,应妥善处理,以示区分。就表1而言,既可以在“et al.”后注明纳入文献的发表年份,也可以在纳入研究的第一作者的姓氏后面添加名字的首字母以示区分。总结来看,数据提取表单的制作在形式上并无统一标准,可以设计为包含所有需要信息的一张表格,也可以由一系列表格构成,每个表格只评估某个方面的内容。例如设计专门的表格评估纳入研究的质量,而另一张表格收集原始数据的结果。在内容上一般应包括纳入研究的基本信息、纳入研究的方法学设计、研究对象的特征(如年龄、性别),以及干预措施(干预性研究Meta分析)和结局指标(如有效率、发病率和减分率等)等。此外,如果可能的话,一些其他重要的信息如资助机构、潜在利益冲突也应收集起来。还有一些反映文章质量的内容也可以考虑收集到数据提取表中,如是否获得伦理委员会的批准、研究设计部分是否包括样本量计算等。PRISMA声明的数据提取部分,并没有明确提及原始数据的计算与转换,但在Meta分析数据合成(data synthesis)之前,往往需要对原始数据进行预处理。“After screening of manuscripts, the following data was extracted: ( Ⅰ ) first author, publication year, population of the study, and which country this study was held; ( Ⅱ ) study design; ( Ⅲ ) characteristics including staging, number of samples, and age; ( Ⅳ ) HR of CRP level to evaluate, OS rate, CSS rate, PFS rate, and their 95%CI. If data was not clearly shown, we manually extracted the total number of patient deaths against each group’ s sample size in order to calculate the HR (12).”这是一篇发表在TCR上探讨C反应蛋白在前列腺癌预后评估中的价值的系统评价与Meta分析,其数据提取部分非常简短,第一句话就开门见山地描述了具体的数据提取内容,其中有一项内容是评价CRP(C反应蛋白)的风险比(hazard ratio,HR)及95%CI,如果纳入的原始研究文献没有直接给出HR,怎么办呢?这段话的最后一句提到了,即“如果原始研究未交代数据(HR及95%CI),作者则根据每组的样本量手动提取患者死亡总数,以计算HR”。这种情况在写作的过程中也很可能会遇到,建议大家尽量把数据预处理过程描述得详尽一些,以便给审稿人留下好的印象。在上面第四个例子中,最后一句话是这样描述的:“Continuous variables summarised as median and interquartile range were converted to mean and standard deviation”,即“如果原始研究是采用中位数与四分位间距展示连续性变量的,则需要将其转换为均数与标准差的形式”。提取研究结果时会涉及很多统计学指标,理想的情况是提取的数据刚好可以满足数据合成的需要,但一些原始报告的结果往往不能直接用于数据合成,此时则需要进行数据转换。比如对于连续性变量而言,在进行数据合并时需要各组的样本量、均值和标准差。这个例子就涉及中位数/四分位间距与均数/标准差之间的转换。众所周知,四分位数间距指上四分位数与下四分位数的差值,用于表示偏态分布数据的离散程度。若原始研究采用四分位数间距展示数据的离散程度,则表明这部分数据是呈偏态分布的。若研究的样本量很大,且数据分布接近正态分布,则中位数与均数十分接近,四分位数间距约等于1.35倍标准差。“We extracted data regarding the name of the first author, year of publication, country in which the research was conducted, study design (i.e., single or multicenter cohort study), study period, diagnosis of the study population (e.g., sepsis or ARDS), number of patients in each group, main statistical method (multivariable adjustment or propensity score matching), and endpoints. The primary endpoints for this meta-analysis were 30-day mortality or hospital mortality after ICU admission or diagnosis of a specific disease (sepsis or ARDS). Adjusted hazard ratios (HRs) or odds ratios (ORs) for primary endpoints after propensity score matching were considered for this meta-analysis if the cohort study used both propensity score matching and multivariable adjustment. In addition, 28-day mortality was considered as 30-day mortality for the purpose of this meta-analysis. Whereas a study conducted at a single institution was considered a single-center cohort study, a study using a national health database was considered a multicenter cohort study.”这是发表在ATM上关于危重症患者既往他汀类药物治疗与死亡率关系的一篇系统评价与Meta分析。其数据提取部分共五句话,第一句话说明了数据提取的具体内容,如第一作者姓名、发表年份、研究所在国家、研究设计(即单中心或多中心队列研究)、研究周期、研究人群诊断(如脓毒症或急性呼吸窘迫综合征)、每组患者数量、主要统计方法(多变量调整或倾向评分匹配),以及终点数据,即条目10a的内容。第二句话则定义了Meta分析的终点,即30天死亡率、入住ICU后的死亡率、或发生了特定的疾病(如脓毒症或急性呼吸窘迫综合征)。第三句话对第一句话中统计方法部分给出了进一步说明,即如果队列研究同时使用多变量调整和倾向评分匹配,则纳入倾向评分匹配后主要终点的调整后HR或优势比(OR)。第四句话和第五句话针对30天死亡率和研究设计这两点做了进一步解释,即将28天死亡率视为30天死亡率,此外,在单一机构进行的研究被认为是单中心队列研究,使用国家健康数据库的研究被视为多中心队列研究。我们重点关注第三句话,即如何对HR或OR进行数据合并。在数据合成的过程中,能直接合并HR或OR的常用软件是Stata和R软件,比如该研究采用的是R软件。在森林图呈现方式方面,R软件将HR或OR值转换成了TE(HR的对数)及seTE(标准误),如图6−1所示。不过Stata和R软件需要编程基础,不利于初学者掌握。实际上,Review Manager(RevMan)软件5.0及以后版本具备了实现效应量及其95%CI合并的功能。接下来,笔者将展示如何采用RevMan 5.4软件实现病因或预后类研究数据转化及效应量合并的过程。打开RevMan 5.4软件,在左侧菜单栏中依次选择中“File→New→Next”,出现“New Review Wizard”对话框(图6−2)。继续点“Next”(页面选项保持默认),出现图6−3所示页面,点击“Finish”完成。然后在页面左侧右键单击“Data and analyses”选项,选择第一项“Add Comparison”,继续点“Next”(页面选项保持默认),出现图6−4所示页面。图6-2 新建Meta分析项目图6-3 选择系统评价所处阶段图6-4 给新的比较添加一个结果选择第二项,“Add an outcome under the new comparison”,出现图6−5所示页面,选择第四项,“Generic Inverse Variance”,即倒方差法。这种方法可应用于多种数据类型和研究设计中效应量的合并,其优势在于适用性广。继续点“Next”(页面选项保持默认),出现图6−6所示页面。点击“Name of Effect Measure”,选择“Hazard Ratio(HR)”,继续点“Next”(页面选项保持默认),最后点击“Finish”,出现图6−7所示页面,即森林图数据录入页面。图6-5 选择倒方差法图6-6 选择Hazard Ratio(HR)图6-7 森林图数据录入页面点击页面右上角的计算器图标,出现图6−8所示页面,也就是数据转换的页面,其中绿色框内的“log[Hazard Ratio]”及“SE”就是需要填到森林图录入表格里的内容。图6-8 数据转换页面我们将图6−1森林图中第一项研究,即“Bruyere et al.”中的HR和95%CI输入至图6−8对应位置,软件会自动计算出“log[Hazard Ratio]”及“SE”的值,即0.207 0和0.280 4,如图6−9所示,与图6−1森林图中的结果保持一致。图6-9 自动计算结果此外,对于连续性变量常采用均数差(mean difference,MD)和标准化均数差(standard mean difference,SMD)及其95% CI数据,其操作过程与二分类数据相同,只需要在图6−6中选择相关的指标即可实现。但在进行数据转换时也应注意,因效应量转换为逐个进行,需要一一转换并输入,以避免出错。总结来看,在进行数据合成时,理想的情况是提出的数据恰好可以满足Meta分析的需要,但原始研究报告的结果往往不能直接使用,此时则需要进行数据转换。对于不同的原始研究效应量可采用RevMan 5.4软件自带的计算器功能得出我们需要的效应量形式。笔者推荐采用RevMan 5.4软件进行统计,因为与Stata及R软件等编程软件相比,RevMan 5.4操作更简单,便于初学者掌握。在PRISMA声明中,对于数据提取部分的写作规范,只有两个条目,分别是条目9(数据提取流程)和条目10(数据呈现条目)。本章以举例说明的形式解读了数据提取部分三个方面的内容,即数据提取的基本原则、数据提取表单的制作及数据转换。在数据提取基本原则方面,一是保持数据的客观性;二是尽量做到多人独立提取;三是妥善处理审查员之间的分歧。此外,在数据提取开始前还应对审查员进行一致性培训。在数据提取表单的制作方面,形式上应做到大方、美观,采用脚注对表格中的缩写、易混淆的概念进行说明等;内容上应包括纳入研究的基本信息、纳入研究的方法学设计、研究对象的特征、干预措施和结局指标等。在提取数据的初步运算与格式转换方面,应仔细描述计算与转换过程,如果可能的话,尽量采用公式与图表来说明问题。
[1] Ma L Z,Sun F R,Wang Z T,et al. Metabolically healthy obesity and risk of stroke:a meta-analysis of prospective cohort studies[J]. Ann Transl Med,2021,9(3):197.[2] Zeng X,Chen H,Ruan H,et al. Effectiveness and safety of exercise training and rehabilitation in pulmonary hypertension:a systematic review and meta-analysis[J]. J Thorac Dis,2020,12(5):2691-2705.[3] Huang G,Wei X,Tang H,et al. A systematic review and meta-analysis of diagnostic performance and physicians’ perceptions of artificial intelligence (AI)-assisted CT diagnostic technology for the classification of pulmonary nodules[J]. J Thorac Dis,2021,13(8):4797-4811.[4] Huang L,Kehlet H,Holbek B L,et al. Efficacy and safety of omitting chest drains after video-assisted thoracoscopic surgery:a systematic review and meta-analysis[J]. J Thorac Dis,2021,13(2):1130-1142.[5] Du J,Lan J,Xiong J,et al. Efficiency of C-reactive protein in prognosis evaluation of prostate cancer:a systematic review and meta-analysis[ J]. Transl Cancer Res,2021,10(10):4432-4439.[6] Oh T K,Song I A,Choi S. Prior statin therapy and mortality among critically ill patients:a systemic review and meta-analysis of cohort studies[J]. Ann Transl Med,2020,8(6):396.更多精彩解析,可移步购买纸质书查阅&扫描下方二维码,阅读电子书!
责任编辑:李欣燃 AME Publishing Company
排版编辑:袁 舒 AME Publishing Company
b.02.2024.07.31.01