第七章 质量评价
第二节 案例详解系统评价中的偏倚风险评估
条目11:详细说明评价纳入研究的偏倚风险的方法,包括评价工具的细节、评价人数,以及是否独立进行。如使用自动化工具,应作详细说明。
一、什么是质量评价、偏倚(bias)
(一)质量评价
PRISMA 2020版声明中的条目11的英文版是“study risk of bias assessment”,对应的中文翻译是“研究的偏倚风险评估”。当我们在中国知网上搜索risk of bias相关内容时,会发现不同的汉语表达方式,如“偏倚风险”“质量评价”“方法学质量”等。这些翻译的意思大同小异,均可在日常学术交流中使用。
(二)偏倚
Bias的中文翻译是偏倚,在测量学中是指一切测量值与真值的偏离。在医学研究中偏倚是指从研究设计、实施到数据处理和分析的各个环节中产生的系统误差,以及结果解释、推论中的片面性,最终导致研究结果与真实情况(即“真值”)之间出现倾向性的差异,从而错误地描述暴露与疾病之间的联系。需要强调的是,所谓的“错误地描述暴露与疾病之间的联系”,既可能是夸大研究结果,也可能是低估研究结果。医学研究中的偏倚并非是空穴来风,因为人们已经通过各种流行病学手段反复证明了偏倚的存在。
即使是同一种偏倚(如盲法),对不同结局指标(主观或客观)的影响也不尽相同,即产生的偏倚大小和方向会不同。我们无法得知所谓“真值”,当然也无法准确地评价偏倚的大小或程度。
(三)系统评价(systematic review)的质量评价
质量评价包括内部真实性和外部真实性。内部真实性是指研究的科学性,对其进行评价也就是“方法学质量评价”或者“质量评价”。如前所述,偏倚的大小和方向是无法准确评价的,仅能判断是否存在偏倚风险以及其可能对研究结果产生的影响。因此,Cochrane将内部真实性的评价过程称为“risk of bias assessment(偏倚风险评价)”。质量评价的目的是了解研究的方法学质量,重点是判断是否存在各种会导致偏倚的因素。
外部真实性是指研究结果是否可以应用于研究对象以外的其他人群,即研究结果的使用场景与推广条件。对于外部真实性的评价,则要根据PICOS原则来具体判断,并没有类似于内部真实性的评价方法。
以往偏倚风险的评价仅针对被纳入系统评价的原始研究,现已扩展到对合成结果的总体质量进行评价。也就是偏倚风险的评价包括两个方面:一个是被纳入系统评价的每一个原始研究,另一个是Meta分析合成的总体结果。质量评价,抑或是偏倚风险评价,是回答系统评价给出的证据是否为最佳证据的关键步骤。
由上可知,偏倚风险评价应该是在系统评价确定纳入文献后才进行的,但偏倚风险同时也可以作为文献纳入和排除的依据,即偏倚风险在系统评价开展之前即已确定。当然,也可以根据偏倚风险的评价结果进行亚组分析,比较不同偏倚风险的研究结果之间的差异,为循证决策提供更多的信息。
在部分初学者中,会出现混淆质量评价与报告规范的情况,报告规范会影响质量评价,但两者评价的内容完全不同。报告规范是指撰写论文的“规范程度”,质量评价则是指研究设计的科学性和合理性。部分初学者也可能会分不清证据质量与质量评价的关系,这两者的区别会在第八章中阐明。
二、系统评价中常见的方法学质量评价工具
PRISMA 2020版声明对于条目11的解释为:详细说明评价纳入研究偏倚风险的方法,包括使用评价工具的细节、评价人数,以及是否独立进行。如使用自动化工具,应作详细说明。
(一)评价工具
要进行偏倚风险评价,首先要明确使用的评价工具及其版本。偏倚风险评价工具的形式包括量表式(composite scale)、清单式(checklist)和模块评价式(domain−based)等。常用的评价工具见表7−7。
目前系统评价最多的类型为对随机对照试验的系统评价,常用的随机对照试验的偏倚风险评价工具是RoB1.0,其包含了6个方面的偏倚风险评价,但其并未评价患者依从性和基线水平对研究结果稳健性的影响。2016年推出的新版本RoB2.0,则完善了这两部分的评价内容。诊断准确性研究的偏倚风险评价工具为QUADAS−2,实际上包含了内部真实性和外部真实性两方面的评价(偏倚风险、适用性)。从表7−7中可以看出,针对同一研究类型的系统评价也存在多种偏倚风险评价工具。目前对于评价工具的选择并没有统一的要求,但不管使用何种评价工具,评价员都需要根据客观、有限的研究内容,对偏倚风险做出最佳判断。
(二)评价方法、过程、特殊情况举例
这个过程,可以参考Cochrane手册ver6.2的内容。Cochrane手册里对偏倚风险的评价实施要求为“independently by at least two people”,即评价过程需要至少2名评价员独立进行。除此之外,还需要提前制订意见不同时达成一致的方法、要求有医学特定领域的专家和(或)方法学专家、实施预评价、考虑针对不同结局指标的评价、记录评价依据等等。在开始正式评价之前,可以先对3~6篇研究进行预评价。
三、撰写策略
在明确了评价工具和评价方法之后,需要用透明的、详细的文字将这部分内容描述出来,并呈现在论文中。我们通过6篇文章来看看偏倚风险评价的撰写策略。
示例1[1] RoB 1.0,Newcastle-Ottawa Scale(NOS)
“Risk of bias assessment
Methodological quality was defined as the control of bias assessed through the reported methods in each individual study using the Cochrane risk of bias tool ( 14 ) to assess quality of randomized trials. Newcastle-Ottawa Scale ( NOS ) ( 15 ) was used to assess the quality of observational studies. Two reviewers ( JO , TE ) independently assessed each study quality by examining risk of bias tool components. No evidence of publication bias was detected based on the symmetry of the funnel plot ( Figure 2 ) . There was possible performance bias due to non-blinded studies ( Tables 2,3 ) . Disagreements between the reviewers were resolved by discussion or arbitrated with a third coauthor ( AA ) .”
以上是一篇关于急性肢体缺血的血管内治疗与手术治疗效果比较的系统评价和Meta分析。作者将质量评价的过程表述为“risk of bias assessment”。段首先明确了针对不同的研究类型所使用的评价工具,随后表明评价过程由2名研究人员独立完成,以及评价意见不同时的处理方法。中间穿插的内容还包括了发表偏倚(publication bias)和执行误差(performance bias)内容。
值得注意的是,作者在方法学部分交代了部分研究结果。关于是否可以在方法部分列出结果内容,业内目前并没有统一的规定。笔者认为,按照科学论文的写作逻辑,具体的结果应写在结果部分。这样读者能够非常便捷地在文章中找到对应的内容,避免错过重要信息。而且,PRISMA 2020版声明中的条目21就是报告偏倚,恰恰是在结果部分。
本段中提到了发表偏倚,是比较特殊的情况,属于报告偏倚(reporting bias)。我们且看下一篇文章是如何叙述的。
示例2[2] RoB 2.0,ROBINS-I
“Statistical analysis and quality assessment
Analysis was done in Revman 5.4 …… test , with a significance value of at P ≤ 0.10 or I 2 ≥ 40 respectively ( 21 , 22 ) . Publication bias was assessed with funnel plots when sufficient studies were available ( n > 10 ) ( 23 , 24 ) . Publication bias was assessed using visual inspection of funnel plots.
The assessment of quality and risk of bias of randomized and non-randomized studies were undertaken with Risk of Bias 2 ( RoB 2 ) ( 25 ), and the ROBINS-I tool ( 26 ) respectively. RoB 2 assesses the risk of bias from the randomization process , deviations from intended interventions , missing outcome data , measurement of the outcome and in selection of the reported result. The ROBINS-I tool assesses bias due to confounding , selection , classification of interventions , deviations from intended interventions , missing data , measurement of outcomes and in reporting results.”
这是一篇关于治疗非小细胞肺癌的两类药物之间的相互作用的系统评价和Meta分析。作者将统计分析与质量评价合并在一个部分叙述,并将质量评价的过程表述为“quality assessment”。与示例1相比,本文作者在质量评价的内容中不仅明确了不同研究类型使用的评价工具,还详细地描述了评价工具中各个模块(domain)的细节。美中不足的是未说明评价过程的信息,包括评价人员情况及是否独立完成、评价意见不同时达成一致的方法。
本文也提到了采用漏斗图(funnel plot)评价发表偏倚。该偏倚是一种特殊的偏倚,是指阳性的研究结果更容易出现在学术杂志上而造成的信息偏倚。值得注意的是,在PRISMA 2020版声明中,有一个专门针对报告偏倚的条目(条目14)。严格地说,Cochrane的“risk of bias assessment”评价的是研究的内部真实性,也就是将“方法学质量评价”和“偏倚风险评价”视为同一概念,认为发表偏倚不属于偏倚风险评价的内容。换而言之,发表偏倚和报告偏倚是两个完全不同的概念。Cochrane倾向于将报告偏倚称为non-reporting bias,包括发表偏倚、语言偏倚、时滞偏倚等。示例中的RoB 1.0、RoB 2.0和ROBINS-I都包含了一项评价内容,就是选择性报告(selective report)结果,而选择性报告也是报告偏倚的一个类型。因此,在强调内部真实性评价的偏倚风险评价工具中,选择性报告的存在是合理的,但是鉴于选择性报告属于报告偏倚的一种,为何主流的评价工具会包含选择性报告,而不是将这一内容留给PRISMA声明中的条目14来评价呢?笔者就不得而知了。
关于发表偏倚,有研究者认为评价发表偏倚的漏斗图等于报告偏倚评价的结果,笔者认为这是认识误区。事实上,漏斗图的不对称不仅仅是由单一的发表偏倚造成的,也可能与纳入研究质量低、异质性大、选择报告等因素有关。
选择性报告之所以在各个主流的评价工具中被单独列出,笔者认为这可能与临床试验注册的观念日渐深入人心、临床试验注册的普及使得判断选择性报告变得相对容易有关。
接下来,再看几个报告示例。
示例3[3] QUADAS-2
“Quality assessments and publication bias
We conducted quality assessments for the 12 included studies by using Review Manager 5.3 on the basis of the Quality Assessment of Diagnostic Accuracy Studies (QUADAS-2 ) checklist. Publication bias were performed with Stata software version 12.0 (STATA Corp , TX , USA ) by using Deeks Funnel Plot Asymmetry Test [The appearance of an asymmetrical funnel shape or P < 0.05 means the publication bias exist (15 )] .”
示例4[4] RoB 1.0
“Bias risk assessment
The risk of bias in the included randomized controlled trials was assessed by two researchers at the same time , and the results were determined by discussion if the two disagreed. In this study , the Cochrane manual was used as the tool for “risk assessment of bias” in the randomized controlled trials. The evaluation criteria included case selection , trials to be evaluated , gold standard , pathological procedures , and pathological progress. “High risk bias” “low risk bias” and “unclear” were judged for the above five aspects.”
示例5[5] RoB 1.0,ROBINS-I
“Assessment of risk of bias in the included studies
Four investigators (YS and SJ ; SX and JS ) will work pairs to independently assess the risk of bias in the included studies. The risk of bias in included randomized control trials will be assessed using the Cochrane risk-of-bias tool. The risk of bias in included non-randomized studies will be assessed using the ROBINS-I tool (22 ) . Any discrepancies will be resolved by a panel of other reviewers within the review team (CL , ZH , and DG ) .”
示例6[6] ROBINS-I
“Methodologic quality assessment
The quality assessment of these studies was performed using the ROBINS-I tool. The domains of interest evaluated by the tool include bias due to confounding , bias in the selection of participants into the study , bias in the classification of interventions , bias due to deviations from intended interventions , bias due to missing data , bias in measurement of outcomes and bias in selection of the reported result. An overall risk of bias was determined based on the reviewers’ judgement of the risk of bias for each domains of interest.”
从上述示例中我们可以看出:不同类型的研究,描述偏倚风险评价的方式不尽相同。示例3中,作者提出使用Review Manager 5.3进行评价;示例4中,作者还说明了评价结果用高、低、不清楚来表示;示例5中,中规中矩;示例6中,作者评价了每个研究的总体偏倚风险。可以说以上几个示例对于偏倚风险评价的描述都有不全面的地方,尽管6篇研究都在文中声明自己遵守了PRISMA报告规范。
综合6个示例的优点和不足,笔者综合整理出了一段比较全面的质量评价描述方法,供读者参考。
Methodological quality assessment of randomized trials was undertaken with the Cochrane Risk of Bias 2 (RoB 2 ) using Review Manager 5.3. RoB 2 assesses the risk of bias from the randomization process , deviations from intended interventions , missing outcome data , measurement of the outcome and in selection of the reported result. “High” “low” and “some concerns” were judged for the above five domains. For each outcome , an overall summary RoB was derived ; and an overall RoB for each study was determined based on the highest RoB level in any of the domains. Two reviewers (JO , TE ) independently assessed each study quality by examining risk of bias tool components. Disagreements between the reviewers were resolved by discussion or arbitrated with a third coauthor (AA ) .
以上内容包含了所使用的工具、评价的内容、结果呈现方式,以及有多少名评审员参加评估、是否独立评价、解决评审员之间分歧的程序等。
四、总结
在整个系统评价中,偏倚风险评价方法的内容占比并不多,只要详细地描述过程即可。有些条目过多的工具,研究者可能不会在偏倚风险评价中的方法学部分罗列全部内容。即使条目较少时(如RoB 1.0、RoB 2.0),由于篇幅、字数的要求,研究者也不会倾向于事无巨细地详细列出。因为这部分内容会在 结果部分展示,在方法学部分过度解释会显得十分冗余。其他情况下,仅在类似于Cochrane系统评价这种“不在意字数”的论文中,方法部分才会详细罗列评价工具的信息。
为了使评价更加程序化、标准化,有的评价工具推出了启用“宏”的excel文件(比如RoB 2.0)。尽管如此,偏倚风险评价的过程依然十分复杂和主观。笔者建议,不论是没有系统评价经验的团队第一次进行系统评价,还是有经验的团队第一次使用某评价工具,都最好在团队内部进行培训和练习,以提高评价结果的可靠性和可重复性。此外,有读者可能会认为最新发表的系统评价可能倾向于使用最新版的偏倚风险评价工具。然而,事实并非如此。以RoB 2.0为例,尽管最新版的RoB 2.0相对RoB 1.0有了较大的飞跃,但由于很多研究者更熟悉RoB 1.0,且RoB 1.0的评价方法更简单,加之学术杂志似乎也没有强制规定使用最新的RoB 2.0,因此在最新的系统评价中仍可以看到RoB 1.0的身影。
可以说质量评价,抑或是偏倚风险评价,是回答系统评价给出的证据是否为最佳证据的关键步骤。原始研究的“质量”是既定的事实,如何根据客观、有限的研究内容,对原始研究的质量做出科学的评价,关键就在这个“评价过 程”。为了减少系统评价的误差,评审员需要在文献检索、研究选择、资料提取、偏倚风险评价等多个环节进行严格的把控。
为了解放人工劳动力,偏倚风险评价也推出了自动化软件(如Robot Reviewer)。条目8的selection process、条目9的data collection process和条目11中都涉及了“automation”,但这些自动化工具从技术成熟到应用普及肯定还要一定的时间。此外,深度学习技术也在逐渐运用到系统评价中,特别是对于一些需要纳入较多文献进行分析的特定领域。总体而言,深度学习技术对系统评价的推动作用还是很值得期待的。
更多精彩解析,可移步购买纸质书查阅&扫描下方二维码,阅读电子书!
资讯
责任编辑:李欣燃 AME Publishing Company
排版编辑:陈 童 AME Publishing Company
b.02.2024.08.07.01
了解AME