在本书正式出版发售之际,AME科研时间特推送图书内容以飨读者。今天分享的是“质量评价结果的展示”。
第三节 质量评价结果的展示
在20世纪,著名教授A. Cochrane、G. H. Guyatt和I. G. Chalmers等的开创性工作使我们进入了循证医学时代。在这个时代,如何检索、评价和使用最佳证据非常重要。系统评价与Meta分析是科学总结一次研究数据最常用的方法,也是制定临床实践指南的基础。Meta分析作为定量系统评价的一种数据合并方法,其结论的质量不仅依赖于严格的Meta分析操作流程,更依赖于研究文献本身的质量及其对偏倚的控制。质量包括内部真实性和外部真实性,而方法学质量通常是指内部真实性。内部真实性也被Cochrane协作网称为“偏倚风险(RoB)”。Meta分析中,不同类型的研究文献有不同的质量评价标准。在这里需要区分几个概念。
(1)方法学质量:主要是评价Meta分析纳入文献的质量,也就是PRISMA声明中的条目18(研究偏倚风险,即呈现每个纳入研究的偏倚风险评价结果)中所规定的内容,这也是本节重点论述的内容。循证医学强调任何诊疗决策的制定都应该全面考虑最佳证据、临床经验和患者选择。与循证临床决策最为相关的证据主要来自流行病学,尤其临床流行病学研究,包括原始研究和二次研究。系统评价和Meta分析作为二次研究,在汇总原始研究结果和评价证据质量方面起着重要的作用。然而,当原始研究存在较高的偏倚风险时,对研究结果的盲目合并不仅不能排除原始研究中的偏倚,而且还很有可能会放大有偏估计的错误,从而进一步歪曲真实的效应。为了减少原始研究偏倚对结果汇总的影响,所有系统评价和Meta分析都应该对纳入研究的偏倚风险进行评估。评估的结果也为进一步的证据质量分级(GRADE)提供参考依据。
(2)报告质量:主要是评价不同文献类型的报告(写作)是否符合国际规范,如我们撰写Meta分析时需要符合PRISMA声明。由于偏倚风险的评估很大程度上是基于研究发表的信息来判断的,因此报告质量可影响偏倚风险评价的结果,但跟偏倚风险实质的高低并无直接关系。例如,在一个随机对照试验(RCT)中,作者采用了分配隐藏,但没有在文章里对此进行报告;若仅仅依据作者所报告的信息,在这种情况下,偏倚风险只能评为不清楚,但实际上应该是低风险。我们可以说这篇文章的报告质量不佳,但是方法学质量可以。
(3)证据质量:主要是评价Meta分析产生的证据的质量,能否被推荐。GRADE分级系统主要用来评价指南、系统评价/Meta分析等的证据质量。GRADE分级系统不可以用来评价纳入文献的方法学质量,但却常被误用。GRADE分级系统打破了根据研究设计类型制定等级的方法,转而将研究的设计类型、方法学质量、结果一致性和证据直接性进行综合考虑。在Meta分析中,证据质量是指效应估计值能够正确反映真实情况的把握程度。根据GRADE分级系统,证据质量可分为高、中、低、极低4个等级。评价的是某个特定结局的整个证据体,而不是针对单个研究(也可能在证据体中仅有一个研究,那是特例)。证据质量的5个降级因素有研究的局限性(即偏倚风险)、不一致性、间接性、精确性和发表偏倚,而3个升级因素则包括效应大小、剂量反应关系和残余混杂。由此可见,偏倚风险不等于证据质量,但它是影响证据质量分级的重要因素之一。常见研究类型对应的方法学质量评价和报告质量评价工具如表9−1所示,本节选取最常用和最重要的Cochrane RoB 2.0和NOS量表分别进行介绍。
二、RCT的质量评价工具
RCT被认为是临床研究里最重要的研究类型,针对RCT的质量评价工具也经过了数次更迭。最初的Jadad量表,评价员只需要对随机、双盲和退出三方面进行评分。2008年版的Cochrane清单式工具,评价员需要对6个条目进行“Yes”“No”或“Unclear”的回答。2011年版的Cochrane模块评估式工具,对盲法和其他偏倚这两个方面进行了完善,并把偏倚来源明确划分为6个模块,要求评价员对各模块作出“Low risk”“High risk”或“Unclear risk”的回答。而如今2016年版的Cochrane RoB 2.0(2019年更新),则需要对5个模块作出判断(每个模块需要判断为“Low risk”“High risk”或“Some concerns”),每个模块要回答数个信号问题,每个问题有5个选项(“Yes”“Probably yes”“No”“Probably no”或“No information”)。评价越来越完善,也越来越复杂。由于对专业术语理解的偏差会影响评估者对研究质量的判断,因此在RoB 2.0中,去除了RoB 1.0中的专业名词或术语(如选择偏倚、失访偏倚、实施偏倚、检出偏倚等),直接对待评估的问题进行描述。RoB 2.0工具(图9−3)可从专用网站(https://sites.google.com/site/riskofbiastool/welcome/rob-2-0-tool?authuser=0)获取。
RoB 2.0的5个模块包括随机过程中产生的偏倚、偏离既定干预的偏倚、结局数据缺失的偏倚、结局测量的偏倚以及结果选择性报告的偏倚。其中,偏离既定干预的偏倚模块又分为干预分配和干预依从两个不同的评价角度。每个模块的详细评价条目详见表9−2。另外,还要计算不同评阅者对同一项研究信号问题答案的一致性,RoB 2.0指南建议将“是”“可能是”与“否”“可能 否”作为答案进行一致性评价。注意,RoB 2.0对每个模块还给出了预计偏倚方向(predicted direction of bias)的选项,以此来评价偏倚的大小和方向:对试验组有利(favours experimental)、对对照组有利(favours comparator)、趋于零(towards null)、远离零(away from null)、无法预计(unpredictable)、不适用(NA)。
针对RoB 2.0的五个模块,每一个部分都有官方推荐的评价路径图,比如评价“随机过程中产生的偏倚”路径图如图9−4所示。
在使用RoB 2.0的时候,强烈推荐使用官网提供的Excel小工具来评价,非常方便。该工具的截图如图9−5所示,RoB 2.0下载地址:https://sites.google. com/site/riskofbiastool/welcome/rob-2-0-tool/current-version-of-rob-2.
我们点击“Assessment form”就会出现如下的窗口,再点击不同的“Domain(模块)”就可以完成一个研究相应的评价。具体使用流程如下:①单击“RoB 2.0 Assessment Form”(RoB 2.0评价窗体)按钮以初始化用户表格;②为方便日后查找评价结果,给每一次评价设置一个“Unique ID”,然后在Excel表格相应位置输入该ID;③在完成与评价相关信息录入后,需要回答每个模块下的信号问题,信号问题的答案可以从下拉菜单中选择,并可以在后面“Description”一栏中阐述相应理由,双击信号问题可出现相应问题的解释;④RoB 2.0软件可以根据信号问题的答案自动判断每个领域的偏倚风险,点击“Algorithm”按钮,系统即可自动得出判断结果;⑤若两位评阅者要独立进行评价,则需要使用相同的ID进入同一个评价中,最后检查两次评价的差异(点击“Discrepancy Check”按钮);⑥如有疑问还可以点击“Guidance”按钮以获取更多信息;⑦若要编辑或删除现有评价,则在交互式表单及结果表中直接编辑或删除即可。但系统对模块的偏倚风险判断不会自动更新,如果已对信号问题的答案进行了修改,则需要再次单击“Algorithm”按钮,完成偏倚风险判断;⑧完成偏倚风险评价后,单击“Intro”页上的“Summary”按钮,所有的评价结果都将出现在“Summary”表中,并且在工作表的右侧系统将自动绘制出偏倚风险图;⑨单击“Intro”页中的“Figures”按钮,即可在“Figures”表中自动绘制出偏倚风险总结图。在对5个模块分别进行评价后,研究人员还可对纳入的RCT研究进行整体偏倚的评价。如果5个模块中的偏倚评价均为低风险,则整体偏倚评价为低风险;如果5个模块均未被评估为高偏倚风险,但任一模块的评价结果为可能存在风险,则整体评价为可能存在风险;如果5个模块中任一模块被评估为高偏倚风险,或多个模块的评价结果为可能存在风险且对研究结果的可信度影响较大,则整体评价为高风险。评价完所有研究后该小程序可以自动生成评价结果,也就是偏倚风险图,具体见实例部分。
三、观察性研究的质量评价工具
观察性研究为流行病学及统计学中的一种研究方法,又称非实验性研究或对比研究,包括队列研究、病例−对照研究和横断面研究。该研究通过对研究对象在自然状态下根据特定的特征分组后进行观察、记录,并对结果进行描述和对比分析而得出结论。与实验及RCT等研究方法不同,此类研究方法的研究者没有(或未能)人为设置处理因素。医学研究中有很大部分是观察性的研究,多用于研究可能造成疾病或损害的危险因素,由于人的内在特点或实施条件涉及医学伦理等,这类研究通常不能实现随机化。因此,与RCT相比,观察性研究更容易受到偏倚风险影响,发生选择性偏倚的风险大于实验性研究。
由于观察性研究能够提供许多极为重要的信息,并在医学研究中占很大的比例,因此,观察性研究的Meta分析具有重要意义。观察性研究的Meta分析和观察性研究的趋势一致,大量涌现,并呈逐年增多的趋势,已成为流行病学研究的重要部分。队列研究和病例−对照研究的评价工具最常用的是NOS量表,横断面研究常采用美国医疗保健研究与质量局(AHRQ)标准。相比于RCT的评价工具RoB 2.0而言,观察性研究的评价要简单得多。
NOS量表适用于评价病例−对照研究和队列研究。它通过3大块共8个条目的方法评价队列研究和病例对照研究,具体包括研究人群选择、可比性、暴露评价或结果评价。NOS对文献质量的评价采用了星级系统的半量化原则,满分为9颗星。NOS有自己专用的网站,提供了量表的word及pdf版本,可免费下载,链接:http://www.ohri.ca/programs/clinical_epidemiology/oxford.asp。
AHRQ对观察性研究的质量评价标准进行了推荐,其中推荐NOS量表作为评价队列研究和病例−对照研究的标准。AHRQ推荐评价横断面研究的标准包括11个条目,分别用“是”“否”及“不清楚”作答:1.是否明确了资料的来源(调查,文献回顾)?2.是否列出了暴露组和非暴露组(病例和对照)的纳入及排除标准或参考以往的出版物?3.是否给出了鉴别患者的时间阶段?4.如果不是人群来源的话,研究对象是否连续?5.评价员的主观因素是否掩盖了研究对象其他方面情况?6.描述了任何为保证质量而进行的评估(如对主要结局指标的检测/再检测);7.解释了排除分析的任何患者的理由;8.描述了如何评价和(或)控制混杂因素的措施;9.如果可能,解释了分析中是如何处理丢失数据的;10.总结了患者的应答率及数据收集的完整性;11.如果有随访,查明预期的患者不完整数据所占的百分比或随访结果。
队列研究的NOS评价标准具体见表9−3。
病例−对照研究的NOS评价标准见表9−4。
四、质量评价的SCI实例
The Cochrane Collaboration tool was used to evaluate the methodological quality of each study by the risk of bias , including randomization , allocation of concealment , blinding methods , selective reporting , population similarity at baseline , incomplete results data , etc.…
All 16 included studies were RCTs , of which two were multicenter and two were double-blind RCTs. A clear generation of random sequences and allocation concealment were employed by 11 studies , indicating a low risk of bias , while the remaining five trials did not report their sequence generation , and three trials did not mention allocation concealment. The blinding of participants and personnel was unclear in four studies , and a high risk of bias was found in one study in which patients were not blinded. Blinding of outcome assessment was unclear in four studies , and a high risk of bias was observed in one study in which researchers and surgeons evaluated the clinical and imaging results. All of the included articles displayed a low risk of bias for incomplete outcomes , selective outcome reporting , and other biases. Details of the bias assessment are shown in Figure 2.
翻译
采用Cochrane协作工具,通过偏倚风险评估每项研究的方法学质量,包括随机化、分配隐蔽性、盲法、选择性报告、基线人群相似性、结果数据不完整等。
纳入的16项研究都是RCT,其中2项是多中心研究,2项是双盲RCT。11项研究采用了明确的随机序列生成和分配隐蔽,表明偏倚风险较低,而其余5项试验没有报告其序列生成,3项试验没有提到分配隐蔽。有4项研究对参与者和工作人员的盲法不清楚,有1项研究对患者没有盲法,发现有高偏倚风险。4项研究对结果评估的保密性不明确,一项研究中研究人员和外科医生对临床和影像学结果进行了评估,发现了高偏倚风险。所有纳入的文章都显示出不完整的结果、选择性的结果报告和其他偏见的低风险偏见。偏倚评估的细节见图2。
点评
针对RCT研究的Meta分析,作者采用了Cochrane协作工具来评估纳入研究的偏倚,这是没有问题的。这篇文章发表于2021年,此时RoB 2.0已经问世,而作者采用的仍是RoB 1.0,略显美中不足。根据笔者的检索,目前采用RoB 2.0的研究非常少,可能与这次更新时间比较接近有关,又或者与RoB 2.0的复杂程度相关。不管怎么说,RoB 2.0相比RoB 1.0有其优越性,如果有合适的研究应该积极应用RoB 2.0。
示例2[2]
原文
Most studies were identified as high quality and just 1 study showed high bias. The method used to analyze the included studies is shown in Table 2.
翻译
大多数研究被认定为高质量,仅有1项研究显示出高偏倚。用于分析纳入的研究的方法见表2。
点评
这篇文章研究癌症患者化疗术后的血栓栓塞风险,是一篇典型的观察性研究,所以采用NOS评分。作者把对于每个研究的评分以表格的形式呈现出来。也可以只展示总分,把评分细节放在增补材料里,这样显得简洁一些。另外,有些研究者还会发邮件给原始研究的作者,询问是否同意NOS评分,如果不同意,要写清原因,这样也会显得更加严谨。总体而言,NOS评分还是非常简单的,“照本宣科”即可。
(吴进林)
更多精彩解析,可扫描下方二维码,阅读电子书!
资讯
b.02.2024.09.05.01
了解AME