它山之石丨肌骨系统疾病临床研究方法专家共识

文摘 2024-06-25 19:00 美国

肌骨系统疾病是指影响骨骼、关节、肌腱、韧带和肌肉等组织器官正常功能的一系列疾病的统称，主要包括创伤性疾病、退行性疾病、感染性疾病、代谢性疾病、先天发育性疾病、遗传性疾病和骨与软组织肿瘤等。大部分肌骨系统疾病可导致疼痛和行动力丧失，是老年人致残的主要原因之一。随着全球人口老龄化程度日益加剧，肌骨系统疾病给患者和社会带来了沉重负担。然而，目前肌骨系统疾病的影响因素尚未完全阐明，有些治疗手段往往局限于对症治疗，疗效有限且安全性风险不明。

临床研究从具体临床问题出发，通过采用标准、严谨、合乎伦理要求的研究设计，以明确疾病的影响因素并评价治疗手段的有效性和安全性，从而针对性解决重要临床问题。

开展肌骨系统疾病临床研究旨在：

（1）明确疾病发生发展及预后的影响因素；

（2）评价现有治疗手段的疗效与安全性；

（3）探索更准确、更明确的诊断技术和方法；

（4）探索安全有效的治疗新方法。

综上，为进一步促进肌骨系统疾病临床研究规范化，满足当前临床研究实践需要，填补国内肌骨系统疾病领域临床研究方法学指导空白，中华医学会骨科学分会和中国医师协会骨科医师分会组织相关专家在国外肌骨系统疾病临床研究方法学标准和指南基础上，结合我国医疗卫生实践，制订符合国情的肌骨系统疾病临床研究方法专家共识，为临床研究的研究设计、数据管理和质量控制等方面提供方法学指导，对中国肌骨健康促进和疾病防治具有重要临床意义。

研究方案制订

一、研究问题的确定

临床研究选题要基于临床实践中亟待解决的、关键的、重要的临床问题，经过严格、全面的文献检索与总结以及向相关领域内专家咨询，遵循重要性、创新性、科学性、实用性和可行性的基本原则，明确研究对象、研究的干预措施或暴露因素、研究的对照人群、主要和次要的结局指标，最终将重要的临床问题转化为研究问题。

二、研究设计

研究设计是指根据研究问题和研究目的所制订的研究方案，旨在回答特定的研究问题或者检验特定的研究假设。

一项考虑周密、合理、全面与可行的流行病学研究设计，能够很好地指导流行病学研究有序开展，对获得真实可靠的研究证据具有重要意义。

开展研究前，研究者需明确研究目的，选择样本量足够、具有良好代表性的研究对象，选择合适的研究设计类型，研究变量要求客观、灵敏和特异，需应用正确的统计分析方法分析数据。本共识将重点阐述随机对照试验和观察性研究两大类流行病学研究设计。

（一）随机对照试验

随机对照试验是指将研究对象随机分配到两组（或多组），分别接受不同干预的临床试验研究，通常被认为是研究治疗措施疗效和安全性的最佳方案。

其优点是用随机的方式将研究对象进行分组，使比较组之间的背景因素可达到均衡分布，彼此几乎完全可比，控制了混杂偏倚；但由于伦理的限制，随机对照试验只能用于检验对健康有益的因素或措施的作用。

根据研究假设撰写研究方案（protocol）

开展随机对照试验之前应根据已有的研究假设，确定并撰写研究方案。

研究方案可经过同行评审的评议，由经验丰富的研究人员组成的学术委员会针对研究方案的研究设计提出建议，并通过伦理审查，对于涉及人类遗传样本采集、检测等的，按《中华人民共和国人类遗传资源管理条例》在科技部进行备案。

研究方案还需线上注册（https://clinicaltrials.gov/或 https://www.chictr.org.cn/），以便于后续研究的开展和发表。

选择符合要求的研究对象

研究对象的选择需考虑是否能代表目标人群，从而使研究结果具有普遍外推性；

干预组和对照组应为同一来源的人群；

应制订合理的纳入和排除标准，使研究对象具有更好的内部一致性。

样本量计算和预试验的开展有利于研究者对后续正式试验进行人力、财力及研究时间上的规划。

随机化、分配隐藏和盲法

随机化指所有研究对象有同等的概率被分配到干预组或对照组，有效的随机可实现比较组间预后因素的可比性，从而消除潜在的混杂偏倚。

分配隐藏是指为了防止随机分组方案提前解密采用的一种方法，例如将随机分配方案密封在按顺序编号的不透明信封或外形相同的药物容器中进行递送。

盲法是指为了避免干预实施、数据收集和评价过程中研究对象和研究者的主观因素带来的偏倚，使研究对象和研究者都不知道干预措施分组情况（双盲设计）。如果由于客观条件限制（如手术、针灸等干预）无法对研究对象和研究者实施盲法，可采用单盲设计（即仅对研究对象实施盲法）和其他方法减少偏倚的产生。

确定结局变量及测量方法

结局变量包括主要结局变量和次要结局变量。选择结局变量时需明确测量结局的时间及方法，以避免产生信息偏倚。

结局变量应能确切反映研究目的和干预效应，具有可行性、客观性以及较高的灵敏性和特异性，测量方式应能被研究对象所接受。常见肌骨系统疾病科学研究常用结局指标举例如表1。

分析策略

数据分析时可采用不同的分析策略：

（1）意向性治疗分析：指参与随机分组的研究对象，无论其是否真实接受该分组的治疗方案，最终都被纳入所分配组进行统计分析。该分析策略可保留随机化的优势，但可能低估干预措施效果或高估安全性风险。

（2）遵循研究方案分析：即只对完成随机分组时所指定的治疗方案的研究对象进行分析。该分析策略能反映试验药物的生物效应，但可能产生选择偏倚，高估干预效果或低估安全性风险。

（3）接受实际治疗分析：指根据研究对象实际接受的治疗而不是随机分配的治疗进行分析。由于比较的对象非随机分组，该分析策略可能存在选择偏倚。

在评价随机对照试验的干预措施的效应时，可同时使用以上 3 种分析策略，以获得更全面的信息。

（二）观察性研究

尽管随机对照试验常常被认为是临床研究中最接近真实评价的研究方法，但仍然存在失访偏倚、测量偏倚、伦理问题、随机对照试验中的干预方式与实际应用中可能存在较大差异、成本高昂和小样本随机对照试验检验效能不足等诸多问题。

观察性研究是指在没有施加干预措施的条件下，客观地观察和记录研究对象的状况，描述和分析相关影响因素对健康影响的研究。作为对随机对照试验证据的补充，观察性研究证据受到了越来越多的重视，已逐步成为疾病危险因素识别、药物疗效和安全性评价、医疗决策部署、医保制度制订等各个方面参考的重要证据。

观察性研究与随机对照试验相比仍然存在一些偏倚，这些偏倚的存在可能会影响证据的可靠性和外推性，并限制观察性研究数据在因果推断中的强度和解读。因此，为了减少偏倚对观察性研究证据的影响，研究者需要尽早确定研究问题、谨慎周密地设计研究方案、制订数据分析计划，评价研究方案的科学性和可行性（图1）。

基于已有数据集的可行性评价

观察性研究中的已有数据集主要包括电子病历、电子健康档案和医保数据等。由于这些已有数据集的数据采集并不针对某个特定研究目的，因此，此类数据集的完整性和准确性常常存在一系列问题。

利用已有数据集开展临床研究前需进行可行性评估，主要包括以下几个方面：暴露变量和结局变量的测量是否准确、研究对象的关键基本信息是否记录准确（包括年龄、性别、身高、体重与合并症等）、数据清理方案是否合理、缺失值的数量和类型是否会对研究产生重大影响等。

数据收集的可行性评价

观察性研究常根据特定的研究目的开展数据收集。数据收集类型主要包括：自然人群队列的建立和随访、疾病注册登记和随访、公共健康监测等。

此类数据集在建立之前已确定了具体的研究目的，需要收集的条目和数据也较为明确，因此数据的完整性和准确性均较好。但开展数据收集需要花费大量的人力和财力，其样本量常受到限制。开展数据收集工作前，研究者需要预先制订好数据收集方案，主要包括以下几个方面：确定潜在研究对象、样本量大小、数据条目和类型、抽样方案（招募方案）与质控方案等。

观察性研究的研究设计

观察性研究的主要研究类型为观察性研究，包括队列研究、病例‑对照研究、自身对照研究和横断面研究等（表2）。

除以上4类常用研究设计外，还有以下几类：

01 暴露和结局

暴露变量是指影响疾病的发生进展或健康状况分布的变量；结局变量是指在暴露变量的作用下产生反应的变量，包括疾病状态（发病或进展）、健康状况、健康相关事件和死亡等。

常见暴露变量的选择包括人口学基本特征、行为生活方式、社会经济状态、精神心理状态、膳食营养摄入、体力活动水平、家族遗传因素以及生理、生化和分子生物学标志物与治疗方式等。

不同的研究课题和研究目的其结局变量不同，可通过定期问卷或电话随访来确定研究对象是否发生结局事件及其健康状况，或定期进行临床检查来获得生物学测量和影像学检查等结局指标，也可从医院记录、疾病登记系统和死亡监测系统等获取。根据研究类型及研究目的不同，应选择合适的相应肌骨系统疾病结局指标（见表1）。

02 混杂因素

混杂因素是指与暴露和疾病均相关但在各组中分布不均，可能导致观察到的暴露与结局之间的相关性被高估或低估的因素。

混杂因素需满足以下3个条件：

（1）必须与疾病相关，是疾病的危险因素；

（2）必须与暴露相关，即在暴露组间不均匀分布；

（3）不是暴露与结局因果链上的中间环节。

表 3 列举了既往以常见肌骨系统疾病为结局的观察性研究中常考虑的混杂因素。

在开展研究时，除了判断潜在混杂因素是否与暴露和疾病均相关，还应判断此因素的发生分别与暴露和疾病发生之间的时序关系来确定该因素是否需要校正。绘制因果有序无环图（DAGs）有助于研究者厘清暴露、结局与其他协变量（如混杂因素、中介变量和碰撞变量）之间内在关联，进而选择合适的混杂因素进行校正。

03 偏倚的识别与处理

观察性研究中常常出现的三大类偏倚为：选择偏倚、信息偏倚和混杂偏倚。

（a）选择偏倚：选择偏倚是指在观察性研究中，由于被选入到研究中的研究对象与未被选入的对象之间出现了某些特征的差异而产生的系统误差。选择偏倚有很多种类，常见的选择偏倚有入院率偏倚、检出症候偏倚、无应答偏倚、冲撞分层偏倚、永恒时间偏倚和现用者偏倚等。

（b）信息偏倚：信息偏倚是指在观察性研究实施过程中，由于测量暴露或结局的方法缺陷导致从研究对象获取的信息错误而产生的系统误差。信息偏倚主要包括回忆偏倚、调查偏倚和错分偏倚。研究者在进行研究设计，特别是数据收集方案设计时应严格做好质量控制，尽量采用客观指标，对调查员进行统一培训，对主观评价方法开展信效度的检验等方法避免信息偏倚。

（c）混杂偏倚：当研究者采用电子病历、电子健康档案或医保数据等真实世界数据开展观察性研究时，常见的混杂偏倚为适应证混杂和虚弱混杂。

04 样本量估算

样本量是在研究结论具有一定可靠性的前提下所需要的最小观测单位数。样本量不足时，抽样误差大，检验效能低，用于推断总体的精密度和准确度较差；样本量过大时，则会增加实际调查过程中的难度，造成人力、物力和财力的浪费。

样本含量的估算是一个比较复杂的问题，有三种估算方法：一是根据前人的研究结果总结经验或咨询同行专家，该方法较为粗略；二是根据已知的条件查阅样本例数估计表来确定样本含量，但该方法受到列表的限制；三是根据确定的条件代入专用公式计算，是最为常用的方法。实际应用中，研究者可根据研究设计选择不同的方法进行估算。

05 统计分析

（a）假设检验：目前公认的传统假设检验通常为差异性检验，即首先假设两个变量之间无差异，同时也有一个备择假设，即假设两个变量之间存在差异。如果数据能够提供反对无效假设的证据，那么这种假设即被拒绝而承认其备择假设。

值得注意的是，这种检验假设在临床试验中用于判断药物的疗效时是不合理的，它不能准确区分两种药物疗效差异的方向性和体现差异大小所揭示的临床实际意义。因此，国际上根据研究目的不同，在临床试验中普遍使用置信区间法以临床意义的差异 Δ 来进行非劣效、等效或优效性假设检验（图4）。

（b）统计分析方法选择：临床研究中的统计分析方法包括统计描述和统计推断。统计描述是对资料的数量特征及其分布规律进行测定和描述，统计推断则是由样本信息推断总体特征。临床研究数据类型主要分为计量、计数和等级数据等，不同类型的数据要合理选择相应的统计分析方法。

选择统计分析方法可按照以下思路进行：

①因变量是单变量、双变量还是多变量；

②结局指标属于三种数据类型中的哪一种（连续资料、分类资料或等级资料）；

③暴露因素为单因素还是多因素；

④样本分组为单样本、两样本或多样本；

⑤研究设计为独立设计还是配对或配伍设计；

⑥是否满足检验方法所需的前提条件。

经典统计分析方法如 t检验、方差分析、χ2检验等通常不涉及时间变量，而现代高级统计方法是经典统计分析方法的延伸和发展，表现在空间的广度和时间的深度上，如重复测量设计资料的分析、生存分析、判别分析等。

研究方案实施

一、研究伦理与知情同意

临床研究的对象是人，应当尊重受试者的自主意愿，遵循有益、不伤害、公正和保护隐私的原则，同时参照国家卫生健康委员会《涉及人的生物医学研究伦理审查办法》相关规定，经伦理审查委员会审批后方可开展研究，正式开始前还需按照“完全告知”的原则，由研究对象本人或其监护人签署知情同意。研究负责人在申请伦理审查时应当向伦理审查委员会提交以下材料：

（1）研究材料诚信承诺书；

（2）伦理审查申请表；

（3）研究人员信息、研究项目所涉及的相关机构的合法资质证明以及研究项目经费来源说明；

（4）研究项目方案、相关资料；

（5）受试者知情同意书或样本、信息的来源证明等；

（6）科学性论证意见；

（7）利益冲突声明；

（8）受试者招募广告及其发布形式；

（9）科研成果的发布形式说明；

（10）伦理审查委员会认为需要提交的其他相关材料。

经伦理审查委员会批准后的项目在实施前应当将项目相关信息、伦理审查意见和机构审核意见等按国家医学研究登记备案信息系统要求上传，并根据研究进展及时更新信息。若研究涉及基因、器官、组织等人类遗传资源，需按照有关管理条例提前报备。

二、现场数据收集

现场调查实施前应取得有关部门的支持；制订现场工作手册，内容主要包括课题研究的背景、研究的组织机构、研究目的、研究设计、研究的实施步骤、调查方法及调查问卷条目的解释等，用于指导现场工作的开展。

现场调查过程中需要的物品和设备应提前准备好，并在调查过程中注意校准，以减少系统误差。调查前准备工作完成后，则可进行预调查，充分动员调查对象。调查正式开始后，应规划好每天的工作量，在现场设立不同的功能分区，逐一核查研究对象是否完成研究项目，若有遗漏要及时补查。完成每天的调查工作后，还需要对当天的现场工作进行审查、总结，保证调查有序、高质量地完成。

病例报告表（CRF）是临床研究中数据收集的一种常用手段，在提高临床研究数据质量以及统计分析的质量和效率、方便数据的交流与汇总分析等方面发挥重要作用。目前临床数据获取协调标准（CDASH）被监管部门推荐作为CRF设计的基本标准，其组成部分包括CDASH模型、实施指南和相关元数据表。

CRF设计应由研究方案设计者、数据录入人员、统计分析人员、数据管理及质控人员、临床医师及伦理委员会等多方面人员参与，在设计中应注意遵循方案、内容完整，符合法规及相关标准，易于理解、有标准操作规程，简明扼要、避免重复、布局合理等。

三、质量控制与数据管理

质量控制是临床研究的一个关键环节。质量控制应在临床研究的研究设计阶段、数据收集阶段、结果评价阶段以及数据分析阶段的全过程中实施。

研究方案中应根据已有的知识，分析可能出现的影响研究精确性与真实性的问题，并针对各类问题制订详细的质量控制措施。另外，应尽量避免在研究开始后修改研究方案，如果必须修改方案应标注具体原因和时间。

研究数据收集完成后应安排专人负责管理，防止数据的丢失、泄露、破坏或误用等。纸质型数据需进行扫描和电子存档，与扫描电子数据完全核对一致后，将纸质型数据进行销毁；电子数据中的隐私数据需匿名化处理后保存；存放数据的计算机系统必须有全面、规范、严格的用户管理办法；数据管理负责人严格遵守数据备份要求，及时做好数据的备份工作。

四、数据分析结果解读

P 值是指从无效假设所规定的总体做随机抽样，获得等于及大于（或等于及小于）现有样本的检验统计量值的概率，被广泛用于临床研究数据分析结果解读，P<0.05成为差异具有统计学意义的判断标准。

然而，研究中常存在对P值解读错误或进行人为操纵、基于P值是否<0.05进行一刀切等问题，近年来对P<0.05 这一法则存在着种种质疑与批评。

研究人员进行临床研究数据分析结果解读时应避免追求单纯的“统计学”差异。例如，不能以

P<0.05来断定整个研究的结论，而应该综合研究设计、样本量大小与样本代表性、数据质量、统计分析方法等多维度来思考研究变量之间是否存在真实的关联；应关注效应点估计值与区间估计值（如95%CI）；研究的汇报结果应与临床实际相结合，譬如与具有临床显著性的最小差值进行比较，以辅助判断研究结论可能的临床或公共卫生意义。

研究报告撰写

一、随机对照试验

随机对照试验应该按照CONSORT声明进行报告撰写。该声明包含25个条目组成的清单和一个流程图。

清单对论文的标题摘要到讨论部分的写作进行了规定，并对试验注册、试验方案和资助情况的说明做出了要求。

流程图则要求研究者对研究对象的登记、分配、随访和分析阶段的流动情况以流程图的形式表现出来。

二、观察性研究

观察性研究应该按照 STROBE 声明进行报告撰写。STROBE 清单覆盖观察性研究的三种主要研究设计——横断面研究、病例对照研究和队列研究，包括标题和摘要、引言、方法、结果、讨论和其他信息六大部分共 22 个条目的撰写要求，以为更好地报告观察性研究提供指导。

综上，临床研究的研究设计、数据管理与质量控制应该渗透在整个临床研究过程中，数据收集、数据库搭建、数据录入、数据整理与数据分析方案制订等环节都极大影响了临床研究的质量。

肌骨系统疾病临床研究方法专家共识的制订有助于促进肌骨系统疾病临床研究规范化，保障临床研究的顺利开展，提升临床研究的质量，为我国肌骨系统疾病的临床研究和实践提供科学指导和帮助。

文献原文会放在Arth星球供大家免费下载

不定期分享各类学习资源

随时提问交流，扫码加入

来源：

中华医学会骨科学分会, 中国医师协会骨科医师分会, 国家老年疾病临床医学研究中心（湘雅医院）. 肌骨系统疾病临床研究方法专家共识[J]. 中华医学杂志, 2024, 104(23): 2123-2141. DOI: 10.3760/cma.j.cn112137-20231124-01181.

基金项目：国家重点研发计划(2022YFC3601900、2022YFC2505500)

通信作者：雷光华,中南大学湘雅医院骨科,国家老年疾病临床医学研究中心(湘雅医院),长沙 410008,Email: lei_guanghua@csu.edu.cn;张英泽,河北医科大学第三医院骨科，石家庄050051,Email: dryzzhang@126.com