WXRedian | 文亮频道 | 人工智能（AI）辅助检测医疗器械（软件）临床评价注册审查指导原则

本指导原则旨在指导注册申请人开展人工智能（artificial intelligence，AI）辅助检测类医疗器械临床评价的资料准备，同时为技术审评部门审评人工智能辅助检测类产品临床评价资料提供参考。

本指导原则进一步明确人工智能辅助检测类医疗器械临床评价的要求和适用情形。申请人可依据产品的具体特征确定其中内容是否适用，若不适用，需阐述理由并提供相应的科学依据，并依据产品的具体特征对临床评价资料的内容进行充实和细化。

本指导原则是供注册申请人和技术审评人员使用的指导性文件，但不包括审评审批所涉及的行政事项，亦不作为法规强制执行，应在遵循相关法规的前提下使用本指导原则。如果有能够满足相关法规要求的其他方法，也可以采用，但是需要提供详细的合理性论述和验证确认资料。

本指导原则是在现行法规和标准体系以及当前认知水平下制定，随着法规和标准的不断完善，以及科学技术的不断发展，相关内容也将适时进行调整。

一、适用范围

人工智能医疗器械从与预期用途角度可分为辅助决策类和非辅助决策类。其中，辅助决策是指通过提供诊疗活动建议辅助医务人员进行临床决策，如通过异常识别、自动制定手术计划进行辅助分诊、辅助检测、辅助诊断、辅助治疗等。

人工智能辅助检测产品，是指基于计算机人工智能算法，可包含模式识别和数据分析等功能，通过识别、标记、突出等方式提示医师关注可能的异常/病变区域，从而辅助临床医师做出相应诊疗决策的产品，可为独立软件或嵌入式软件；分类编码为21-04-02，管理类别为第III类；产品还可同时包含非辅助决策功能，如结构化报告生成、前后图像对比、正常解剖组织的分割（如肺叶、肋骨等）、尺寸测量、CT值测量等临床功能和数据储存、传输等非临床功能。人工智能辅助检测产品常见的有针对肺结节、乳腺结节、骨折、血管狭窄、结肠息肉等病变/异常的检出产品，本指导原则给出此类产品的通用要求，并以肺结节辅助检测和结肠息肉辅助检测产品为例（详见附件），阐述对人工智能辅助检测产品的临床试验中具体要素的考虑建议，同类型产品可参考相关适用部分。

本指导原则不适用于如下情形（但下述产品可参照本指导原则中适用部分的要求）：

1.可鉴别病变的性质（如良恶性）或疾病分期分型的人工智能辅助诊断类产品；

2.预测疾病发生概率的产品；

3.可同时辅助检测、鉴别诊断多种病变的多分类人工智能辅助检测产品（例如同时辅助检测并分类肺结节、条索、胸膜增厚、胸腔积液、肋骨骨折等的产品）；

4.人工智能辅助分诊、转诊产品，此类产品通过初步评估患者是否疑似患有目标疾病，从而对患者的分诊转诊提供辅助决策建议，该类产品不给出具体病变情况，且无论辅助分诊结果为阴性、阳性，均需专业医师再一次对患者影像进行评阅，常见的有糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等；

5. 配合体外诊断试剂产品使用的人工智能辅助分析软件。

二、临床试验设计

（一）临床试验目的

临床试验目的一般是评价申报产品在预期适用范围下使用时辅助检测的诊断学性能，亦可一并观察产品的可用性与安全性。

（二）临床试验基本设计类型

人工智能辅助检测类产品的临床意义通常在于提升医师的病变检测准确度，为充分评估产品的临床受益风险可接受性，此类产品一般需考虑开展对照试验，根据产品特征及临床诊疗实际，可以为随机平行对照、交叉自身对照或多阅片者多数据样本（multiple reader multiple case，MRMC）试验设计。

试验组一般为医师在软件的辅助下完成异常/病变的检测，对照组一般为临床医师独立的异常/病变的检测，比较二者的检测准确度。

（三）研究对象

1．适用人群的影像学样本

预期人群的影像学样本是人工智能辅助检测产品临床试验的典型研究对象，影像学样本需基于定义明确的入选和排除标准收集，可为临床已有数据（如临床诊疗中产生的真实世界数据）。考虑到AI与医师观察、操作的协同交互等因素，基于实时影像的辅助检测产品临床试验，推荐考虑前瞻性采集影像检查，作为临床试验研究对象。

为了保证临床试验质量以及结果的可靠性，选取研究对象时，申请人需考虑如下措施：一是纳入数据样本独立于申报产品或前代产品开发所用数据集，如申报产品或前代产品的训练集、测试集。二是采用临床已有数据进行研究时，需基于明确且严格的入排标准和临床试验计划，连续收集过往某段时间内、特定医疗机构内患者影像学数据，避免主观挑选病例。三是考虑阳性样本中，目标疾病的疾病谱分布（如分型、分期）合理性，某些对辅助检测具有挑战性的分期、分型，必要时在临床试验中富集相关具有代表性的亚组。四是通常情况下，需避免在一项临床试验中同时入组同一患者同一目标部位的多组样本数据。五是临床已有数据收集时，需尽可能全面的收集与疾病相关的信息（适用的），具体包括但不限于：

（1）人口统计学信息(如年龄、性别);

（2）与辅助检测目标疾病相关的信息，如病史、疾病状态、分期、分型、病变大小、病变位置、器官特征(如乳腺腺体分型)、伴随疾病等。

（3）确定为阳性/阴性病例的依据，如既往诊断结论，以及确定疾病状态、部位和程度的方法。

2.阅片者

由于阅片者表现的变异度及其与患者样本变异度和诊断方法（即AI辅助器械）之间的交互效应，一般情况下宜将阅片者列入研究对象。基于非实时影像的辅助检测产品（如肺结节/骨折/乳腺结节辅助检测等），采用MRMC设计可较好的控制阅片者偏倚，同等情况下所需的样本量一般较少，申请人可优先考虑选择。采用MRMC设计时，根据预期的使用者情况，选取不同年资的多位医师作为阅片者，申请人需论述阅片者数量的合理性。

（四）评价指标

主要评价指标应结合产品设计特征进行综合选择，一般认为灵敏度、特异度、ROC或其衍生曲线等诊断准确性指标受样本患病率差异的影响较小，因此，宜优先考虑此类指标作为主要评价指标。

无论选择哪些指标作为主要评价指标，该类产品临床试验应当考虑整体的优效性设计，例如ROC或其衍生曲线下面积（Area Under Curve，AUC）的优效设计，或者目标疾病辅助检测特异度非劣效前提下的灵敏度优效性，或者息肉/腺瘤初检检出率的优效性等。

（五）临床参考标准构建

申请人应详述临床参考标准的选择、构建方法及理由。可供选择的临床参考标准构建方法包括：一是以临床已确认结果为临床参考标准，即临床上结合患者影像学检查、病史、实验室检查（如病理检查）、长期随访结果等方法综合判定的临床诊断结果；二是通过专家组对研究对象（影像样本）的阅片判定作为临床参考标准。

对于人工智能辅助检测产品，若根据产品设计判定可采用专家组意见作为临床参考标准，通常可选择高年资医师组成的阅片专家组综合意见为临床参考标准，阅片专家组的成员需独立于“试验和对照组的阅片研究者”，并需要明确：1.专家数量；2.专家经验及专业水平；3.决策机制（如遵循多数意见、背靠背第三人仲裁等）；4.专家决策时所依据的信息（如图像上是否有标记，是否还提供了病史或其他检查结果等）；5.判定所依据的临床准则（如临床指南、诊疗规范、专家共识等）。

对于试验中对病灶的检出是否与临床参考标准专家组意见一致，一般可考虑1.试验组/对照组勾画病灶的中心在专家组勾画的病灶轮廓边界范围内；2.试验组/对照组勾画病灶与专家组勾画病灶的像素重合度高于一定比例（需提供比例设定的支持依据）；若采用其他判定方法，则需论述合理性。

若采用临床已确认结果作为临床参考标准，则需明确1.已确认结果所依据的临床信息，包括检查类型及结果；2.各类影像学检查的设备信息，包括影像检查的扫描条件等；3. 已确认结果的临床诊断依据；4.得出已确认结果的医师情况，包括专家会诊，需明确医师资质；5.若还依据了临床随访数据，则还需明确随访的时间以及随访所做的检查类型及结果。

（六）样本量估算与统计分析

样本量估算需综合考虑临床试验设计、主要评价指标和统计学要求。申请人需明确计算公式、相应参数及确定理由，以及所用的统计软件。

临床试验资料中可以提供样本患病率以及目标疾病的流行病学研究的患病率情况进行合理性论述，并确保临床研究设计中样本数据随机分配给阅片者进行评阅。

平行对照试验样本量计算可参考《医疗器械临床试验设计指导原则》中的相关内容。

若采用MRMC的试验设计，样本量计算需首先明确具体的分析方法，如Obuchowski-Rockette Analysis（OR分析方法）、Dorfman-Berbaum-Metz-Hillis Analysis（DBMH分析法），并进一步明确受试医师数量，检验水准α、检验效能1-β、预计效应值，优效/非劣效界值，其中预计效应值可通过预试验或调研并汇总分析目标病灶检出的诊断学研究文献获得，优效/非劣效界值应通过同品种产品临床试验结果或权威文献研究等确定。不同疾病的检测效应不同，在试验设计中应明确优效/非劣效界值的设定依据。以DBMH分析法为例，样本量估算与交互随机效应值，检验的检验效能、检验水准，受试医师数量，优效界值，非劣效界值（如有）等要素有关。用于样本量估算的效应值（effect size）选择时，可通过预试验得到的误差和混合效应方差来估计，并考虑预试验样本量等情况，在预试验结果的基础上采用适度保守的估计。

所有应用了试验产品的受试医师和患者都将被纳入分析，对于主要指标，除给出主要评价指标（灵敏度、特异度、AUC）的点估计外，还将分别对其对应的95%置信区间进行估计，通过试验组与对照组的优效/非劣效比较判断本试验产品是否满足临床应用的需要。

（七）其他临床试验设计需关注的问题

1.临床试验培训

在试验前对阅片者开展必要的培训，可以有效降低试验的偏倚。除基本情况培训（试验流程、术语定义、数据样本阅片的评价标准等）以外，还需考虑案例培训和典型数据样本讲解等，且所用案例独立于试验研究数据样本；培训中宜设置阅片者培训结果测试及合格接受标准；建议临床试验中，对阅片者的培训与临床应用时的培训，在方法、时间、接受标准上尽量保持一致性；并考虑对临床试验阅片者资质、能力等要求与临床应用时使用者情况的匹配性。对专家组的培训时间和接受标准宜显著高于试验组/对照组的阅片者的培训时间和接受标准。

2.影像样本评阅质量控制

一是由阅片者在独立盲法条件下对患者关于试验的影像检测结果进行解释。二是在选取试验阅片者时基于其专业能力和参与研究的可能性，充分保证阅片者对预期使用者的代表性。可考虑不同医疗机构来源、不同年资/专业水平的医师。三是将数据样本的临床诊断结果、临床参考标准判定结果、其他诊断信息（如生化检测结果、后续治疗等）或基本信息（如年龄、病史等）对试验的阅片者设盲。四是对照试验可考虑采用交叉阅片设计，交叉设计中可根据相关领域记忆曲线的研究设置合理的洗脱期。若采用多阅片者，最好每位阅片者按照不同的数据样本顺序进行评阅，有文献报道典型的洗脱期一般为4~6周。是否采用交叉设计可根据申报产品的临床应用方法、场景及适用范围等综合判定。

三、产品中非辅助决策临床功能的评价

人工智能辅助检测医疗器械产品还可能包括结构化报告生成、前后图像对比、正常解剖组织的分割（如肺叶、肋骨等）、流程优化、尺寸测量（包括大小、体积等）、CT值测量等非辅助决策类软件功能，可在临床试验中设置次要评价指标用于评价这些功能的安全有效性，亦可根据《医疗器械临床评价技术指导原则》提交相应临床评价资料。若提交临床评价，上述功能的验证确认可以考虑测试集测试、压力测试、对抗测试、质量良好的数据库测试结果中的一种或几种作为临床评价的支持证据；若在临床试验中设置次要指标，指标一般采用临床上对功能准确性评价的临床参考标准或学术上常用的方法，如分割的准确性考虑，与医师的分割结果的分割一致性Dice相似系数（Dice similarity coefficient）等；配准功能可考虑标志点配准误差(Fiducial Registration Error)、目标配准误差（target registration error）、标志点定位误差(Fiducial Localization Error)等。

四、与临床评价相关的说明书内容

说明书中一般需结合临床与非临床资料给出下列适用的信息：

1）临床试验总结；

2）适用范围；

3）数据采集设备和数据采集过程相关要求等。临床试验总结通常考虑临床数据基本信息、评价指标与结果（必要时含亚组结果）。人工智能辅助检测类产品的适用范围需明确辅助检测适应症（如肺结节、骨折），所基于的影像类型（如胸部CT或结肠镜检查影像），产品其他主要功能（如影像的显示、处理、测量和分析），以及产品临床定位（不能单独用作临床诊疗决策依据）等。

建议申请人根据产品实际情况在说明书中体现如下方面的警告注意事项。

1)软件仅辅助医师进行病灶检测，存在假阴/阳性可能，应由专业医师结合患者的病史、症状、体征、其他检查结果情况综合给出最终的病灶检出结论，核实是否需要进一步诊疗的决策，并对临床诊断结果负责。

2) 产品依据YYYY年版指南（例如《胸部CT肺结节数据标注与质量控制专家共识（2018）》）设计，如诊疗指南有所更新，使用者应充分评估指南差异可能带来的风险。

3）明确产品临床试验中未对病灶边界分割的准确性进行评价，如依据软件的检测结果决定手术干预或穿刺活检，医师应当充分评估其风险。

质量标准建立讨论群建设中，供同行一起交流，主题为与新药质量研究与质量标准建立的相关讨论。加之前请添加助手微信： BeyondSelf_0001，邀请入群。