迈向智能临床数据管理:数据清理自动化之路

文摘   健康   2024-11-11 17:30   上海  

OPINION

有临观点

BIOMETRICS



临床试验数据“四化”

(数字化/标准化/智能化/自动化)系列文章(七):

 迈向智能临床数据管理:

数据清理自动化之路


临床试验有一条清晰的数据流,在数据采集之后,数据清理就接力成为下一个影响数据质量的关键环节,其核心目标就是确保临床研究数据的准确性和完整性,同时帮助减少研究成本、节省研究时间,从而加快药物审批过程。实现这些目标的一条重要思路就是减少数据清理过程中的人为因素,换言之,即实现数据清理的自动化。



01.



从手动到自动化:

数据清理的历史演变


尽管数据清理自动化是一贯的发展方向,但这一过程并非一蹴而就。从最初的完全手动操作到如今集成的自动化解决方案,临床数据清理经历了三个发展阶段:



向上滑动阅览


早期手动数据清理方法


在临床试验的早期阶段,数据记录主要依赖传统的纸质记录方式。为了确保数据的一致性和可比性,临床试验通常会设计一些标准化的纸质表格,例如病例报告表(Case Report Form, CRF)。一旦纸质记录完成,研究人员需要将这些数据手动输入到计算机系统中。这是一个耗时且容易出错的过程,由此,双人录入、逐行检查、交叉核查等方法应用到数据清理中来。在发现数据疑问的时候,质疑会被记录在《数据澄清表》中,发送给研究者回复与澄清。在纸质记录的时代,虽然数据清理方式相对原始,但这些做法为后续方法的迭代打下了基础。并且正由于手动录入和清理的弊端过于显著,催生了自动化清理工具以及电子数据采集(Electronic Data Capture, EDC)系统的诞生和发展,从而开启了数据清理自动化的历程。


初级自动化工具与技术


在临床数据清理的早期发展阶段,初级自动化工具和技术开始逐渐取代完全手动的操作,提高了数据处理的效率和准确性。例如,开始使用Excel等电子表格软件强大的数据验证功能、数据筛选和排序功能、数据透视表的汇总分析功能进行数据清理,而且直到现在这些工具仍是数据管理员(Data Manager, DM)最常用的工具。数据库管理系统(如Microsoft Access)在初级自动化阶段提供了结构化的数据存储方式,帮助创建表格来存储不同类型的数据,并在一定程度上确保数据的一致性。此外,Excel和Access等应用程序支持使用VBA(Visual Basic for Applications)编写宏,通过编写脚本来自动化执行一系列数据清理任务。

图1 使用Visual Basic执行临床意义判断是否符合逻辑的核查


EDC系统的出现与发展


20世纪90年代末,随着信息技术的发展,特别是互联网技术的进步,EDC系统开始逐渐普及。EDC系统通过定制的界面简化了数据录入过程,而且用户可以在任何有互联网连接的地方输入数据,减少了地理限制。与传统的手动数据清理相比,EDC系统在数据录入过程中实时进行数据验证,减少了后期的数据清理工作量。EDC系统还提供了集中式的数据管理平台,可以跟踪数据的状态,从而确保数据的完整性和一致性。






02.



当代数据清理自动化技术


尽管初级自动化工具和EDC的出现在一定程度上提高了数据清理的效率,但它们仍然存在局限性,尤其是在处理大规模复杂数据集时。随着技术的不断进步,数据清理自动化技术持续发展,它们不仅克服了传统方法的不足,还结合了数据标准化,引入了新的功能和工具,进一步提升了数据清理的效果和效率。



向上滑动阅览


逻辑核查与SAS程序核查


逻辑核查与SAS程序核查是当代数据管理员最常使用的核查方式。众所周知,EDC的逻辑核查功能在数据的初步核查中发挥了不可或缺的作用。然而,并不是所有类型的数据核查都可以依赖EDC来实现。对于某些复杂的、定制化的核查需求,EDC可能无法提供足够的灵活性。比如部分跨表的复杂逻辑或涉及到多个数据集之间的交叉校验,而多个数据集暂时无法集成,这就需要更强大的编程能力。在众多的程序核查手段中,SAS(Statistical Analysis System)因其可追溯性以及在提高数据质量、加快处理速度、确保流程标准化等方面的突出优势,在临床数据清理中发挥着重要的作用。


图2 使用SAS PR执行肿瘤评估日期的跨表核查


数据可视化


面对海量的临床数据,即使采用了电子病例报告表(eCRF),审阅者依然需要逐个表单查阅才能获取受试者整体数据。这种方法费时费力,并且容易错过数据中的异常点和潜在趋势。数据可视化正是应对这一痛点而生。例如通过箱形图、散点图能快速识别出离群点或异常值,通过频数分布直方图显示变量的分布情况,帮助识别数据是否符合预期的分布形式,通过瀑布图直观反映临床终点疗效评估等。数据可视化提供了不需要逐行检查代码就能概览数据的直观方式,使数据质量问题更容易被发现,并可帮助快速识别趋势,因而可以支持更快的决策制定。近年来,支持数据可视化的工具软件越来越丰富,同时,日益强大的各EDC系统也可支持自带数据可视化功能的扩展,其便利化和普及化必将显著提升临床试验的质量和效率。


图3 疗效评估瀑布图


数据标准化对自动化清理的加持


在临床研究数据采集和递交的系列工作中,CDISC(the Clinical Data Interchange Standards Consortium,临床数据交换标准协会)标准无疑是一块基石。它定义了统一的数据结构和命名规范,从而确保了同一项目中不同数据库,以及不同研究项目中的数据的一致性。从数据清理的角度来说,这意味着不同数据库中的数据对接更为顺畅,而且为不同目的所编写的核查程序在一定程度上可以实现复用,从而降低了清理的人力和时间成本,提升了数据清理的整体效率。不仅如此,基于CDISC标准建立标准数据库,预设基本的逻辑核查,即意味着使用该标准数据库的项目均可实现基本逻辑核查的自动化设置。





03.



面向未来的自动化


不可否认,到目前为止,对于数据管理部门而言,大部分临床数据核查已经在以自动或半自动的方式进行,但是仍有相当比例的数据依赖人工核查这种情况往往发生在一些初级程序手段无法覆盖的复杂逻辑和需要高度一致性的场景中。例如,病史记录为持续状态的疾病不应记为不良事件,除非严重程度增加;首次研究用药后,实验室检查开始出现异常,研究者判断有临床意义(CS),但未记录不良事件(AE)或记录的开始日期与实验室异常的日期不一致;已记录由于某AE对研究药物采取的措施为剂量下调,但给药表没有剂量下调的记录,等等。在一个复杂程度较高的临床试验中,类似的人工审核可达几十条甚至上百条。对于此类可以用清晰的逻辑语言进行描述的核查,未必不能使用程序的手段,但那就意味着DM需要维护一个工具库并根据不同的核查目的分别调用不同的程序用于核查。考虑到数据录入相对于数据产生不可避免有一定的滞后性以及各部门数据审核的周期性特征,往往从数据产生到相对清洁可供使用总是要经历一个过程,因此在研究进行过程中无法实时获取清洁数据和报告常常成为被吐槽的对象。


然而近年来,随着人工智能(AI)和机器学习的发展,人们对于数据清理自动化生发出新的期待。毕竟在这个张嘴就能召唤Siri,出门可见萝卜快跑,诺贝尔物理学奖和化学奖均花落人工智能科学家的时代,万物皆可AI几乎成为一种信念。在临床试验数据清理这个具体领域,自然语言处理(NLP)技术可识别和处理非结构化数据,如医生笔记、患者访谈记录,将原始数据转换为符合CDISC标准的数据格式。建立算法,生成AI自动挖掘的不良事件(AE)和合并用药(CM)结果,与已录入EDC的AE和CM进行比对的实践已见于研究机构对药物临床试验的质控中,且反映出AI质控相较于传统质控具有显著的成本优势。


不过,技术向生产力的转化往往并非一帆风顺,这正是目前技术虽有发展但行业整体的生产效率未见显著提高的现状。根据技术采用生命周期理论,新技术的扩散会经历从创新者到早期采用者再到晚期多数和落后者的扩散过程。在这个过程中,跨越鸿沟(即从早期采用者到早期多数用户的转变)是最具挑战性的一步。新技术往往需要经过一段时间的研发和测试才能达到可商用的状态。在这个阶段,技术可能存在可靠性不足、成本过高或者性能不稳定等问题。技术转化还需要相应的资源配置,包括资金、人才和法规政策支持、使用者内部流程支持等。


跨越鸿沟也并不意味着人的因素的全面撤出。每个临床试验都有其特定的目标和设计,这意味着数据清理的过程可能需要根据试验的具体情况进行调整。这要求有一定的灵活性,而这种灵活性有时是现有的AI技术所不能提供的。临床试验的数据复杂性较高,数据来源多样,且数据质量往往参差不齐,虽然AI可以帮助识别这些问题,但在某些情况下,仍然需要人类专家来确认和纠正。数据清理也不仅仅是简单的数据分析,它还涉及到医学、统计学等多个领域的专业知识,虽然AI可以辅助分析,但它并不能替代人类专家的专业判断。


面向未来的自动化之路,并不是用技术全面替代人力的道路,而是人能够清楚地知道什么是可以交给技术的,什么是人类掌握的。在“要”与“不要”之间保持一种清醒的认知。



参考文献:

[1] 赵淑华,梅昀,艾杰,傅志英,袁延楠,江旻.人工智能在药物临床试验质控中的应用与探索[J].中国新药杂志, 2022,31(19):1909-1913.

[2] 陈君超,刘红霞,何迎春,郑青山.临床数据管理的图形化检视方法[J].药学学报,2015,50(11):1456-1460.

[3] 孙周兴.海德格尔与技术命运论[J].世界哲学,2020,(05):77-88.

[4] 埃弗雷特·M·罗杰斯.创新的扩散[M].北京:中央编译出版社.2002.


撰写:徐冠群

审核:张荔 张子豹




如您有任何需要咨询的问题

欢迎扫码或致电咨询




TEL: 021-56321338

E-mail: bd@union-laboratory.com

www.union-laboratory.com





有临来雅


上海有临医药子公司,成立于 2019 年,致力于给国内外创新药、疫苗与医疗器械企业提供临床试验统计咨询、试验设计、数据管理统计分析与编程等多方面专业服务。团队由数十位来自国内外知名药企和临床 CRO,拥有平均十年左右行业经验的核心技术人员及专家构成。洞悉行业政策及标准,以客户需求为导向,不断优化迭代形成最佳实践和服务模式。适应不同业务需求,开创灵活创新的合作模式: 包括数统全方位大包服务、业务流程外包(FSP)、战略合作、专家咨询与培训、监督管理及人员外派。为客户降本增效,加速新药研发与上市进程。


有临来雅是CDISC企业会员,可充分利用CDISC提供的企业会员资源更好地支持我们的客户。



数据科学服务



有临来雅数据科学团队建立以CDISC国际数据标准为基础的数据格式、以FDA和NMPA主流数据指导原则为准则的数据管理流程,为医药企业提供差异化与定制化的服务。有临医药引入国际先进技术水平的电子数据采集系统:TrialMaster,配备使用国内云端服务器,进行有临本地化部署,使系统更符合中国临床研究的实操需求,从而有效地减少临床试验的时间和成本,为客户创造价值。

数据科学管理团队具有国内外知名药企和CRO的管理经验,平均超过10年行业经验。整体数据管理团队平均超过5年行业经验,具有丰富的国内外临床试验的数据管理经验。整体数据库团队平均拥有近7年行业经验,可熟练操作国内外各类临床数据管理系统。数据管理和数据库编程工作遵循国内外法规要求,可支持除常规数据处理以外中期分析等数据处理的要求,无缝衔接源数据和统计分析,满足项目各类数据实时需求。



更多精彩推荐




欢迎关注“有临医药”订阅号

收获更多价值资讯!




向上滑动 阅读全文

关于有临医药

上海有临医药科技有限公司成立于2017年,创始团队具有新药从早期研发到商业化全链条运作经验,能够从临床需求出发,站在申办方视角,规划整合资源,帮助客户成功。有临医药秉持“为新药临床提速度,为万千患者谋新生”的使命,致力于成为肿瘤新药临床试验首选合作伙伴。目前团队500+人,分布于全国超100个城市,已为200多项新药临床试验提供CRO和SMO服务。


·专注新药临床试验

做具有临床价值、患者需求的创新药

专注肿瘤传染/感染自身免疫代谢/心血管神经领域新药临床试验


·广泛使用数字化系统和工具

开发引进数字化系统、工具和方法,加速新药上市进程;深化与研究中心的合作,从源头上提升临床试验运营效率


·具有全过程一体化服务能力

为申办方提供从策略到执行的端到端全过程服务;为临床研究中心提供数字化系统和专属CRC团队


有临医药
聚焦肿瘤、感染、自身免疫领域新药临床试验,旨在为新药临床提速度,为万千患者谋新生。
 最新文章