OPINION
有临观点
BIOMETRICS
临床试验数据“四化”
(数字化/标准化/智能化/自动化)系列文章(七):
迈向智能临床数据管理:
数据清理自动化之路
临床试验有一条清晰的数据流,在数据采集之后,数据清理就接力成为下一个影响数据质量的关键环节,其核心目标就是确保临床研究数据的准确性和完整性,同时帮助减少研究成本、节省研究时间,从而加快药物审批过程。实现这些目标的一条重要思路就是减少数据清理过程中的人为因素,换言之,即实现数据清理的自动化。
01.
从手动到自动化:
数据清理的历史演变
尽管数据清理自动化是一贯的发展方向,但这一过程并非一蹴而就。从最初的完全手动操作到如今集成的自动化解决方案,临床数据清理经历了三个发展阶段:
向上滑动阅览
早期手动数据清理方法
在临床试验的早期阶段,数据记录主要依赖传统的纸质记录方式。为了确保数据的一致性和可比性,临床试验通常会设计一些标准化的纸质表格,例如病例报告表(Case Report Form, CRF)。一旦纸质记录完成,研究人员需要将这些数据手动输入到计算机系统中。这是一个耗时且容易出错的过程,由此,双人录入、逐行检查、交叉核查等方法应用到数据清理中来。在发现数据疑问的时候,质疑会被记录在《数据澄清表》中,发送给研究者回复与澄清。在纸质记录的时代,虽然数据清理方式相对原始,但这些做法为后续方法的迭代打下了基础。并且正由于手动录入和清理的弊端过于显著,催生了自动化清理工具以及电子数据采集(Electronic Data Capture, EDC)系统的诞生和发展,从而开启了数据清理自动化的历程。
初级自动化工具与技术
在临床数据清理的早期发展阶段,初级自动化工具和技术开始逐渐取代完全手动的操作,提高了数据处理的效率和准确性。例如,开始使用Excel等电子表格软件强大的数据验证功能、数据筛选和排序功能、数据透视表的汇总分析功能进行数据清理,而且直到现在这些工具仍是数据管理员(Data Manager, DM)最常用的工具。数据库管理系统(如Microsoft Access)在初级自动化阶段提供了结构化的数据存储方式,帮助创建表格来存储不同类型的数据,并在一定程度上确保数据的一致性。此外,Excel和Access等应用程序支持使用VBA(Visual Basic for Applications)编写宏,通过编写脚本来自动化执行一系列数据清理任务。
图1 使用Visual Basic执行临床意义判断是否符合逻辑的核查
EDC系统的出现与发展
20世纪90年代末,随着信息技术的发展,特别是互联网技术的进步,EDC系统开始逐渐普及。EDC系统通过定制的界面简化了数据录入过程,而且用户可以在任何有互联网连接的地方输入数据,减少了地理限制。与传统的手动数据清理相比,EDC系统在数据录入过程中实时进行数据验证,减少了后期的数据清理工作量。EDC系统还提供了集中式的数据管理平台,可以跟踪数据的状态,从而确保数据的完整性和一致性。
02.
当代数据清理自动化技术
尽管初级自动化工具和EDC的出现在一定程度上提高了数据清理的效率,但它们仍然存在局限性,尤其是在处理大规模复杂数据集时。随着技术的不断进步,数据清理自动化技术持续发展,它们不仅克服了传统方法的不足,还结合了数据标准化,引入了新的功能和工具,进一步提升了数据清理的效果和效率。
向上滑动阅览
03.
面向未来的自动化
不可否认,到目前为止,对于数据管理部门而言,大部分临床数据核查已经在以自动或半自动的方式进行,但是仍有相当比例的数据依赖人工核查,这种情况往往发生在一些初级程序手段无法覆盖的复杂逻辑和需要高度一致性的场景中。例如,病史记录为持续状态的疾病不应记为不良事件,除非严重程度增加;首次研究用药后,实验室检查开始出现异常,研究者判断有临床意义(CS),但未记录不良事件(AE)或记录的开始日期与实验室异常的日期不一致;已记录由于某AE对研究药物采取的措施为剂量下调,但给药表没有剂量下调的记录,等等。在一个复杂程度较高的临床试验中,类似的人工审核可达几十条甚至上百条。对于此类可以用清晰的逻辑语言进行描述的核查,未必不能使用程序的手段,但那就意味着DM需要维护一个工具库并根据不同的核查目的分别调用不同的程序用于核查。考虑到数据录入相对于数据产生不可避免有一定的滞后性以及各部门数据审核的周期性特征,往往从数据产生到相对清洁可供使用总是要经历一个过程,因此在研究进行过程中无法实时获取清洁数据和报告常常成为被吐槽的对象。
然而近年来,随着人工智能(AI)和机器学习的发展,人们对于数据清理自动化生发出新的期待。毕竟在这个张嘴就能召唤Siri,出门可见萝卜快跑,诺贝尔物理学奖和化学奖均花落人工智能科学家的时代,万物皆可AI几乎成为一种信念。在临床试验数据清理这个具体领域,自然语言处理(NLP)技术可识别和处理非结构化数据,如医生笔记、患者访谈记录,将原始数据转换为符合CDISC标准的数据格式。建立算法,生成AI自动挖掘的不良事件(AE)和合并用药(CM)结果,与已录入EDC的AE和CM进行比对的实践已见于研究机构对药物临床试验的质控中,且反映出AI质控相较于传统质控具有显著的成本优势。
不过,技术向生产力的转化往往并非一帆风顺,这正是目前技术虽有发展但行业整体的生产效率未见显著提高的现状。根据技术采用生命周期理论,新技术的扩散会经历从创新者到早期采用者再到晚期多数和落后者的扩散过程。在这个过程中,跨越鸿沟(即从早期采用者到早期多数用户的转变)是最具挑战性的一步。新技术往往需要经过一段时间的研发和测试才能达到可商用的状态。在这个阶段,技术可能存在可靠性不足、成本过高或者性能不稳定等问题。技术转化还需要相应的资源配置,包括资金、人才和法规政策支持、使用者内部流程支持等。
跨越鸿沟也并不意味着人的因素的全面撤出。每个临床试验都有其特定的目标和设计,这意味着数据清理的过程可能需要根据试验的具体情况进行调整。这要求有一定的灵活性,而这种灵活性有时是现有的AI技术所不能提供的。临床试验的数据复杂性较高,数据来源多样,且数据质量往往参差不齐,虽然AI可以帮助识别这些问题,但在某些情况下,仍然需要人类专家来确认和纠正。数据清理也不仅仅是简单的数据分析,它还涉及到医学、统计学等多个领域的专业知识,虽然AI可以辅助分析,但它并不能替代人类专家的专业判断。
面向未来的自动化之路,并不是用技术全面替代人力的道路,而是人能够清楚地知道什么是可以交给技术的,什么是人类掌握的。在“要”与“不要”之间保持一种清醒的认知。
参考文献:
[1] 赵淑华,梅昀,艾杰,傅志英,袁延楠,江旻.人工智能在药物临床试验质控中的应用与探索[J].中国新药杂志, 2022,31(19):1909-1913.
[2] 陈君超,刘红霞,何迎春,郑青山.临床数据管理的图形化检视方法[J].药学学报,2015,50(11):1456-1460.
[3] 孙周兴.海德格尔与技术命运论[J].世界哲学,2020,(05):77-88.
[4] 埃弗雷特·M·罗杰斯.创新的扩散[M].北京:中央编译出版社.2002.
撰写:徐冠群
审核:张荔 张子豹
如您有任何需要咨询的问题
欢迎扫码或致电咨询
TEL: 021-56321338
E-mail: bd@union-laboratory.com
www.union-laboratory.com
有临来雅
上海有临医药子公司,成立于 2019 年,致力于给国内外创新药、疫苗与医疗器械企业提供临床试验统计咨询、试验设计、数据管理统计分析与编程等多方面专业服务。团队由数十位来自国内外知名药企和临床 CRO,拥有平均十年左右行业经验的核心技术人员及专家构成。洞悉行业政策及标准,以客户需求为导向,不断优化迭代形成最佳实践和服务模式。适应不同业务需求,开创灵活创新的合作模式: 包括数统全方位大包服务、业务流程外包(FSP)、战略合作、专家咨询与培训、监督管理及人员外派。为客户降本增效,加速新药研发与上市进程。
有临来雅是CDISC企业会员,可充分利用CDISC提供的企业会员资源更好地支持我们的客户。
数据科学服务
更多精彩推荐
欢迎关注“有临医药”订阅号
收获更多价值资讯!