麻省总医院(Mass General Brigham)的研究人员发现,像ChatGPT这样的人工智能软件可以帮助加快筛查过程,找到符合临床试验条件的患者——不过他们提醒需要额外的安全措施。
研究人员使用OpenAI GPT-4程序,发现定制的生成式人工智能应用能够快速浏览电子病历中的患者笔记,准确识别出符合心力衰竭研究标准的患者。
这项名为COPILOT-HF的试验旨在确定虚拟诊所方法是否可以远程指导更多患者采用指南推荐的心力衰竭药物治疗方案。研究人员设计了13个提示,帮助程序根据患者的病历数据判断其是否符合入组条件。
在测试1,894名患者时,平均每人有120条书面笔记,人工智能程序的准确率在97.9%到100%之间,与专家临床医生的结论相当。相比之下,受训但未持证的研究工作人员手动审查的准确率在91.7%到100%之间。
研究人员还指出,人工智能审查的平均成本为每位患者11美分,而传统手动筛查方法的成本要高出几个数量级,年成本可达到数万美金,并且根据研究类型和阶段的不同有很大差异。
“参与者筛查是临床试验中最耗时、最费力且最容易出错的任务之一,”麻省总医院临床信息学研究员、该研究的共同作者Ozan Unlu说。这项研究的结果本周早些时候发表在《新英格兰医学杂志》的人工智能专刊上。
然而,研究人员指出,使用人工智能可能带来一些风险——例如引入或强化种族或民族偏见,或遗漏医生笔记中的细微差别。他们表示,应在日常操作中包含人工智能的使用后,进行密切监控和人工复查。
“我们发现大语言模型有可能从根本上改善临床试验筛查,”麻省总医院个性化医学信息技术和人工智能解决方案执行主任、该研究的资深共同作者Samuel Aronson说。“现在,艰难的工作开始了,即确定如何将这种能力整合到现实世界的试验工作流程中,以同时提高有效性、安全性和公平性。”