颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展,整理全球学术期刊中的前沿论文,帮助读者洞悉热门领域的最新趋势和突破。
在大型语言模型(LLMs)的医疗应用研究中,高质量的医疗数据在模型训练和推理过程中扮演着关键角色。本期我们聚焦LLMs在医疗领域研发与应用中的数据相关挑战和创新方向,研究内容包括LLM嵌入与原始数据在医疗数值处理中的效能对比,合成数据在训练集扩充和隐私保护中的应用,统一医疗数据标准对数据质量和模型泛化的影响,以及支持LLM大规模应用的医疗数据基础设施建设等。
期待与您共同探索大模型和医学人工智能领域的前沿科研成果。
01
The Role of Health Data Utilities in Supporting Health AI
◎ 标题:健康数据基础设施在支持医疗人工智能中的作用
◎ 摘要:人工智能在医疗领域的新发展为改善临床服务、医疗管理和公共卫生带来了巨大潜力,有望提升整体健康成果。然而,要充分发挥AI能力的优势,我们需要对健康信息系统、法规和治理结构进行现代化改造,以支持AI模型的有效开发、严格验证和持续监控。本文探讨了从现有的健康信息交换(HIEs)向更先进的健康数据基础设施(HDUs)转变的机遇。HDUs作为全州性实体,具有多样化的利益相关者治理结构,能更好地支持各类用户的信息需求,尤其是在促进AI发展方面。我们将健康AI开发视为数据的二级用途,指出HDUs作为高质量、多源健康数据的聚合者和管理者,可以显著支持AI的进步。此外,在向HDUs过渡的过程中,这些网络可以通过推广AI监管指南和最佳实践、实现稳健的模型评估和透明报告、支持已部署应用的前瞻性监控等方式,为部分健康AI模型提供保障政策支持。这一转变不仅涉及技术层面,还包括政策、监管和治理等多个方面,体现了医疗AI研究的跨学科性质,对推动医疗AI的发展和有效监管具有重要意义。
02
When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?
◎ 标题:当原始数据占优势时:大型语言模型嵌入在医疗机器学习应用的数值数据表示中是否有效?
◎ 摘要:大型语言模型(LLMs)的引入推动了数据表示和分析的发展,在医疗问答方面取得了显著进展。尽管如此,将表格数据,特别是在临床环境中至关重要的数值数据,整合到LLM范式中的研究还不够深入。在本研究中,我们考察了LLMs最后隐藏状态的向量表示在使用电子健康记录(EHR)数据进行医疗诊断和预后方面的有效性。我们将这些嵌入表示与原始数值EHR数据在作为传统机器学习(ML)算法(如极限梯度提升)的特征输入时的性能进行了比较,这些算法在表格数据学习方面表现出色。我们重点关注了在零样本设置下使用指令调优的LLMs来表示异常生理数据,并评估它们作为特征提取器在增强ML分类器以预测诊断、住院时长和死亡率方面的效用。此外,我们还研究了零样本和少样本LLM嵌入的提示工程技术,以全面衡量其影响。尽管研究结果表明原始数据特征在医疗ML任务中仍然占优势,但零样本LLM嵌入展示了具有竞争力的结果,为医疗应用的未来研究提供了一个有前景的方向。
Figure:This study investigates the feasibility of using LLM embeddings for numerical EHR data features representation in medical machine learning applications. To use LLMs, raw features are transformed into queries via templates. Under a zero-shot setting, these queries are encoded into embeddings for ML classification. We explore the effects of prompt engineering, few-shot learning using synthetic data generation, and parameter efficient tuning on LLM embeddings.
03
Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI
◎ 标题:说同一种语言:利用大型语言模型标准化人工智能用临床数据
◎ 摘要:人工智能(AI)在医疗行业的应用引起了广泛关注,这主要归因于其有望改善临床成果、扩大优质医疗的可及性、降低成本和提高患者满意度。然而,主要的挑战仍然与可获取的多模态医疗数据的质量以及AI方法的演进有关。本研究深入探讨了采用大型语言模型来解决特定挑战,特别是医疗数据的标准化问题。我们提倡使用这些模型来识别临床数据模式并将其映射到已建立的数据标准属性,如快速医疗互操作性资源(FHIR)。我们的结果表明,使用大型语言模型显著减少了手动数据整理的需求,并提高了数据标准化过程的效率。因此,所提出的方法有可能加速AI在医疗领域的整合,改善患者护理质量,同时最小化为人工智能准备数据所需的时间和财务资源。
◎ 作者:Arindam Sett, Somaye Hashemifar, et al.
◎ 发表日期:2024-08-16
◎ 发表期刊:arXiv preprint
Figure: An overview of our approach.
04
Do We Need Data Standards in the Era of Large Language Models?
◎ 标题:在大型语言模型时代,我们还需要数据标准吗?
◎ 摘要:医疗信息生态系统的数据标准在实现跨医疗机构的软件集成方面发挥了关键作用,促进了数据共享、分析、临床研究和公共卫生工作。然而,大型语言模型能够动态地将非结构化数据提取并转化为标准化形式以供下游使用,这一能力引发了关于医疗数据未来的问题。具体而言,在大型语言模型时代,数据标准将扮演什么角色?我们是否还需要数据标准?(该研究由哈佛医学院资助)
◎ 作者:Gabriel A. Brat, Joshua C. Mandel, et al.
◎ 发表日期:2024-07-19
◎ 发表期刊:NEJM AI
◎ 原文链接:https://ai.nejm.org/doi/full/10.1056/AIe2400548?query=ai_toc&cid=DM2352712_Non_Subscriber&bid=-1859227231
05
Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy
◎ 标题:利用合成数据增强临床文档:基于生成模型提高准确性
◎ 摘要:准确和全面的临床文档对于提供高质量医疗服务、促进医疗提供者之间的有效沟通以及确保符合监管要求至关重要。然而,人工转录和数据录入过程往往耗时、易错且容易出现不一致,导致医疗记录不完整或不准确。本文提出了一种新颖的方法,利用合成数据生成技术来增强临床文档,生成真实和多样化的临床转录本。我们提出的方法结合了最先进的生成模型,如生成对抗网络(GANs)和变分自编码器(VAEs),与真实世界的临床转录本和其他形式的临床数据,生成合成转录本。这些合成转录本可用于补充现有的文档工作流程,为自然语言处理模型提供额外的训练数据,并实现更准确、高效的转录过程。通过对大量匿名化临床转录本数据集进行广泛实验,我们证明了我们的方法在生成高质量、接近真实数据的合成转录本方面的有效性。定量评估指标(包括困惑度得分和BLEU得分)以及领域专家的定性评估,验证了所生成合成转录本的保真度和实用性。我们的研究结果突显了合成数据生成在解决临床文档挑战方面的潜力,有助于改善患者护理、减轻行政负担并提高医疗系统效率。
◎ 作者:Anjanava Biswas, Wrick Talukdar
◎ 发表日期:2024-06-03
◎ 发表期刊:arXiv preprint
Figure: Generative Adversarial Network (GAN) Architecture