论文速读 · 第47期 | 大模型与医学人工智能

文摘健康 2024-11-15 15:20 北京

注：本期论文的对谈内容由 Notebook LM 生成，请谨慎收听

颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展，整理全球学术期刊中的前沿论文，帮助读者洞悉热门领域的最新趋势和突破。

在大型语言模型（LLMs）的医疗应用研究中，高质量的医疗数据在模型训练和推理过程中扮演着关键角色。本期我们聚焦LLMs在医疗领域研发与应用中的数据相关挑战和创新方向，研究内容包括LLM嵌入与原始数据在医疗数值处理中的效能对比，合成数据在训练集扩充和隐私保护中的应用，统一医疗数据标准对数据质量和模型泛化的影响，以及支持LLM大规模应用的医疗数据基础设施建设等。

期待与您共同探索大模型和医学人工智能领域的前沿科研成果。

The Role of Health Data Utilities in Supporting Health AI

◎ 标题：健康数据基础设施在支持医疗人工智能中的作用

◎ 摘要：人工智能在医疗领域的新发展为改善临床服务、医疗管理和公共卫生带来了巨大潜力，有望提升整体健康成果。然而，要充分发挥AI能力的优势，我们需要对健康信息系统、法规和治理结构进行现代化改造，以支持AI模型的有效开发、严格验证和持续监控。本文探讨了从现有的健康信息交换（HIEs）向更先进的健康数据基础设施（HDUs）转变的机遇。HDUs作为全州性实体，具有多样化的利益相关者治理结构，能更好地支持各类用户的信息需求，尤其是在促进AI发展方面。我们将健康AI开发视为数据的二级用途，指出HDUs作为高质量、多源健康数据的聚合者和管理者，可以显著支持AI的进步。此外，在向HDUs过渡的过程中，这些网络可以通过推广AI监管指南和最佳实践、实现稳健的模型评估和透明报告、支持已部署应用的前瞻性监控等方式，为部分健康AI模型提供保障政策支持。这一转变不仅涉及技术层面，还包括政策、监管和治理等多个方面，体现了医疗AI研究的跨学科性质，对推动医疗AI的发展和有效监管具有重要意义。

◎ 作者：Ahmad Alkasir, Gabriel Seidman, et al.

◎ 发表日期：2024-09-19

◎ 发表期刊：NEJM AI

◎ 原文链接：https://ai.nejm.org/doi/full/10.1056/AIpc2400401?query=ai_wu&cid=DM2361271_Non_Subscriber&bid=-1752955299

When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?

◎ 标题：当原始数据占优势时：大型语言模型嵌入在医疗机器学习应用的数值数据表示中是否有效？

◎ 摘要：大型语言模型（LLMs）的引入推动了数据表示和分析的发展，在医疗问答方面取得了显著进展。尽管如此，将表格数据，特别是在临床环境中至关重要的数值数据，整合到LLM范式中的研究还不够深入。在本研究中，我们考察了LLMs最后隐藏状态的向量表示在使用电子健康记录（EHR）数据进行医疗诊断和预后方面的有效性。我们将这些嵌入表示与原始数值EHR数据在作为传统机器学习（ML）算法（如极限梯度提升）的特征输入时的性能进行了比较，这些算法在表格数据学习方面表现出色。我们重点关注了在零样本设置下使用指令调优的LLMs来表示异常生理数据，并评估它们作为特征提取器在增强ML分类器以预测诊断、住院时长和死亡率方面的效用。此外，我们还研究了零样本和少样本LLM嵌入的提示工程技术，以全面衡量其影响。尽管研究结果表明原始数据特征在医疗ML任务中仍然占优势，但零样本LLM嵌入展示了具有竞争力的结果，为医疗应用的未来研究提供了一个有前景的方向。

◎ 作者：Yanjun Gao, Skatje Myers, et al.

◎ 发表日期：2024-09-19

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.11854

Figure：This study investigates the feasibility of using LLM embeddings for numerical EHR data features representation in medical machine learning applications. To use LLMs, raw features are transformed into queries via templates. Under a zero-shot setting, these queries are encoded into embeddings for ML classification. We explore the effects of prompt engineering, few-shot learning using synthetic data generation, and parameter efficient tuning on LLM embeddings.

Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI

◎ 标题：说同一种语言：利用大型语言模型标准化人工智能用临床数据

◎ 摘要：人工智能（AI）在医疗行业的应用引起了广泛关注，这主要归因于其有望改善临床成果、扩大优质医疗的可及性、降低成本和提高患者满意度。然而，主要的挑战仍然与可获取的多模态医疗数据的质量以及AI方法的演进有关。本研究深入探讨了采用大型语言模型来解决特定挑战，特别是医疗数据的标准化问题。我们提倡使用这些模型来识别临床数据模式并将其映射到已建立的数据标准属性，如快速医疗互操作性资源（FHIR）。我们的结果表明，使用大型语言模型显著减少了手动数据整理的需求，并提高了数据标准化过程的效率。因此，所提出的方法有可能加速AI在医疗领域的整合，改善患者护理质量，同时最小化为人工智能准备数据所需的时间和财务资源。

◎ 作者：Arindam Sett, Somaye Hashemifar, et al.

◎ 发表日期：2024-08-16

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.11861

Figure: An overview of our approach.

Do We Need Data Standards in the Era of Large Language Models?

◎ 标题：在大型语言模型时代，我们还需要数据标准吗？

◎ 摘要：医疗信息生态系统的数据标准在实现跨医疗机构的软件集成方面发挥了关键作用，促进了数据共享、分析、临床研究和公共卫生工作。然而，大型语言模型能够动态地将非结构化数据提取并转化为标准化形式以供下游使用，这一能力引发了关于医疗数据未来的问题。具体而言，在大型语言模型时代，数据标准将扮演什么角色？我们是否还需要数据标准？（该研究由哈佛医学院资助）

◎ 作者：Gabriel A. Brat, Joshua C. Mandel, et al.

◎ 发表日期：2024-07-19

◎ 发表期刊：NEJM AI

◎ 原文链接：https://ai.nejm.org/doi/full/10.1056/AIe2400548?query=ai_toc&cid=DM2352712_Non_Subscriber&bid=-1859227231

Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy

◎ 标题：利用合成数据增强临床文档：基于生成模型提高准确性

◎ 摘要：准确和全面的临床文档对于提供高质量医疗服务、促进医疗提供者之间的有效沟通以及确保符合监管要求至关重要。然而，人工转录和数据录入过程往往耗时、易错且容易出现不一致，导致医疗记录不完整或不准确。本文提出了一种新颖的方法，利用合成数据生成技术来增强临床文档，生成真实和多样化的临床转录本。我们提出的方法结合了最先进的生成模型，如生成对抗网络（GANs）和变分自编码器（VAEs），与真实世界的临床转录本和其他形式的临床数据，生成合成转录本。这些合成转录本可用于补充现有的文档工作流程，为自然语言处理模型提供额外的训练数据，并实现更准确、高效的转录过程。通过对大量匿名化临床转录本数据集进行广泛实验，我们证明了我们的方法在生成高质量、接近真实数据的合成转录本方面的有效性。定量评估指标（包括困惑度得分和BLEU得分）以及领域专家的定性评估，验证了所生成合成转录本的保真度和实用性。我们的研究结果突显了合成数据生成在解决临床文档挑战方面的潜力，有助于改善患者护理、减轻行政负担并提高医疗系统效率。

◎ 作者：Anjanava Biswas, Wrick Talukdar

◎ 发表日期：2024-06-03

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2406.06569

Figure: Generative Adversarial Network (GAN) Architecture

美年健康研究院

健康管理和医药产业研究

最新文章

千万级中国人体检数据解读 2023：全国逾十分之一的女性受到HPV感染

论文速读 · 第49期 | 大模型与医学人工智能

论文速读 · 第48期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第6期

论文速读 · 第47期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：肾结石检出率性别差异显著，男性检出率10.7%

论文速读 · 第46期 | 大模型与医学人工智能

中国戊型肝炎病毒感染的患病率和发病率研究

论文速读 · 第45期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第5期

论文速读 · 第44期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：幽门螺旋杆菌感染检出率近三成

全球公共卫生与健康管理学术前沿·第5期

论文速读 · 第42期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：血脂异常检出率超过三成

论文速读 · 第41期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第4期

论文速读 · 第40期 | 大模型与医学人工智能

论文速读 · 第39期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：女性乳腺结节检出率逾三成

论文速读 · 第38期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第4期

论文速读 · 第37期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：脂肪肝已成为我国最常见的慢性肝病

论文速读 · 第36期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第3期

论文速读 · 第35期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：甲状腺结节检出率近五成

论文速读 · 第34期 | 大模型与医学人工智能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉