论文速读 · 第46期 | 大模型与医学人工智能

文摘健康 2024-11-07 17:03 北京

颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展，整理全球学术期刊中的前沿论文，帮助读者洞悉热门领域的最新趋势和突破。

本期聚焦大型语言模型在医学和生物信息学的前沿应用，内容包括：

-专门用于基因型-表型知识表示和基因组关系分析的大型语言模型 GP- GPT

-基于大型语言模型的单分子多模态早期癌症筛查模型 SmartCS-LPLLM

-利用自适应联邦知识注入等增强模型能力的新颖方法

-SFT和DPO等微调策略在医学任务中的比较研究

期待与您共同探索大模型和医学人工智能领域的前沿科研成果。

GP-GPT: Large Language Model for Gene-Phenotype Mapping

◎ 标题：GP-GPT：基因表型映射的大型语言模型

◎ 摘要：预训练的大型语言模型(大型语言模型)在生物医学领域引起了越来越多的关注,这是由于它们在自然语言处理方面取得的成功。然而,多来源基因组学数据的复杂特性和异质性给这些模型在生物信息学和生物医学领域的应用带来了重大挑战。为了应对这些挑战,我们提出了 GP-GPT,这是第一个专门用于基因型-表型知识表示和基因组关系分析的大型语言模型。我们的模型在一个由超过 3,000,000 个来自基因组学、蛋白质组学和医学遗传学的术语组成的综合语料库上进行了两阶段的微调。GP-GPT 在准确检索医学遗传学信息以及执行基因组信息检索和关系确定等常见基因组分析任务方面表现出了优秀的能力。在领域特定任务的比较实验中,GP-GPT 优于最先进的大型语言模型,包括 Llama2、Llama3 和 GPT-4。这些结果突出了 GP-GPT 在增强遗传性疾病关系研究和促进基因组学和医学遗传学领域准确高效分析方面的潜力。我们的研究还展示了 GP-GPT 中生物因子实体表示的细微变化,这表明了应用人工智能技术推进基因-表型研究的机会。

◎ 作者：Yanjun Lyu, Zihao Wu, et al.

◎ 发表日期：2024-09-27

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://www.arxiv.org/abs/2409.09825

Figure: Overview of multi-task multi-level formats of genomics text data. The training data set can be built on intrinsic logic in multiple genomics datasets.

Fine Tuning Large Language Models for Medicine: The Role and Importance of Direct Parameter Optimization

◎ 标题：医学领域大型语言模型的微调：直接偏好优化的角色与重要性

◎ 摘要：大型语言模型（LLM）的微调在医学领域尚未得到充分利用。监督式微调（SFT）和直接偏好优化（DPO）是两种最常见的微调方法，但对于何时使用哪种技术，用户缺乏明确的指导。在本研究中，我们比较了SFT和DPO在医学领域五种常见自然语言任务中的表现：文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现，对于文本数据分类，单独使用SFT就足够了，而对于更复杂的任务如临床推理、摘要生成和临床分诊，DPO能够提高性能。我们的研究结果确立了DPO微调在医学领域的角色和重要性，同时也指出了目前阻碍这种技术广泛部署的软件缺口。

◎ 作者：Thomas Savage, Stephen Ma, et al.

◎ 发表日期：2024-09-20

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2409.12741

Figure：Overview of study methods fine tuning SFT and DPO models, and comparing those models to the base LLM.

FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models

◎ 标题：FEDKIM：医疗基础模型的自适应联邦知识注入

◎ 摘要：基础模型在处理多样化模态和任务方面展现出了卓越的能力，超越了高度特定于任务和依赖于模态的传统人工智能（AI）方法。然而，在医疗领域，全面基础模型的开发受到多模态数据获取限制和严格隐私法规的约束。为解决这些限制，本研究提出了一种新颖的知识注入方法FedKIM，旨在联邦学习框架内扩展医疗基础模型。FedKIM利用轻量级本地模型从私有数据中提取医疗保健知识，并通过设计的自适应多任务多模态专家混合（M3OE）模块将这些知识整合到集中式基础模型中。这种方法不仅保护了隐私，还增强了模型处理涉及多模态的复杂医疗任务的能力。我们在七种模态的十二个任务上进行的广泛实验证明了FedKIM在各种设置中的有效性，突显了其在不直接访问敏感数据的情况下扩展医疗基础模型的潜力。

◎ 作者：Xiaochen Wang, Jiaqi Wang, et al.

◎ 发表日期：2024-09-20

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.10276

Figure :Illustration of the proposed FEDKIM. (a) Framework overview, where the proposed FEDKIM contains client and server updates. (b) Federated knowledge injection, where FEDKIM first aggregates models uploaded from clients and then injects the aggregated model knowledge into medical foundation model F with three steps. “PEFT” in Step 3 denotes parameter-efficient fine-tuning.

SmartCS-LPLLM: Enhancing early cancer detection through ctDNA methylation analysis leveraging large language models

◎ 标题：SmartCS-LPLLM: 利用大语言模型的 ctDNA 甲基化分析增强早期癌症检测

◎ 摘要：本研究旨在克服循环肿瘤DNA（ctDNA）早期癌症筛查中的低丰度和高信噪比挑战。我们使用低深度全基因组亚硫酸盐测序（Low pass-WGBS）和高效WATCHMaker文库制备试剂盒优化了无细胞DNA（cfDNA）样本处理，并开发了基于大型语言模型的单分子多模态早期癌症筛查模型SmartCS-LPLLM。该模型通过分析cfDNA的甲基化评分、序列长度、末端基序特征和序列语言学特征等，精确识别癌症信号。重新分析公开数据显示，该模型在区分肝细胞癌（HCC）和非HCC样本方面显著改善，AUC值达0.967。在盲测中，模型准确分类了所有肝癌样本，并能识别浓度低至0.05%的ctDNA。当差异甲基化区域（DMR）为120M时，单分子读取级别模型在区分肿瘤和健康读取方面达到85%的准确率。SmartCS-LPLLM模型整合了甲基化和拷贝数变异等生物学特征，为早期癌症筛查提供了精确的临床策略，其在识别低丰度ctDNA样本方面的表现证实了其重要的临床应用价值。

◎ 作者：L.Chao, H.Wang, et al.

◎ 发表日期：2024-09-01

◎ 发表期刊：Annals of Oncology

◎ 原文链接：https://www.annalsofoncology.org/article/S0923-7534(24)02765-0/fulltext

IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models

◎ 标题：IntelliCare：利用大型语言模型生成稳定的患者级知识改善医疗分析

◎ 摘要：尽管开创性的深度学习方法在分析电子健康记录（EHR）数据方面取得了巨大进展，但它们常常难以从有限的数据中充分捕捉多样化医疗代码的语义。整合大型语言模型（LLMs）的外部知识为改进医疗预测提供了一个有前景的途径。然而，由于歧义问题和不一致性，LLM分析可能存在显著的方差，阻碍了其有效利用。为解决这些挑战，我们提出了IntelliCare，这是一个新颖的框架，利用LLMs提供高质量的患者级外部知识，增强现有的EHR模型。具体而言，IntelliCare识别患者群组并运用任务相关的统计信息来增强LLM的理解和生成能力，有效缓解了歧义问题。此外，它通过混合方法精炼LLM衍生的知识，生成多重分析并使用EHR模型和困惑度度量进行校准。在两个大规模EHR数据集的三个临床预测任务上的实验评估表明，IntelliCare显著改善了现有方法的性能，凸显了其在推进个性化医疗预测和决策支持系统方面的潜力。

◎ 作者：Zhihao Yu, Yujie Jin, et al

◎ 发表日期：2024-08-23

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.13073

Figure: Overview of IntelliCare. Given the electronic medical records of a patient, IntelliCare constructs prompt via the records and task-relevant information within the cohorts to which the patient may belong. We then generate multiple analyses from LLMs for the patient and design a hybrid analysis refinement to calibrate this knowledge. Finally, we combine the refined knowledge with the existing trained EHR model to improve their prediction performance.

美年健康研究院

健康管理和医药产业研究

最新文章

千万级中国人体检数据解读 2023：全国逾十分之一的女性受到HPV感染

论文速读 · 第49期 | 大模型与医学人工智能

论文速读 · 第48期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第6期

论文速读 · 第47期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：肾结石检出率性别差异显著，男性检出率10.7%

论文速读 · 第46期 | 大模型与医学人工智能

中国戊型肝炎病毒感染的患病率和发病率研究

论文速读 · 第45期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第5期

论文速读 · 第44期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：幽门螺旋杆菌感染检出率近三成

全球公共卫生与健康管理学术前沿·第5期

论文速读 · 第42期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：血脂异常检出率超过三成

论文速读 · 第41期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第4期

论文速读 · 第40期 | 大模型与医学人工智能

论文速读 · 第39期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：女性乳腺结节检出率逾三成

论文速读 · 第38期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第4期

论文速读 · 第37期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：脂肪肝已成为我国最常见的慢性肝病

论文速读 · 第36期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第3期

论文速读 · 第35期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：甲状腺结节检出率近五成

论文速读 · 第34期 | 大模型与医学人工智能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉