论文速读 · 第42期 | 大模型与医学人工智能

文摘健康 2024-10-10 16:00 北京

颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展，整理全球学术期刊中的前沿论文，帮助读者洞悉热门领域的最新趋势和突破。本期内容详细探讨大型语言模型（LLMs）在疾病预测、医学问答、性能评估以及安全监管等多个关键领域的研究进展，并结合专家的深入见解，提供了丰富的学术视角和实用洞见。期待与您共同探索大模型和医学人工智能领域的前沿科研成果。

A future role for health applications of large language models depends on regulators enforcing safety standards

◎ 标题：大型语言模型在医疗应用中的未来角色取决于监管机构对安全标准的执行

◎ 摘要：在人工智能迅速融入临床环境的过程中，像生成式预训练转换器-4（GPT-4）这样的大型语言模型（LLMs）已经成为多功能工具，在医疗服务、诊断和患者护理方面展现出潜力。然而，LLMs的部署引发了重大的监管和安全担忧。由于其高度的输出变异性、内在可解释性差，以及所谓的AI幻觉风险，基于LLM的医疗应用在美国和欧盟法律（包括最近通过的欧盟人工智能法案）下作为医疗设备获得批准面临监管挑战。尽管存在未解决的患者风险，包括误诊和未经验证的医疗建议，但此类应用已经在市场上出现。这些工具所面临的监管模糊性突显了迫切需要建立能够适应其独特能力和局限性的框架。与此同时，现有的法规应该得到执行。如果监管机构因为市场被大型科技公司主导供应或开发而担心执行这些法规，那么普通人受到伤害的后果将迫使监管机构采取迟来的行动，这将损害基于LLM的应用在为普通人提供医疗建议方面的潜力。

◎ 作者：Freyer, Oscar, et al.

◎ 发表日期：2024-09-01

◎ 发表期刊：The Lancet Digital Health

◎ 原文链接：https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00124-9/fulltext

Figure：On the market approaches of LLM-based health applications

Probabilistic Medical Predictions of Large Language Models

◎ 标题：大语言模型的概率性医疗预测

◎ 摘要：大型语言模型（LLMs）通过提示工程在临床应用中展现了显著潜力，能够生成灵活多样的临床预测。然而，它们在产生预测概率方面存在挑战，而这些概率对于透明度和允许临床医生在决策中应用灵活的概率阈值至关重要。虽然显式的提示指令可以引导LLMs通过文本生成提供预测概率数值，但LLMs在数值推理方面的局限性引发了对这些文本生成概率可靠性的担忧。为评估这种可靠性，我们比较了通过文本生成得出的显式概率与基于预测正确标签令牌可能性计算的隐式概率。我们使用六个先进的开源LLMs在五个医学数据集上进行实验，发现就区分度、精确度和召回率而言，显式概率的表现始终低于隐式概率。此外，这些差异在小型LLMs和不平衡数据集上更为明显，强调了在解释和应用时需要谨慎，同时也凸显了进一步研究LLMs在临床环境中稳健概率估计方法的必要性。

◎ 作者：Bowen Gu, Rishi J. Desai, et al.

◎ 发表日期：2024-08-21

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.11316

Figure: Examples and study design. a) Comparison of probabilistic predictions from different types of AI models. The green happy face means the model applies to the use case, while the red unhappy face means it doesn't. b) Conceptual framework.

Generative AI for Evidence-Based Medicine: A PICO GenAI for Synthesizing Clinical Case Reports

◎ 标题：基于循证医学的生成式人工智能：用于综合临床病例报告的PICO生成式AI

◎ 摘要：临床研究和实践正以指数级速度产生重要的新发现，这些发现需要随时可供临床医生使用。然而，当临床医生试图寻找这些信息来支持循证决策或生成新的临床病例报告时，他们面临着严峻的挑战。一个重要挑战是需要长时间浏览、筛选、总结和汇编来自不同资源的信息。另一个重要挑战是识别回答临床问题或支持临床发现所需的相关重要循证信息资源。人工智能可以通过自动问答（Q&A）和生成技术来帮助解决这两个挑战。然而，Q&A和生成技术并未经过训练来回答可用于循证实践的临床查询，也无法响应像PICO（患者/问题、干预、对比和结果）这样的结构化临床问询协议。本文描述了使用深度学习技术进行Q&A的方法，该方法基于BERT和GPT等生成模型，用于回答可用于循证实践的PICO临床问题，这些问题从PubMed等可靠医学研究资源中提取。我们报告了得到PubMed研究结果支持的可接受的临床答案。我们的生成方法通过两阶段的自举过程达到了最先进的性能，这个过程包括首先筛选相关文章，然后识别支持PICO问题所要求结果的文章。

◎ 作者：Sabah Mohammed, Jinan Fiaidhi

◎ 发表日期：2024-08-21

◎ 发表期刊：ICC 2024 - IEEE International Conference on Communications

◎ 原文链接：https://ieeexplore.ieee.org/abstract/document/10622271

Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

◎ 标题：在医学问答中采用受人类启发的学习策略微调大型语言模型

◎ 摘要：训练大型语言模型（LLMs）需要大量与数据相关的成本，这促使研究者通过优化数据排序和选择来开发数据高效的训练方法。受人类启发的学习策略，如课程学习，通过根据常见的人类学习实践组织数据，为高效训练提供了可能性。尽管有证据表明，使用课程学习进行微调可以提高LLMs在自然语言理解任务中的表现，但其有效性通常仅在单一模型上进行评估。在本研究中，我们扩展了先前的研究，使用人工定义和自动生成的数据标签，在多个LLMs上评估了基于课程和非课程的学习策略在医学问答任务中的表现。我们的结果表明，使用受人类启发的学习策略对LLMs进行微调有中等程度的影响，每个模型的最大准确率提升为1.77%，每个数据集的最大提升为1.81%。至关重要的是，我们证明了这些策略的有效性在不同的模型-数据集组合中存在显著差异，这强调了特定的受人类启发的策略在微调LLMs时的效果并不具有普遍性。此外，我们发现使用LLM定义的问题难度进行课程学习的效果优于人工定义的难度，这突出了使用模型生成的度量来设计最优课程的潜力。

◎ 作者：Yushi Yang, Andrew M. Bean, et al.

◎ 发表日期：2024-08-15

◎ 发表期刊：arXiv preprint

◎ 原文链接：https://arxiv.org/abs/2408.07888

Figure : Human-inspired learning strategies.

Evaluation of AI Solutions in Health Care Organizations — The OPTICA Tool

◎ 标题：医疗机构中 AI 解决方案的评估 — OPTICA 工具

◎ 摘要：监管机构正在努力确定有效的方式来规范人工智能(AI)驱动的医疗保健解决方案,这些解决方案在新环境中反复表现欠佳并产生意外结果。现有的评估框架通常采取文本讨论的形式,难以转化为对 AI 解决方案的实际评估,且通常未能考虑特定人群和指定部署环境中的观点。面临日益增多的 AI 解决方案,医疗保健机构需要一个实用、可执行的框架,以便对 AI 驱动的解决方案的适当性进行特定环境的评估。这一需求也出现在 Clalit 健康服务公司,这是一家大型公共医疗保健机构,在那里 AI 解决方案已被纳入护理工作超过十年。为此,我们开发了一个全面、实用的清单工具,用于评估医疗保健机构中的 AI 解决方案。这个名为 OPTICA(组织视角 AI 解决方案采用检查表)的清单包括 13 章,每章包含 3 至 12 个检查项目。我们确定了通常需要参与清单完成的五个主要利益相关方,定义了每个利益相关方应完成的检查项目,并根据检查项目之间的依赖关系确定了完成顺序。OPTICA 已在各种案例中进行了测试,为在新的临床环境中评估 AI 解决方案提供了一个实用、结构化的端到端过程,体现了实施组织的独特视角。

◎ 作者：Noa Dagan, Stav Devons-Sberro, et al

◎ 发表日期：2024-08-14

◎ 发表期刊：NEJM AI

◎ 原文链接：https://ai.nejm.org/doi/full/10.1056/AIcs2300269?query=ai_wu&cid=DM2355881_Non_Subscriber&bid=-1817828787

美年健康研究院

健康管理和医药产业研究

最新文章

千万级中国人体检数据解读 2023：全国逾十分之一的女性受到HPV感染

论文速读 · 第49期 | 大模型与医学人工智能

论文速读 · 第48期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第6期

论文速读 · 第47期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：肾结石检出率性别差异显著，男性检出率10.7%

论文速读 · 第46期 | 大模型与医学人工智能

中国戊型肝炎病毒感染的患病率和发病率研究

论文速读 · 第45期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第5期

论文速读 · 第44期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：幽门螺旋杆菌感染检出率近三成

全球公共卫生与健康管理学术前沿·第5期

论文速读 · 第42期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：血脂异常检出率超过三成

论文速读 · 第41期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第4期

论文速读 · 第40期 | 大模型与医学人工智能

论文速读 · 第39期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：女性乳腺结节检出率逾三成

论文速读 · 第38期 | 大模型与医学人工智能

全球公共卫生与健康管理学术前沿·第4期

论文速读 · 第37期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：脂肪肝已成为我国最常见的慢性肝病

论文速读 · 第36期 | 大模型与医学人工智能

医学指南与专家共识速递 · 第3期

论文速读 · 第35期 | 大模型与医学人工智能

千万级中国人体检数据解读 2023：甲状腺结节检出率近五成

论文速读 · 第34期 | 大模型与医学人工智能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉