颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展,整理全球学术期刊中的前沿论文,帮助读者洞悉热门领域的最新趋势和突破。本期内容详细探讨大型语言模型(LLMs)在疾病预测、医学问答、性能评估以及安全监管等多个关键领域的研究进展,并结合专家的深入见解,提供了丰富的学术视角和实用洞见。期待与您共同探索大模型和医学人工智能领域的前沿科研成果。
01
A future role for health applications of large language models depends on regulators enforcing safety standards
◎ 标题:大型语言模型在医疗应用中的未来角色取决于监管机构对安全标准的执行
◎ 摘要:在人工智能迅速融入临床环境的过程中,像生成式预训练转换器-4(GPT-4)这样的大型语言模型(LLMs)已经成为多功能工具,在医疗服务、诊断和患者护理方面展现出潜力。然而,LLMs的部署引发了重大的监管和安全担忧。由于其高度的输出变异性、内在可解释性差,以及所谓的AI幻觉风险,基于LLM的医疗应用在美国和欧盟法律(包括最近通过的欧盟人工智能法案)下作为医疗设备获得批准面临监管挑战。尽管存在未解决的患者风险,包括误诊和未经验证的医疗建议,但此类应用已经在市场上出现。这些工具所面临的监管模糊性突显了迫切需要建立能够适应其独特能力和局限性的框架。与此同时,现有的法规应该得到执行。如果监管机构因为市场被大型科技公司主导供应或开发而担心执行这些法规,那么普通人受到伤害的后果将迫使监管机构采取迟来的行动,这将损害基于LLM的应用在为普通人提供医疗建议方面的潜力。
Figure:On the market approaches of LLM-based health applications
02
Probabilistic Medical Predictions of Large Language Models
◎ 标题:大语言模型的概率性医疗预测
◎ 摘要:大型语言模型(LLMs)通过提示工程在临床应用中展现了显著潜力,能够生成灵活多样的临床预测。然而,它们在产生预测概率方面存在挑战,而这些概率对于透明度和允许临床医生在决策中应用灵活的概率阈值至关重要。虽然显式的提示指令可以引导LLMs通过文本生成提供预测概率数值,但LLMs在数值推理方面的局限性引发了对这些文本生成概率可靠性的担忧。为评估这种可靠性,我们比较了通过文本生成得出的显式概率与基于预测正确标签令牌可能性计算的隐式概率。我们使用六个先进的开源LLMs在五个医学数据集上进行实验,发现就区分度、精确度和召回率而言,显式概率的表现始终低于隐式概率。此外,这些差异在小型LLMs和不平衡数据集上更为明显,强调了在解释和应用时需要谨慎,同时也凸显了进一步研究LLMs在临床环境中稳健概率估计方法的必要性。
Figure: Examples and study design. a) Comparison of probabilistic predictions from different types of AI models. The green happy face means the model applies to the use case, while the red unhappy face means it doesn't. b) Conceptual framework.
03
Generative AI for Evidence-Based Medicine: A PICO GenAI for Synthesizing Clinical Case Reports
◎ 标题:基于循证医学的生成式人工智能:用于综合临床病例报告的PICO生成式AI
◎ 摘要:临床研究和实践正以指数级速度产生重要的新发现,这些发现需要随时可供临床医生使用。然而,当临床医生试图寻找这些信息来支持循证决策或生成新的临床病例报告时,他们面临着严峻的挑战。一个重要挑战是需要长时间浏览、筛选、总结和汇编来自不同资源的信息。另一个重要挑战是识别回答临床问题或支持临床发现所需的相关重要循证信息资源。人工智能可以通过自动问答(Q&A)和生成技术来帮助解决这两个挑战。然而,Q&A和生成技术并未经过训练来回答可用于循证实践的临床查询,也无法响应像PICO(患者/问题、干预、对比和结果)这样的结构化临床问询协议。本文描述了使用深度学习技术进行Q&A的方法,该方法基于BERT和GPT等生成模型,用于回答可用于循证实践的PICO临床问题,这些问题从PubMed等可靠医学研究资源中提取。我们报告了得到PubMed研究结果支持的可接受的临床答案。我们的生成方法通过两阶段的自举过程达到了最先进的性能,这个过程包括首先筛选相关文章,然后识别支持PICO问题所要求结果的文章。
◎ 作者:Sabah Mohammed, Jinan Fiaidhi
◎ 发表日期:2024-08-21
◎ 发表期刊:ICC 2024 - IEEE International Conference on Communications
04
Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
◎ 标题:在医学问答中采用受人类启发的学习策略微调大型语言模型
◎ 摘要:训练大型语言模型(LLMs)需要大量与数据相关的成本,这促使研究者通过优化数据排序和选择来开发数据高效的训练方法。受人类启发的学习策略,如课程学习,通过根据常见的人类学习实践组织数据,为高效训练提供了可能性。尽管有证据表明,使用课程学习进行微调可以提高LLMs在自然语言理解任务中的表现,但其有效性通常仅在单一模型上进行评估。在本研究中,我们扩展了先前的研究,使用人工定义和自动生成的数据标签,在多个LLMs上评估了基于课程和非课程的学习策略在医学问答任务中的表现。我们的结果表明,使用受人类启发的学习策略对LLMs进行微调有中等程度的影响,每个模型的最大准确率提升为1.77%,每个数据集的最大提升为1.81%。至关重要的是,我们证明了这些策略的有效性在不同的模型-数据集组合中存在显著差异,这强调了特定的受人类启发的策略在微调LLMs时的效果并不具有普遍性。此外,我们发现使用LLM定义的问题难度进行课程学习的效果优于人工定义的难度,这突出了使用模型生成的度量来设计最优课程的潜力。
◎ 作者:Yushi Yang, Andrew M. Bean, et al.
◎ 发表日期:2024-08-15
◎ 发表期刊:arXiv preprint
◎ 原文链接:https://arxiv.org/abs/2408.07888
Figure : Human-inspired learning strategies.
05
Evaluation of AI Solutions in Health Care Organizations — The OPTICA Tool
◎ 标题:医疗机构中 AI 解决方案的评估 — OPTICA 工具
◎ 摘要:监管机构正在努力确定有效的方式来规范人工智能(AI)驱动的医疗保健解决方案,这些解决方案在新环境中反复表现欠佳并产生意外结果。现有的评估框架通常采取文本讨论的形式,难以转化为对 AI 解决方案的实际评估,且通常未能考虑特定人群和指定部署环境中的观点。面临日益增多的 AI 解决方案,医疗保健机构需要一个实用、可执行的框架,以便对 AI 驱动的解决方案的适当性进行特定环境的评估。这一需求也出现在 Clalit 健康服务公司,这是一家大型公共医疗保健机构,在那里 AI 解决方案已被纳入护理工作超过十年。为此,我们开发了一个全面、实用的清单工具,用于评估医疗保健机构中的 AI 解决方案。这个名为 OPTICA(组织视角 AI 解决方案采用检查表)的清单包括 13 章,每章包含 3 至 12 个检查项目。我们确定了通常需要参与清单完成的五个主要利益相关方,定义了每个利益相关方应完成的检查项目,并根据检查项目之间的依赖关系确定了完成顺序。OPTICA 已在各种案例中进行了测试,为在新的临床环境中评估 AI 解决方案提供了一个实用、结构化的端到端过程,体现了实施组织的独特视角。
◎ 作者:Noa Dagan, Stav Devons-Sberro, et al
◎ 发表日期:2024-08-14
◎ 发表期刊:NEJM AI