论文速读 · 第44期 | 大模型与医学人工智能

文摘   健康   2024-10-24 16:24   北京  

颠覆性技术如大模型和人工智能正以迅猛的速度改变医疗健康领域。《论文速读》栏目旨在跟踪这些领域的最新进展,整理全球学术期刊中的前沿论文,帮助读者洞悉热门领域的最新趋势和突破。

本期聚焦大型语言模型(LLMs)在医疗卫生领域应用所面临的算法偏见、公平性、伦理困境及监管挑战。内容既包括对现有LLMs在临床决策支持系统中内在偏见和分配公平性的定量评估,也探讨了未来将LLMs整合入医疗实践时所需的监管框架和伦理范式特别关注了LLMs在心理健康、诊断辅助、治疗方案生成和患者信息处理等方面的潜在风险,以及如何通过技术改进和政策引导来缓解这些风险

期待与您共同探索大模型和医学人工智能领域的前沿科研成果。


01 

Autonomous artificial intelligence for diabetic eye disease increases access and health equity in underserved populations

 

◎ 标题:自主人工智能在糖尿病眼病诊断中提高医疗可及性和弱势群体健康公平性

◎ 摘要:糖尿病眼病(DED)是全球主要致盲原因之一。虽然建议糖尿病成年患者每年进行DED检查,但历史上这一指南的依从率一直较低。2020年,约翰霍普金斯医疗系统(JHM)开始部署自主人工智能进行DED检测。本研究旨在确定自主AI的实施是否与年度DED检查依从率的提高相关,以及这种影响在不同患者群体中的差异。

我们将JHM的初级保健机构分为"非AI"(未部署自主AI)和"AI转换"(2021年前部署自主AI)两类。我们采用倾向得分加权分析,比较2019年至2021年间非AI和AI转换机构的依从率变化。本研究包括JHM管理的所有成年糖尿病患者(超过17,000人),有三个主要发现:首先,从2019年到2021年,AI转换机构的DED检查增幅比非AI机构高7.6个百分点(p < 0.001)。其次,在AI转换机构中,黑人/非裔美国人的依从率增加了12.2个百分点,而在非AI机构中却下降了0.6个百分点(p < 0.001),这表明自主AI的部署改善了历史上处于劣势群体的视网膜评估可及性。第三,自主AI与健康公平性的改善相关,例如,亚裔美国人和黑人/非裔美国人之间的依从率差距从2019年的15.6%缩小到2021年的3.5%。

综上所述,我们在大型综合医疗系统中的真实世界部署结果表明,自主AI与DED检查整体依从率的提高、患者可及性的改善以及健康公平性的提升相关。

◎ 作者Jane J. Huang, Roomasa Channa, et al.
◎ 发表日期2024-07-22
◎ 发表期刊arXiv preprint
◎ 原文链接:npj Digital Medicine


 

02 

The Regulation of Clinical Artificial Intelligence



◎ 标题:临床人工智能的监管

◎ 摘要:临床人工智能(AI)的监管为全球政策制定者带来了新的挑战。现有的确保AI技术安全性和有效性的方法可能足以应对生成式人工智能(GAI)出现之前的早期AI形式。然而,临床GAI的监管可能需要发展新的监管范式。本文回顾了美国在监管生成式AI之前的临床AI的方法,并探讨了GAI监管的一种可能的新方法。美国及其他地区的政策制定者越早应对临床AI监管的挑战,就能越早在确保可接受的安全性和有效性的同时,使人们和患者受益于AI技术。

◎ 作者David Blumenthal, Bakul Patel, et al.
◎ 发表日期2024-07-12
◎ 发表期刊NEJM AI
◎ 原文链接:https://ai.nejm.org/doi/full/10.1056/AIpc2400545?query=ai_toc&ssotoken=U2FsdGVkX1%2F%2BWMyzOY4qRAjVH9KUmQYRSjmu%2FB1bnEFIVm%2Bhu0WPVeMfPY08W7BZnn6Te8NsMmX3ktfj4ED7F3UW%2FVmYw%2BQIz78Gv2%2FYyI%2BRIUM%2FwVctowuhz8%2FTlcj36xy1tt7hjjz8bcB34zTlPtnQYHmBnxPwAFnv9N30C7mjLg7jSgFr0dkIC8yVtp37%2BY%2BtH52WQKMOC4htDnpSlQ%3D%3D&cid=DM2352712_Non_Subscriber&bid=-1859227231


03 

Unveiling and Mitigating Bias in Mental Health Analysis with Large Language Models

 

◎ 标题:大型语言模型在心理健康分析中的偏见揭示与缓解研究

◎ 摘要:大型语言模型(LLMs)的进步在包括心理健康分析在内的各种应用中展现了强大的能力。然而,现有研究主要关注预测性能,而对公平性这一关键问题的探讨不足,这可能对弱势群体构成重大风险。尽管先前的研究承认潜在的偏见存在,但缺乏对这些偏见及其影响的深入调查。为弥补这一研究空白,我们系统地评估了十个LLMs在八个多样化的心理健康数据集上,使用不同提示方法对七个社会因素(如性别、年龄、宗教信仰等)的偏见。我们的研究结果表明,在LLMs中,GPT-4在性能和公平性的整体平衡方面表现最佳,尽管在某些情况下仍落后于像MentalRoBERTa这样的领域特定模型。此外,我们量身定制的公平性感知提示能有效缓解心理健康预测中的偏见,凸显了该领域公平分析的巨大潜力。

◎ 作者Yuqing Wang, Yun Zhao, et al.

◎ 发表日期2024-06-19

◎ 发表期刊arXiv preprint

◎ 原文链接https://arxiv.org/abs/2406.12033

Figure :The pipeline for evaluating and mitigating bias in LLMs for mental health analysis. User queries undergo demographic enrichment to identify biases. LLM responses are evaluated for performance and fairness. Bias mitigation is applied through fairness-aware prompts to achieve clinically accepted EO scores.



04 

Inherent Bias in Large Language Models: A Random Sampling Analysis

 

◎ 标题:大型语言模型的内在偏见:随机抽样分析

◎ 摘要:关于大型语言模型(LLMs)的内在偏见、安全性和倾向于产生错误信息的担忧日益增加,这可能对医疗保健产生重大影响。本研究旨在确定基于生成式人工智能(AI)模拟的医生在资源匮乏环境下做出生死决策时是否会表现出偏见。 

研究者开发了13个问题,模拟医生在资源有限的环境中治疗患者的情况。通过使用OpenAI的GPT-4对模拟医生进行随机抽样,要求医生由于资源有限只能选择救助1名患者。每个问题重复1000次模拟,代表1000位独特的医生和患者。患者和医生涵盖了各种人口特征。所有患者在先验条件下都有相似的急性疾病存活可能性。 

总体而言,模拟医生在临床决策中一致表现出种族、性别、年龄、政治倾向和性取向的偏见。在所有人口特征中,医生最频繁地偏好与自己具有相似人口特征的患者,大多数成对比较显示出统计学显著性(P<0.05)。未指定特征的医生偏好白人、男性和年轻人。男性医生倾向于男性、白人和年轻患者,而女性医生通常偏好女性、年轻和白人患者。除了救助与自己政治倾向相同的患者外,民主党医生偏好黑人和女性患者,而共和党医生则偏好白人和男性。异性恋和同性恋医生经常救助与自己性取向相似的患者。 

总的来说,公开可用的聊天机器人LLMs表现出显著的偏见,如果在没有适当预防措施的情况下用于支持临床护理决策,可能会对患者预后产生负面影响。

◎ 作者Noel F. Ayoub, Karthik Balakrishnan, et al.

◎ 发表日期2024-06-01

◎ 发表期刊Mayo Clinic Proceedings: Digital Health

◎ 原文链接https://www.sciencedirect.com/science/article/pii/S2949761224000208

Figure :Age, gender, and race bias in large language models. The heat maps show the P values for post hoc pairwise comparisons that were performed to compare physician responses across patients with different ages, genders, and races. Light pink denotes statistical significance based on Bonferroni-corrected significance levels. An asterisk indicates a comparison that had a P value of <.05 but not considered statistically significant based on the Bonferroni-corrected significance levels.


 

05 

Ethical and regulatory challenges of large language models in medicine

 

◎ 标题:大型语言模型在医学应用中的伦理与监管挑战

◎ 摘要:随着各行各业对大型语言模型(LLMs)的兴趣和使用快速增长,我们正面临一些至关重要且深刻的伦理问题,尤其是在医学领域。LLMs独特的技术架构和据称的涌现能力使其与其他人工智能(AI)模型和自然语言处理技术有着实质性的区别,这需要我们对LLM伦理有更细致入微的理解。在这篇观点文章中,我们从用户、开发者和监管者的角度强调了几个伦理关切,特别聚焦于数据隐私和使用权、数据来源、知识产权污染以及LLMs的广泛应用和可塑性。为了将LLMs负责任地整合到医疗实践中,确保其与伦理原则保持一致并防范潜在的社会风险,建立一个全面的框架和缓解策略将变得至关重要。

◎ 作者Jasmine Chiat Ling Ong, Shelley Yin-Hsi Changet al

◎ 发表日期2024-06-01

◎ 发表期刊The Lancet Digital Health

◎ 原文链接https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00061-X/fulltext

Table: Ethical concerns relating to framework and mitigating strategies for responsible development and use of LLMs in medicine


 

美年健康研究院
健康管理和医药产业研究
 最新文章