01
From text to treatment: the crucial role of validation for generative large language models in health care
◎ 标题:从文本到治疗:验证在生成式大型语言模型在医疗保健中的关键作用
◎ 摘要:生成式大型语言模型(LLMs)在医疗保健领域取得了显著进展,但其在实际应用中的安全性和有效性需要经过全面验证。验证面临两大挑战:一是由于自然语言生成任务的多样性,LLMs的输出难以用量化标准进行统一评估;二是LLMs的输出多样性使其与基准真相的比较变得复杂。研究表明,LLMs可能会延续种族歧视或在缺乏监管时提供有害结果,强调了持续验证的重要性。验证过程应包括三个层次:一般验证、任务特定验证和临床验证。一般验证评估LLMs在不同提示下的鲁棒性和输出质量;任务特定验证评估LLMs在具体任务中的表现,如患者信件生成和聊天机器人回答的准确性;临床验证则评估LLMs对医疗结果的实际影响,如改善健康结果、提高患者满意度和减少行政负担。为了确保LLMs在医疗保健中的安全应用,验证实践需反复进行并严格遵循报告指南。
02
Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data
◎ 标题:多项选择题和大型语言模型: 以虚构医学数据为例的案例研究
◎ 摘要:像 ChatGPT 这样的大型语言模型(LLM)在医疗领域显示出巨大的潜力,通常使用与 USMLE 考试类似的多项选择题(MCQ)来进行评估。尽管 MCQ 在医学教育中广泛使用,但它们也存在一些局限性,在评估 LLM 时可能会被放大。为了评估 MCQ 在评估 LLM 性能方面的有效性,我们开发了一个基于虚构医学基准的诊断,集中于一个不存在的腺体"Glianorex"。这种方法使我们能够将 LLM 的知识与其考试能力分离开来。我们使用 GPT-4 生成了英语和法语的 Glianorex 全面教科书,并开发了相应的多项选择题。我们在零样本设置下使用这些问题评估了各种开源、专有和特定领域的 LLM。模型平均得分约为 67%,较大和较小模型之间的性能差异较小。英语表现略优于法语。针对医疗领域进行微调的模型在英语方面略有改善,但在法语方面未显示出明显改善。各模型的整体高性能表明,传统的基于 MCQ 的基准可能无法准确衡量 LLM 的临床知识和推理能力,而是突出了它们的模式识别能力。这项研究突出了需要更强大的评估方法来更好地评估 LLM 在医疗环境中的真实能力。
Table : Prompt used to generate multiple choice questions based on a subset of the textbook. The prompt template contains two variables <TABLE OF CONTENT> and <TEXTBOOK PARAGRAPH> which are respectively replaced with the table of content of the textbook and a random paragraph from the textbook to provide context to the model.
03
Evaluating and Enhancing Large Language Models' Performance in Domain-specific Medicine: Explainable LLM with DocOA
◎ 标题:评估和增强大型语言模型在特定领域医学中的性能:带有DocOA的可解释LLM
◎ 摘要:本研究旨在评估和提升LLMs在特定领域的临床能力和可解释性,以骨关节炎(OA)管理为案例研究。该研究开发了一个领域特定的基准框架,评估LLMs从领域特定知识到真实世界临床场景中的临床应用。开发了一种专门用于 OA 管理的LLM,集成了检索增强生成(RAG)和指导提示。它可以通过 RAG 识别其答案所基于的临床证据,从而展示这些答案的可解释性。该研究比较了 GPT-3.5、GPT-4 和专门助手 DocOA 的性能,使用客观和人类评估。结果显示,像 GPT-3.5 和 GPT-4 这样的通用模型在 OA 管理这一专业领域中效果较差,特别是在提供个性化治疗建议方面。然而,DocOA 显示出显著的改进。
◎ 作者:Xi Chen, Li Wang, et al.
◎ 发表日期:2024-06-03
◎ 发表期刊:Journal of Medical Internet Research
Table:Accuracy of different prompt techniques against osteoarthritis benchmark
04
TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine
◎ 标题:TCMBench:一个用于评估传统中医领域大型语言模型的综合基准
◎ 摘要:大型语言模型(LLMs)在各种自然语言处理任务中表现出色,包括在西医领域。然而,专业评估中对LLMs的基准尚未涵盖传统中医领域,该领域具有悠久的历史和广泛的影响。为了填补这一研究空白,我们引入了 TCM-Bench,这是一个用于评估中医LLM性能的综合基准。它包括 TCM-ED 数据集,由来自中医执业医师资格考试(TCMLE)的 5,473 个问题组成,其中包括 1,300 个具有权威分析的问题。它涵盖了 TCMLE 的核心组成部分,包括中医基础和临床实践。为了评估LLMs在回答问题的准确性之外的表现,我们提出了 TCMScore,这是一个专门用于评估LLMs为中医相关问题生成的答案质量的度量标准。它全面考虑了中医语义和知识的一致性。通过从不同角度进行全面的实验分析,我们得出以下结论:(1)LLMs在这一基准上的表现不佳突显了它们在中医领域有很大改进空间。(2)引入领域知识可以增强LLMs的性能。然而,对于像中经-中医的领域内模型,生成的分析文本质量下降,我们假设它们的微调过程影响了基本LLM的能力。(3)传统的文本生成质量指标如 Rouge 和 BertScore 容易受到文本长度和表面语义歧义的影响,而领域特定的指标如 TCMScore 可以进一步补充和解释其评估结果。这些发现突显了LLMs在中医领域的能力和局限性,并旨在为医学研究提供更深入的帮助。
◎ 作者:Wenjing Yue, Xiaoling Wang, et al.
◎ 发表日期:2024-06-03
◎ 发表期刊:arXiv preprint
◎ 原文链接:https://arxiv.org/abs/2406.01126
Figure:The accuracy results on different branches of TCM-Bench.
05
COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain
◎ 标题:COGNET-MD, 一种用于医学领域大型语言模型基准测试和数据集的评估框架
◎ 摘要:大型语言模型(LLMs)构成了一项突破性的人工智能(AI)技术,正在快速发展,有望通过协助医生或在更高级和更复杂的应用中模拟医生的工作流程来协助医疗诊断。在这篇技术论文中,我们概述了认知网络评估工具包(COGNET-MD),它构成了一个针对医疗领域 LLMs 评估的新型基准。具体而言,我们提出了一个具有增加难度的评分框架,以评估 LLMs 在解释医疗文本方面的能力。所提出的框架附带有多项选择题数据库(MCQs)。为确保与当前医疗趋势的一致性,并增强安全性、有用性和可应用性,这些 MCQs 已经由各个医疗领域的多位专家共同开发,并具有不同程度的难度。目前(第一版)数据库包括精神病学、牙科、肺科、皮肤科和内分泌学等医疗领域,但将持续扩展以包括更多医疗领域。
◎ 作者:Dimitrios P. Panagoulias, et al
◎ 发表日期:2024-05-17
◎ 发表期刊:arXiv preprint
Figure: Benchmark Varying difficulty use Cases