Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

学术 2024-11-11 00:01 北京

DRUGAI

今天为大家介绍的是来自上海交通大学的王延峰与谢伟迪团队的一篇论文。开源的多语言医学语言模型的发展可以惠及来自不同地区、语言多样化的广泛受众。为了推动该领域的发展，作者做出了以下贡献：首先，作者构建了一个包含大约255亿tokens、覆盖6种主要语言的多语言医学语料库——MMedC，使得通用LLM能够进行自回归领域适应；其次，为了监测多语言医学LLM的发展，作者提出了一个多语言医学多项选择问答基准（包含推理过程），称为MMedBench；第三，作者在该基准上评估了多个开源大型语言模型，以及那些在MMedC上进行进一步自回归训练的模型。作者的最终模型MMed-Llama 3，仅有80亿参数，在MMedBench和英语基准上表现优异，甚至可以与GPT-4媲美。总之，在这项工作中，作者提供了一个大规模语料库、一个评估基准以及一系列模型，以支持多语言医学LLM的发展。

在近期研究中，大型语言模型在医疗领域展现了巨大潜力。例如，GPT-4和MedPalm-2等闭源模型表现优异，通过了美国医学执照考试。同时，像Llama 2这样的开源模型也促进了医学专用语言模型的发展，如MEDITRON、PMC-LLaMA、MedAlpaca和ChatDoctors，逐步缩小了与闭源模型的性能差距。然而，这些模型主要面向英语应用，限制了其在更广泛语言环境中的使用。在开源的多语言LLM领域，尽管模型如BLOOM和InternLM已在多语言语料库上训练，但在非英语医学问题上的表现仍不理想，主要原因是医疗内容在通用数据集中占比不足。本文通过开发一个开源的多语言医疗语言模型，旨在填补这一空白。

图 1

作者的贡献包括三方面：首先，作者构建了一个包含255亿tokens的多语言医学语料库MMedC，用于自回归训练；其次，作者提出了一个多语言医学多项选择问答基准MMedBench，用于评估模型在零样本和微调设置下的问答和推理能力；最后，作者测试了多种现有模型及在MMedC上进一步训练的模型。通过这些全面评估，作者希望更好地理解模型在多语言医学问题处理中的能力。

数据统计

作者统计了两个数据集的详细情况，即目前最广泛的多语言医学语料库MMedC和新的多语言医学基准MMedBench。

图 2

如图2所示，MMedC是一个包含超过255亿tokens的多语言医学语料库，主要来自四个来源：从大型多语言语料库中过滤的医学内容、医学教科书、医学网站以及现有的小规模语料库。语料库涵盖六种语言，英语占比42%，俄语最少，仅占7%，但即使最小份额也相当于约20亿tokens。

图 3

为了更好地评估多语言医学模型，作者还提出了MMedBench，一个多语言医学问答基准。该基准包含训练和测试用例的数量、答案选项分布，以及问答对的平均长度。如图3a所示，MMedBench包含许多带有多选答案的问题，答案部分平均有200个标记，用于训练模型生成和理解复杂的推理内容。

作者利用GPT-4将每个问题分类为21个医学主题，如内科、生物化学、药理学、精神病学、微生物学等，并由至少两位临床医生验证其准确性，确保涵盖医学领域的广度。图3b展示了MMedBench从基础临床医学到药理学和公共卫生等专业领域的医学问题，尤其侧重于内科和生物化学。这表明该基准在评估模型处理广泛医学问题的能力方面非常有效。

MMedBench评估

作者使用MMedBench对主要的LLMs进行了全面评估，包括零样本、参数高效微调（PEFT）和全量微调。评估侧重于多项选择题的准确性和生成推理的能力。模型分为四类：闭源LLMs、流行的开源LLMs、医学专用开源LLMs，以及在MMedC上进一步训练的模型。

首先，作者评估了GPT-3.5、GPT-4和Gemini-1.0 pro等闭源模型，它们仅在零样本设置下测试。由于训练数据不公开，难以判断其是否真正“零样本”。接着，作者评估了开源模型如Mistral、InternLM 2和Llama 3，发现它们在零样本设置下表现较差，故在微调设置下进行对比。最后，作者测试了在MMedC上进一步训练的模型，包括MMedLM、MMedLM 2和MMed-Llama 3，这些模型通过自回归训练，提升了医学领域的知识。

在多语言多项选择问答任务中，医学专用LLMs在英语中表现较好，但在其他语言中的表现显著下降。微调后的开源模型逐步缩小了与GPT系列的差距，如Mistral、InternLM 2和Llama 3在MMedBench上的平均准确率分别为60.73、58.59和62.79。进一步在MMedC上训练后，MMed-Llama 3表现出显著提升，如在全量微调中，MMed-Llama 3的准确率达到67.75，高于未训练版本的62.79。

图 4

除了多项选择问答任务，作者还评估了各模型的推理能力，使用BLEU、ROUGE等自动化指标以及BERT-score进行评价，并结合人工评分。作者随机选取测试集中的50个样本，由5位医学研究生对生成结果进行评分，评价标准包括准确性、推理能力和专业知识，同时使用GPT-4作为辅助评估者。图4a显示，MMed-Llama 3在人工评分（4.10）和GPT-4评分（4.73）中均得分最高。

作者还分析了自动化指标与人工评分的相关性，结果表明GPT-4的评分与人工评分的相关性最高，但不易推广到新模型评估。在自动化指标中，BERT-score表现最为可靠，因此建议在未来研究中使用BERT-score作为推理能力评估的基准。

英文基准评估

作者在MMed-Llama 3的微调中加入了额外的英文指令，并与其他LLMs在英文基准上进行了对比。评估基准包括MedQA、MedMCQA、PubMedQA和MMLU-Medical。MedQA和MedMCQA主要测试诊断和治疗能力，PubMedQA侧重于生物医学学术问答，MMLU-Medical则评估基本医学知识。

表 3

如表3所示，MMed-Llama 3在这些基准上表现出色，在MedQA、MedMCQA和PubMedQA上分别提升了4.5%、4.3%和2.2%。在MMLU上，该模型的表现也优于大部分开源LLMs，显著超越GPT-3.5，得分72.59对比67.69。

数据组成的消融研究

作者对MMedLM、MMedLM 2和MMed-Llama 3在全量微调下的数据组成进行了分析，使用InternLM等模型作为基础。总体结果一致，以下讨论重点在MMed-Llama 3。

作者区分了高质量数据（HQ-Data）和未指定来源数据（US-Data）。HQ-Data来自经过人工验证的书籍和网站内容，US-Data则是从通用语料库中筛选的医学内容。结果表明，添加全面的推理数据使模型多选题的准确率平均提高了4.06个百分点，从58.72上升到62.79。然而，仅在英语数据上进行自回归训练没有显著提升，可能是因为英语过拟合，导致其他语言表现下降。扩展到整个多语言医学语料库后，模型表现显著改善，准确率提升到64.40，推理能力在BLEU-1和ROUGE-1上分别提高0.48和0.54。此外，加入自动收集的US-Data后，准确率进一步提升到67.75，推理能力也有所提升。

讨论

作者的研究表明，基于MMedC的自回归训练能显著提升模型性能，尤其在多语言医学背景下。高质量、多样化的数据源能提高模型表现，而在MMedBench上结合推理数据微调也提高了问答准确率。此外，强大的LLM基础模型可提升最终结果，说明未来应更注重构建医学开源数据集。该研究推动了多语言医学LLM的发展，有助于实现更广泛的医学人工智能应用、提升跨语言检索生成能力，并在临床上缓解语言障碍、文化差异等问题。然而，数据偏见、解释性不足及语言覆盖有限仍是面临的挑战，未来需要进一步改进。

编译|于洲

审稿|王梓旭

参考资料

Qiu P, Wu C, Zhang X, et al. Towards building multilingual language model for medicine[J]. Nature Communications, 2024, 15(1): 8384.

http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247507394&idx=1&sn=cf79cb218121de0efe20649f8973f21d

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

Cell Systems | Genesis探索“暗物质“蛋白折叠，折叠蛋白成功率结果鼓舞人心

Trends Pharmacol Sci. | 计算策略的集成与联用推动抗菌肽智能研发

Nat. Commun. | 使用CADD针对AcpS设计全新抗生素家族，实验效果显著！

美国佛罗里达大学计算机系/药物化学系AI制药课题组诚招全奖博士

分子表征从「图」到「视频」，1.2亿帧、200万分子，湖大分子视频基础模型登Nature子刊

《卫生健康行业人工智能应用场景参考指引》发布，推动“人工智能+”在卫生健康领域创新发展

香港科技大学（广州）人工智能学域助理教授戴恩炎招收AI for Protein 全奖Ph.D. 及 Intern

J. Chem. Inf. Model. | 基于MoE的解离动力学模型助力设计“长效药”

NeurIPS 2024 | WKM: 增强智能体规划的世界知识模型

Protenix: AlphaFold3的再现 – ByteDance AML AI4Science团队

Google DeepMind 开源 AlphaFold 3

世界糖尿病日特别直播：后司美时代“减脂增肌”前沿靶点与药物研究

Equitorch: 基于pyg的模块化等变图神经网络包

Nat. Commun. | 迈向医学大语言模型！上海交通大学团队构建数据集与评估基准

Science | 通过结构域分类探究蛋白质宇宙的结构多样性

NCS+NC｜湖南大学DrugAI实验室同一天发表两项重要成果

PNAS | 在AlphaFold 2上升级，佐治亚理工学院团队预测SARS-CoV-2刺突蛋白RBD的抗体表现

首个！四大高校联合推出药物研发大语言模型Y-Mol，性能全面领先LLaMA2

BMC biology | 多源提示的大语言模型药物重定位框架DrugReAlign

AI2BMD登上Nature，以量子级精度推进蛋白质动力学

Nat. Comput. Sci. | 单步训练2个分子，主动深度学习远超传统筛选

Nat. Biotechnol. | 戴上启动帽，MIT王潇团队提出LEGO增强翻译能力

2024年上海交通大学溥渊国际青年科学家论坛

J. Chem. Inf. Model.｜利用化学语言模型导航超大虚拟化学空间

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

Nat. Mach. Intell. | CGN+CAN=CGN！Frad大尺度扰动分子提升属性预测

Nat. Commun. | 或为多领域带来启发？SymProFold准确预测对称蛋白质组装体

Nature | 蛋白质遗传结构很复杂？Ben Lehner使用加性能量模型得出相反结论！

Nat. Mach. Intell. | 宋江宁团队合作开发CD8+ T细胞受体识别抗原表位的预测新方法

礼来“三顾”口服小分子IL-17a抑制剂，DC-853成临床独苗，DC-806完成使命，退出舞台

全球首款间充质基质细胞药物获FDA批准开展临床试验

TPAMI | MVNA：自适应邻域感知的图卷积网络

Nat. Microbiol. | 加速版RoseTTAFold来了！RF2-Lite快速识别蛋白质-蛋白质相互作用

Nat. Genet. | 寻找基因-表型新关联！MILTON精准预测多种疾病

Angew. Chem. Int. Ed. | 通过荧光偏振和原位合成筛选抑制剂：加速药物发现的有效方法

Nat. Med. | 治疗罕见疾病，哈佛医学院提出TxGNN用于药物再利用

TPAMI | MVNA：自适应邻域感知的图卷积网络

Bioinf. | 双视图联合学习实现个性化药物协同预测性能的突破

J. Med. Chem. | 小分子药物研发的计算方法现状

J. Med. Chem. | DEL+AI，探索多样性“化学空间”

Cell |中山大学联手阿里云，LucaProt记录隐藏的RNA病毒圈

Nat. Biotechnol. | David Baker又一力作！ProteinGenerator蛋白序列、结构共设计

就在本周，10月27日第三届中国生物计算大会即将开幕！

Nat. Mach. Intell. | 基于提示学习的多性质分子优化方法

【Angew】来鲁华/张长胜团队在全原子蛋白质序列设计中取得新进展

Nat. Commun. | 开发深度学习联结自编码器实现多模态单细胞数据整合与插补工具

JCIM综述｜知识图谱嵌入技术在化学领域中的研究进展与应用

Nat. Methods | SCUBA-D无需预训练结构模型也能做好蛋白设计！秘诀是对抗性损失与序列扩散

MDGen：分子动力学轨迹的生成式建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉