仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

学术 2024-10-17 11:47 北京

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

开源、多语言医学语言模型的开发可使来自不同地区的广泛、语言多样化的受众受益。

为了推动这一领域的发展，上海交通大学的研究团队构建了一个多语言医学语料库，包含约 255 亿个 token，涵盖 6 种主要语言，称为 MMedC，可实现一般 LLM 的自回归领域自适应。

同时，为了监测多语言医学 LLM 的发展，研究人员还提出了一个具有合理性的多语言医学多项选择题答疑基准，称为 MMedBench。

并且，团队在基准上评估了许多开源大型语言模型（LLM），以及在 MMedC 上进一步进行自回归训练的模型。

他们的最终模型 MMed-Llama 3 仅有 8B 个参数，在 MMedBench 和英语基准上都比所有其他开源模型取得了优异的性能，甚至可以与 GPT-4 相媲美。

该研究以「Towards building multilingual language model for medicine」为题，于 2024 年 9 月 27 日发布在《Nature Communications》。

在近期的文献中，大型语言模型（LLM）在医疗保健领域表现出巨大的前景，例如，GPT-4 和 MedPalm-2 等闭源模型表现出色，并成功通过了美国医师执照考试（USMLE）。

同时，Llama 2 等开源模型也促进了 MEDITRON、PMC-LLaMA、MedAlpaca 和 ChatDoctors 等医学专用语言模型的发展，逐渐缩小了与闭源同行的性能差距。

虽然取得了些许进步，但这些复杂的医学语言模型主要侧重于英语应用，限制了它们的潜在影响力，使其无法惠及更广泛、语言多样化的受众。

一个大规模多语言医学语料库

在最新的研究中，上海交通大学的研究团队开发了一个大规模多语言医学语料库 (MMedC)，收集了六种主要语言（英语、中文、日语、法语、俄语和西班牙语）中超过 255 亿个与医学相关的 token。

图示：MMedC 上的统计结果。（来源：论文）

这个多样化的数据集来自四个不同的来源：

（i）研究人员设计了一条自动化管线，从广泛的多语言语料库中筛选出与医学相关的内容，确保数据集的重点和相关性；

（ii）该团队整理了大量各种语言的医学教科书，并通过精心设计的预处理将它们转换成文本，例如光学字符识别 (OCR)、启发式数据过滤等；

（iii）为了保证医学知识的广泛涵盖，研究人员整合了一些开源医学网站的文本，以权威、全面的医学信息丰富他们的语料库；

（iv）还整合了许多现有的小型医学语料库数据集，进一步增强了语料库的广度和深度。

研究人员表示，MMedC 是第一个专门针对多语言医学领域构建语料库的尝试。

一套新基准

至于新基准，该团队首先汇总 MMedC 上现有的六种语言的医学多项选择题 QA 数据集。研究人员使用 GPT-4 进一步增强这些数据集的合理性内容，通过支持正确答案的解释来丰富数据集。

这些数据集涵盖了六种语言的 53,566 个 QA 对，独特地同时提供多项选择题 QA 和伴随的合理性推理。这个广泛的集合涵盖了 21 个医学领域，包括但不限于内科、生物化学、药理学和精神病学等，称为多语言医学基准 (MMedBench)。

图示：MMedBench 上的统计结果。（来源：论文）

研究人员将其分为 45,048 个训练对和 8518 个测试对。训练拆分使得在特定领域持续训练后可以对 LLM 进行微调。他们利用包含 8518 个 QA 对的整个测试集来评估多项选择题回答的准确性。

为了进一步检验模型的推理能力，研究人员选择了 1136 个 QA 对的子集，每个 QA 对都附有手动验证的合理句子，作为更专业的推理评估基准。

全面的基准测试

在评估阶段，研究人员对 11 个现有的具有多语言支持的 LLM 进行了全面的基准测试，包括 GPT-3.5、GPT-4、Gemini-1.0 pro、BLOOM、InternLM、InternLM 2、MedAlpaca、ChatDoctor、PMC-LLaMA、Mistral、BioMistral、MEDITRON、Llama 2 和 Llama 3，以及使用 MMedC 进一步训练的 LLM。

这些模型在三种不同的设置下进行了评估：零样本、参数高效微调 (PEFT) 和完全微调。

鉴于评估理论质量的复杂性（需要评估长句的语义完整性），除了利用主流的自动化指标外，该团队还在分析中加入了人工评分。

这种双重方法不仅可以全面衡量每个模型的性能，还使他们能够仔细研究自动化指标与人类判断之间的相关性。通过这种分析，研究人员可以确定最可靠的指标以进行扩展比较，从而丰富评估大型语言模型推理能力的方法。

优化措施都是有效的

图示：模型评级的比较分析。（来源：论文）

首先，MMedC 的自回归训练是有效的。结果显示，所有 MMedLM、MMedLM 2 和 MMed-Llama 3 都比其原始基线模型（即 InternLM、InternLM 2 和 Llama 3）有显著的改进，凸显了 MMedC 在提供有针对性的特定领域知识方面的有效性。

此外，观察到的性能提升表明，现有 LLM 的预训练语料库在面对多语言医学背景时存在局限性。该研究结果强调了 MMedC 等专业语料库弥补这些差距的必要性。

其次，纳入更多数据通常是有效的。在探索不同数据源如何影响语言模型性能结果时，纳入高质量的多语言数据 (HQ-Data) 可以显著提高性能。

此外，研究人员观察到，即便与更明确的医学相关来源相比，从一般语言语料库中过滤的数据质量相对较低，但整合这些数据也是有效的。这一改进凸显了在 MMedC 中整合各种数据类型的价值。

第三，将理论融入微调是有效的。在 MMedBench（训练集）上进行微调时，将理论数据与多项选择预测相结合可以提高特定任务的性能。在监督微调阶段将正确答案与其理由结合起来，不仅能让 LLM 输出理由句子，而且在 MMedBench（测试集）上的多项选择题准确率也显著提高：InternLM 提高了 2.33%，InternLM 2 提高了 2.42%，Llama 3 提高了 4.07%。

第四，强大的基础 LLM 可以提高最终结果。在 MMedBench 上，研究人员注意到更强大的 LLM 主体通常会提高多语言医疗问答的最终结果。随着更高级的 LLM 发布，它们的预训练语料库已大大扩展，逐渐涵盖更多语言。

尽管非英语语言只占总数的一小部分，但整体语料库的庞大数量使模型能够在训练期间遇到大量的多语言文本，从而显著增强了它们的多语言能力，从 Llama 2、Mistral 和 Llama 3 之间的比较可以看出，后者的模型表现都比前者好得多。

这种通用多语言能力的增强也可以提高医学领域适应后的表现（MMedLM vs. MMedLM 2 vs. MMed-Llama 3）。这一观察结果表明，研究人员应该更加注重建立医学开源数据集，以便未来的工作能够更好地利用通用 LLM 的快速改进。

图示：整体概述。（来源：论文）

潜在意义

该研究促进了通用医学人工智能 (GMAI) 的发展。GMAI 致力于开发一种多模态人工智能模型，可直接应用于广泛的医疗保健场景，其中 LLM 通常用作人机界面。

用多语言的 LLM 取代以英语为中心的 LLM 可以充分利用全球数据源，从而扩展可用的多模态训练数据，并提高其他模态的表示质量。

改进检索增强生成。幻觉被认为是现有 LLM 的一个主要问题，尤其是在医学领域。一个潜在的解决方案是开发检索增强架构。

主要动机是，通过从额外的知识库中检索事实，LLM 生成的输出可以避免大多数致命的事实错误。然而，到目前为止，大多数研究都是用英语进行的，这极大地限制了检索增强方法利用其他语言的医学知识。开发多语言 LLM 可以有益于检索过程，极大地丰富潜在的可用知识库。

对临床的影响

消除语言障碍。在许多医疗保健系统中，患者和医疗服务提供者之间的语言障碍会阻碍有效沟通，导致误解、误诊和护理不足，导致大多数人无法获得高质量的医疗资源。多语言医学 LLM 可以促进实时翻译和口译，确保患者能够有效地传达他们的症状并了解他们的诊断和治疗方案。

降低文化和法律敏感性。多语言医学 LLM 还可以接受训练，以识别和解决医疗保健互动中不同国家的文化或法律细微差别和敏感性。了解文化背景和法律差异可以大大增强对医学 LLM 的信任，从而带来更好的健康结果。

帮助医学教育。这些模型还可以针对教育进行定制，特别是在缺乏医学教育者或资源的地区。通过提供多种语言的教育材料和模拟，医学多语言 LLM 可以帮助标准化医学训练并确保全球一致的护理质量。

论文链接：https://www.nature.com/articles/s41467-024-52417-z

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503307&idx=1&sn=59dc664f3fc44c57abf24100d85192dd

ScienceAI

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉