生物医学与人工智能:生物医学专家LLM,阿拉伯语英语双语
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
2024-12-10|MBZUAI, Linköping U, STMC, Tawam, SSMC, Govt Medical College Kozhikode|🔺20
http://arxiv.org/abs/2412.07769v1
https://huggingface.co/papers/2412.07769
https://github.com/mbzuai-oryx/BiMediX2
研究背景与意义
在医疗人工智能的快速发展中,医疗大型语言模型(LLMs)和大规模多模态模型(LMMs)展现出改善医疗咨询可及性的巨大潜力。然而,目前的研究大多集中于英语,这导致非英语国家在获取医疗服务时面临显著障碍。尤其是在阿拉伯语广泛使用的地区,这种语言偏见限制了AI驱动的医疗解决方案的可及性。因此,开发能够支持阿拉伯语和英语的双语医疗模型显得尤为重要。BiMediX2项目旨在填补这一空白,通过引入一个双语的生物医学专家LMM,解决现有医疗LMM在多模态集成时的局限性,确保医疗服务的普遍可及性。
研究方法与创新
BiMediX2基于Llama3.1架构,整合文本和视觉模态,支持双语(阿拉伯语和英语)的无缝交互。该模型的训练数据集包括160万个样本,涵盖多种医疗交互,确保了模型在多种医疗任务中的卓越表现。其创新之处在于:
双语支持:首次推出双语医疗LMM,能够在多种医疗图像模态上实现最先进的性能。 BiMed-V数据集:开发了一套综合的阿拉伯语-英语双语多模态指令集,包含160万条指令,确保模型能够处理复杂的医疗指令。 BiMed-MBench基准:引入了第一个基于GPT-4o的双语医疗LMM基准,涵盖286个医疗查询,经过医疗专家验证,确保其临床相关性和准确性。
实验设计与结果分析
BiMediX2在各种医疗基准上的表现超越了现有的最先进模型,特别是在多模态医疗评估中,英语评估提高了9%以上,阿拉伯语评估提高了20%以上。模型在视觉问答、报告生成和报告摘要等任务中表现优异,展示了其在多种医疗场景中的有效性。
视觉问答:在Path-VQA、SLAKE和Rad-VQA等数据集上,BiMediX2展现出卓越的理解能力,能够准确回答基于医疗图像的问题。 报告生成:在MIMIC-CXR数据集上,模型能够生成详细且准确的医疗报告,显示出其在医疗文档处理中的应用潜力。 报告摘要:在MIMIC-III数据集上的评估中,BiMediX2的摘要能力也达到了行业领先水平。
结论与展望
BiMediX2的推出不仅填补了双语医疗AI领域的空白,还为多模态医疗应用的未来发展奠定了基础。通过整合文本和视觉模态,该模型能够在阿拉伯语和英语之间实现无缝转换,为医疗服务的可及性和质量提供了新的解决方案。未来的研究将集中在进一步提高模型的安全性和准确性,确保其在临床环境中的可靠性和有效性。