随着多模态大模型的快速发展,当前主流多模态大模型具备完成多种任务的能力(图文描述、视觉问答、文字识别、图标理解、目标检测等)。但是,这些不同的多模态任务往往具有完全不同的数据分布,导致在模型训练过程中遇到“多任务冲突”的问题,尤其在模型参数量较小时,这种问题尤为突出。如何才能在有限增加模型参数量以及训练成本的条件下,高效地扩展模型容量,缓解多模态大模型“多任务冲突”问题?
近日,针对这一挑战,来自北京市门头沟区的大模型初创公司智子引擎的研究团队开源了基于MoE架构的多模态大模型Awaker2.5-VL。Awaker2.5-VL通过设置多个专家,扩展了模型在不同任务上的能力,有效地缓解了多模态“多任务冲突”的问题。该模型还对MoE中门控网络的路由策略进行了细致的研究,并设计了一个简单且十分有效的路由策略,提升了模型训练的稳定性。Awaker2.5-VL在MME-Realworld和MME-Realworld-CN都位列榜首,且是目前唯一在该Benchmark上“及格”(超过60分)的模型。考虑到MME-Realworld主要面向自动驾驶、遥感、视频监控等复杂场景,Awaker2.5-VL在MME-Realworld上的出色表现很好地展示它在落地应用中的巨大潜力。目前,Awaker2.5-VL的论文和代码已经公开,后续还会更新更强的版本。
2024年,智子引擎已经成功地将Awaker2.5-VL应用于门头沟本地产业,其中有多个复杂的实际场景,包括国家电网、社会治理、服务型机器人等。在即将到来的2025年,智子引擎将继续在门头沟区进行产业深耕,探索Awaker2.5-VL更多的落地应用场景。