多模态大型语言模型(MLLMs)在处理复杂任务方面取得了显著进展,但在动态环境中将文本和视觉推理结合起来仍然存在挑战。尽管现有模型在文本或图像输入上表现良好,但在同时处理这两种输入时,尤其是在空间推理任务中,如迷宫导航和动态布局解释,表现不佳。为了解决这些问题,来自微软研究院、剑桥大学和中国科学院的研究人员提出了多模态思维可视化(MVoT)框架,该框架能够将视觉推理与语言推理交织在一起,提供更为综合的多模态推理能力。
MVoT框架通过将视觉思维能力直接嵌入模型架构中,消除了对外部工具的依赖,从而提升了复杂推理任务的表现。使用经过微调的Chameleon-7B模型,MVoT在多个空间推理任务中表现出色,例如在迷宫导航任务中达到了92.95%的高准确率,超越了传统的链式思维方法。该框架不仅提高了性能,还通过生成视觉思维轨迹增强了可解释性,使用户能够直观地理解模型的推理过程。
参考:
https://arxiv.org/abs/2501.07542
点个分享、点赞与在看,你最好看~