微软人工智能研究推出MVoT:在复杂任务中集成视觉和语言推理的多模态框架

文摘   2025-01-18 07:45   福建  

 多模态大型语言模型(MLLMs)在处理复杂任务方面取得了显著进展,但在动态环境中将文本和视觉推理结合起来仍然存在挑战。尽管现有模型在文本或图像输入上表现良好,但在同时处理这两种输入时,尤其是在空间推理任务中,如迷宫导航和动态布局解释,表现不佳。为了解决这些问题,来自微软研究院、剑桥大学和中国科学院的研究人员提出了多模态思维可视化(MVoT)框架,该框架能够将视觉推理与语言推理交织在一起,提供更为综合的多模态推理能力。

MVoT框架通过将视觉思维能力直接嵌入模型架构中,消除了对外部工具的依赖,从而提升了复杂推理任务的表现。使用经过微调的Chameleon-7B模型,MVoT在多个空间推理任务中表现出色,例如在迷宫导航任务中达到了92.95%的高准确率,超越了传统的链式思维方法。该框架不仅提高了性能,还通过生成视觉思维轨迹增强了可解释性,使用户能够直观地理解模型的推理过程。

参考:

  1.  https://arxiv.org/abs/2501.07542



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章