- PROGRAM LIST -
题目:Effectiveness Assessment of Recent Large Vision-language Models
作者:Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan & Fahad Shahbaz Khan
引用格式:Jiang, Y., Yan, X., Ji, G.-P., Fu, K., Sun, M., Xiong, H., Fan, D.-P., & Khan, F. S. (2024). Effectiveness assessment of recent large vision-language models. Visual Intelligence 2, Article no. 17.
全文链接:https://link.springer.com/article/10.1007/s44267-024-00050-1
关键词:Large vision-language models (LVLMs), Recognition, Localization, Multi-modal understanding
- PROGRAM LIST -
- PROGRAM LIST -
(1) 构建了一个综合性的评估平台,涵盖了六项专用任务和五项通用任务,旨在全面评估视觉语言大模型的性能表现和应用潜力。
(2) 对三个主流视觉语言大模型的专用能力和四个模型的通用能力进行评测,以深入探究其在不同任务场景下的适应性和效能。
(3) 通过定量分析和实证调查,本文揭示了视觉语言大模型在专用任务和通用任务中的性能优势与局限。文章进一步讨论了视觉语言大模型的应用和发展前景,以及如何通过技术创新和模型优化来克服现有挑战,推动其在更广泛领域的应用。
- PROGRAM LIST -
图 1 评估平台示意图
评估平台如图1所示。本文使用指定和不指定物体类型的定制化提示,对视觉语言大模型在专用和通用任务上的能力进行评估。为准确评估视觉语言大模型在专用任务上的有效性,本文选取了自然、医疗和工业三个不同应用场景中的六项挑战性任务,包括显著目标检测、伪装目标检测、透明目标检测、息肉检测、皮肤病变检测以及工业异常检测。基于上述任务,本文对三个最新的开源视觉语言大模型(MiniGPT-v2、LLaVA-1.5和Shikra)的视觉识别和定位能力进行了测试。
在识别能力评估阶段,本文设计评估方案,要求模型对图像中特定类型物体的存在性或其具体类别进行识别。在定位能力评估阶段,本文采用了两步评估策略。首先,利用视觉语言大模型对目标进行检测。随后,结合检测结果和SAM模型(Segment Anything Model)进行精细分割。此外,本文基于通用数据集COCO的部分样本,开展了实证调查,以评估MiniGPT-v2、LLaVA-1.5、Shikra以及GPT-4V在五大通用任务中的多模态理解能力。这些任务包括物体计数、荒谬问题问答、物体功能推理、属性识别和空间关系推理。
表1简要总结了所选模型在专用任务上的识别和定位性能。结果表明,尽管这些模型在特定任务上展现出了一定的潜力,但它们的识别和定位能力均未达到实际应用的要求,尚存在显著的提升空间。在所有参与评估的模型中,仅有Shikra在透明物体检测(TOD)任务上达到了高(H)级别的性能表现。相较于LLaVA-1.5、MiniGPT-v2和Shikra在定位能力上表现出了较为优越的性能,而在识别能力上,LLaVA-1.5则展现出了较强的优势。本文对失败案例进行了进一步的调查分析。分析发现,对专用任务有限的认知、物体幻象问题、文本-图像干扰以及在处理复杂问题时鲁棒性的不足,均可能是制约模型在专用任务上性能表现的关键因素。
表 1 模型在专用任务上的识别和定位性能比较
注:MiniGPT-v2、LLaVA-1.5和Shikra在显著物体检测(SOD)、透明物体检测(TOD)、伪装物体检测(COD)、息肉检测(PD)、皮肤病变检测(SLD)和异常检测(AD)上的性能比较。本文以各项任务上性能上限的60%和80%为阈值将模型性能分为低(L)、中(M)和高(H)三个水平。“-”表示不确定的情况,因为该评估只在全阳性样本上进行,而模型会产生过度积极的问题,进而导致结果难以判断。
四个模型在通用任务上的表现显示,虽然视觉语言大模型在部分通用任务上取得了较好的效果,但是在物体计数,空间关系推理和荒谬问题问答等任务上还有较大提升空间。
总体而言,当前视觉语言大模型距离人工通用智能还有很大的差距,视觉语言大模型的性能和可靠性仍低于实际应用场景。
- PROGRAM LIST -
当前,视觉语言大模型在专用任务和部分通用任务上的表现并不尽如人意。在未来的研究中,提升模型对专用任务的认知和克服幻觉等问题是实现其性能飞跃的关键。具体而言,可以采用提示工程(prompt engineering)技术来探索更高效的提示方式,或者通过提示调优(prompt-tuning)和微调(fine-tuning)等方法,将特定领域的知识整合到模型中。此外,引入思维链(chain of thought)等技术缓解幻觉问题,利用更复杂问题下的图文数据等训练具备更强能力的视觉语言大模型,也是提升其在专用和通用任务上性能的可行途径。最后,考虑到多模态视觉线索在视觉任务中的重要性,扩展视觉语言大模型以利用深度信息等互补的视觉信息,是提升模型在复杂场景下感知能力的重要研究方向。
尽管视觉语言大模型的性能尚有巨大的提升空间,但其在图像摘要、描述以及部分视觉问答任务中已经展现出令人瞩目的成果。预计未来将有更多的应用涌现,例如利用LVLMs辅助数据标注等。此外,通过生成单帧目标描述,LVLMs在视频目标分割和视频字幕生成等任务中也展现出进一步的应用潜力。
蒋遥,四川大学计算机学院博士研究生,研究方向包括图像分割,多模态学习等。
季葛鹏,澳大利亚国立大学工程、计算和控制论学院在读博士生,研究方向包括计算机视觉,多模态理解和医学图像分析等。
傅可人,四川大学计算机学院副研究员。研究方向包括计算机视觉,显著/伪装目标分析,深度学习等。
孙美君,天津大学智能与计算学部教授,研究方向包括视觉大模型、新能源预测大模型、智能制造大模型、文物保护等。
熊欢,哈尔滨工业大学数学研究院教授,博士生导师。研究方向包括组合数学和机器学习等。
范登平,南开大学教授、博士生导师,计算机科学与技术系主任,入选国家级“四青”人才,曾任阿联酋起源人工智能研究院研究主管。研究方向包括计算机视觉、多模态学习和医学图像分析等。
Fahad Shahbaz Khan,阿拉伯联合酋长国阿布扎比MBZUAI大学教授、计算机视觉副系主任。研究方向包括计算机视觉和机器学习等。