【Visual Intelligence】四川大学、南开大学、阿联酋MBZUAI等6所大学团队最新成果：视觉语言大模型性能评估

学术 2024-11-14 18:08 北京

－ PROGRAM LIST －

论文信息

题目：Effectiveness Assessment of Recent Large Vision-language Models

作者：Yao Jiang, Xinyu Yan, Ge-Peng Ji, Keren Fu, Meijun Sun, Huan Xiong, Deng-Ping Fan & Fahad Shahbaz Khan

引用格式：Jiang, Y., Yan, X., Ji, G.-P., Fu, K., Sun, M., Xiong, H., Fan, D.-P., & Khan, F. S. (2024). Effectiveness assessment of recent large vision-language models. Visual Intelligence 2, Article no. 17.

全文链接：https://link.springer.com/article/10.1007/s44267-024-00050-1

关键词：Large vision-language models (LVLMs), Recognition, Localization, Multi-modal understanding

－ PROGRAM LIST －

文章概述

本文选取了自然、医疗和工业三个应用场景中的六项挑战性任务，包括显著物体检测、伪装物体检测、透明物体检测、息肉检测、皮肤病变检测和工业异常检测，对三个最新的开源视觉语言大模型（MiniGPT-v2、LLaVA-1.5和Shikra）的识别和定位能力进行了评估。此外，本文还结合GPT-4V，对这些模型在物体计数、荒谬问题回答、功能推理、属性识别和空间关系推理等通用任务中的多模态理解能力进行了实证性调查。结果表明，上述视觉语言大模型不仅在专用任务上性能有限，在通用任务中的性能也有较大提升空间。本文进一步分析了限制上述模型性能的多种潜在因素，包括对专用任务有限的认知、物体幻觉问题、文本-图像干扰以及在处理复杂问题时降低的鲁棒性等。

－ PROGRAM LIST －

主要贡献

(1) 构建了一个综合性的评估平台，涵盖了六项专用任务和五项通用任务，旨在全面评估视觉语言大模型的性能表现和应用潜力。

(2) 对三个主流视觉语言大模型的专用能力和四个模型的通用能力进行评测，以深入探究其在不同任务场景下的适应性和效能。

(3) 通过定量分析和实证调查，本文揭示了视觉语言大模型在专用任务和通用任务中的性能优势与局限。文章进一步讨论了视觉语言大模型的应用和发展前景，以及如何通过技术创新和模型优化来克服现有挑战，推动其在更广泛领域的应用。

－ PROGRAM LIST －

主要内容

图 1 评估平台示意图

评估平台如图1所示。本文使用指定和不指定物体类型的定制化提示，对视觉语言大模型在专用和通用任务上的能力进行评估。为准确评估视觉语言大模型在专用任务上的有效性，本文选取了自然、医疗和工业三个不同应用场景中的六项挑战性任务，包括显著目标检测、伪装目标检测、透明目标检测、息肉检测、皮肤病变检测以及工业异常检测。基于上述任务，本文对三个最新的开源视觉语言大模型（MiniGPT-v2、LLaVA-1.5和Shikra）的视觉识别和定位能力进行了测试。

在识别能力评估阶段，本文设计评估方案，要求模型对图像中特定类型物体的存在性或其具体类别进行识别。在定位能力评估阶段，本文采用了两步评估策略。首先，利用视觉语言大模型对目标进行检测。随后，结合检测结果和SAM模型（Segment Anything Model）进行精细分割。此外，本文基于通用数据集COCO的部分样本，开展了实证调查，以评估MiniGPT-v2、LLaVA-1.5、Shikra以及GPT-4V在五大通用任务中的多模态理解能力。这些任务包括物体计数、荒谬问题问答、物体功能推理、属性识别和空间关系推理。

表1简要总结了所选模型在专用任务上的识别和定位性能。结果表明，尽管这些模型在特定任务上展现出了一定的潜力，但它们的识别和定位能力均未达到实际应用的要求，尚存在显著的提升空间。在所有参与评估的模型中，仅有Shikra在透明物体检测（TOD）任务上达到了高（H）级别的性能表现。相较于LLaVA-1.5、MiniGPT-v2和Shikra在定位能力上表现出了较为优越的性能，而在识别能力上，LLaVA-1.5则展现出了较强的优势。本文对失败案例进行了进一步的调查分析。分析发现，对专用任务有限的认知、物体幻象问题、文本-图像干扰以及在处理复杂问题时鲁棒性的不足，均可能是制约模型在专用任务上性能表现的关键因素。

表 1 模型在专用任务上的识别和定位性能比较

注：MiniGPT-v2、LLaVA-1.5和Shikra在显著物体检测（SOD）、透明物体检测（TOD）、伪装物体检测（COD）、息肉检测（PD）、皮肤病变检测（SLD）和异常检测（AD）上的性能比较。本文以各项任务上性能上限的60%和80%为阈值将模型性能分为低(L)、中(M)和高(H)三个水平。“-”表示不确定的情况，因为该评估只在全阳性样本上进行，而模型会产生过度积极的问题，进而导致结果难以判断。

四个模型在通用任务上的表现显示，虽然视觉语言大模型在部分通用任务上取得了较好的效果，但是在物体计数，空间关系推理和荒谬问题问答等任务上还有较大提升空间。

总体而言，当前视觉语言大模型距离人工通用智能还有很大的差距，视觉语言大模型的性能和可靠性仍低于实际应用场景。

－ PROGRAM LIST －

未来研究展望

当前，视觉语言大模型在专用任务和部分通用任务上的表现并不尽如人意。在未来的研究中，提升模型对专用任务的认知和克服幻觉等问题是实现其性能飞跃的关键。具体而言，可以采用提示工程（prompt engineering）技术来探索更高效的提示方式，或者通过提示调优（prompt-tuning）和微调（fine-tuning）等方法，将特定领域的知识整合到模型中。此外，引入思维链（chain of thought）等技术缓解幻觉问题，利用更复杂问题下的图文数据等训练具备更强能力的视觉语言大模型，也是提升其在专用和通用任务上性能的可行途径。最后，考虑到多模态视觉线索在视觉任务中的重要性，扩展视觉语言大模型以利用深度信息等互补的视觉信息，是提升模型在复杂场景下感知能力的重要研究方向。

尽管视觉语言大模型的性能尚有巨大的提升空间，但其在图像摘要、描述以及部分视觉问答任务中已经展现出令人瞩目的成果。预计未来将有更多的应用涌现，例如利用LVLMs辅助数据标注等。此外，通过生成单帧目标描述，LVLMs在视频目标分割和视频字幕生成等任务中也展现出进一步的应用潜力。

作者简介

蒋遥，四川大学计算机学院博士研究生，研究方向包括图像分割，多模态学习等。

闫馨宇，天津大学博士研究生，研究方向包括显著性对象检测、伪装对象检测、高精主体对象分割等。

季葛鹏，澳大利亚国立大学工程、计算和控制论学院在读博士生，研究方向包括计算机视觉，多模态理解和医学图像分析等。

傅可人，四川大学计算机学院副研究员。研究方向包括计算机视觉，显著/伪装目标分析，深度学习等。

孙美君，天津大学智能与计算学部教授，研究方向包括视觉大模型、新能源预测大模型、智能制造大模型、文物保护等。

熊欢，哈尔滨工业大学数学研究院教授，博士生导师。研究方向包括组合数学和机器学习等。

范登平，南开大学教授、博士生导师，计算机科学与技术系主任，入选国家级“四青”人才，曾任阿联酋起源人工智能研究院研究主管。研究方向包括计算机视觉、多模态学习和医学图像分析等。

Fahad Shahbaz Khan，阿拉伯联合酋长国阿布扎比MBZUAI大学教授、计算机视觉副系主任。研究方向包括计算机视觉和机器学习等。

图像图形领域高质量科技期刊分级目录

中国图象图形学学会科普活动、素材征集通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果评价的通知

2024年CSIG图像图形中国行承办方征集中

http://mp.weixin.qq.com/s?__biz=MzUxMDE4MzAzOA==&mid=2247807818&idx=3&sn=95524108df55ccf22c00b7de15a4671e

中国图象图形学学会CSIG

发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息，促进该学科技术的发展和在国民经济各个领域的推广应用。

最新文章

【ChinaVR 2024】第二十四届中国虚拟现实大会顺利举办

【动态】第五期中国图象图形学学会理事荟活动成功举办

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【动态】第32期CSIG企业行—走进北京航天晨信科技有限责任公司成功举办

【直播预告】CSIG图像图形技术国际在线研讨会第13期将于11月22日举办

【CSIG青年科学家会议2024】大会论坛总览

【速览】NeurIPS 2024 | 长尾目标检测预训练：具有对偶重构的动态重平衡对比学习

【预告】可信联邦学习冬令营·武汉站将于11月18-19日举办

【Visual Intelligence】四川大学、南开大学、阿联酋MBZUAI等6所大学团队最新成果：视觉语言大模型性能评估

【动态】CSIG图像图形学科前沿讲习班--“AIGC+具身智能前沿技术及创新应用”成功举办

【预告】第二届CSIG情感智能大会将于12月6-8日举办

【学习时间】构建与新质生产力相适应的新型生产关系

【动态】通用人工智能青年科学家沙龙在京举办

【Visual Intelligence】南洋理工大学和复旦大学团队：PrimitiveNet模型：在引用分割任务中拆解全局约束

【科普动态】“CSIG科普大讲堂--11.9全国消防日：智慧消防科普活动”成功举办

【动态】CSIG成像探测与感知专委会举办二十五期“AI新青年讲坛”学术活动

【动态】CSIG成像探测与感知专委会举办二十六期“AI新青年讲坛”学术活动

【委员纳新】2024年CSIG情感计算与理解专委会委员纳新！

【直播预告】第五期CSIG理事荟活动将于11月14日晚8点开始

【动态】中国图象图形学学会走进启元实验室调研交流

【竞赛】“天翼云息壤杯”高校AI大赛，百万奖金等你来！

【科普动态】CSIG数字媒体取证与安全专委会走进合肥市中国科技大学附属中学

【动态】第三十期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

【通知】关于召开第五届CSIG图像图形高峰论坛暨CSIG遥感图像专委会工作会议的通知

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【直播预告】CSIG云讲堂：11月12日19点，佃仁伟主讲：高光谱融合成像

【党建】CSIG数字媒体取证与安全专委会党小组红色党建第二次活动成功举办

【动态】2024中国机器智能与生物医学交叉创新论坛圆满举行

【动态】第30期企业行——走进视比特机器人成功举办

【动态】第31期企业行——走进铁建重工成功举办

【活动预告】通用人工智能青年科学家沙龙将于11月9日在北京召开

【动态】Visual Intelligence 视觉智能前沿报告会在上海交通大学成功举办

【动态】中国图象图形学学会第八期优博论坛顺利召开

【动态】CSIG数字媒体取证与安全专委会召开2024年度常务委员会会议

【学习时间】习近平对社会工作作出重要指示

【CCIG 2025】2025中国图象图形大会论坛征集正式开启

【动态】第四期中国图象图形学学会理事荟活动成功举办

【预告】“AIGC+具身智能前沿技术及创新应用”讲习班将于11月9日在杭州开班！

【动态】CSIG数字媒体取证与安全专委会召开2024年专委会换届暨纳新会议

【预告】CSIG11月活动速递第一弹，快来一睹为快~

【动态】人工智能与虚拟现实赋能文化遗产学术研讨会暨中国图象图形学学会数字文化遗产专委会走进泉州师范学院成功举办

【预告】复杂地下空间火灾风险评估和应急救援+消防科普活动将于11月9日举办

【预告】第32期CSIG企业行——走进航天晨信将于11月6日举办

【通知】2025图像图形领域系列榜单征集遴选活动正式启动！

【动态】2024第五届中国媒体取证与安全大会在济南成功举办

【CSIG月报】2024年10月热点回顾

【预告】首届“CSIG青少年智能技术与创新科普活动”邀您共参与

【速览】TNNLS 2024 | 基于轻量级注意力的实时双路径物体检测网络

【ChinaVR 2024】特邀嘉宾重磅预告

【动态】2024年中国科协海智专家服务团湖南行暨中国图象图形学学会智能制造新质生产力研讨会在长沙成功召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉