华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

科技 2024-12-04 12:03 江苏

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文标题：GLEE: General Object Foundation Model for Images and Videos at Scale
论文地址：https://arxiv.org/abs/2312.09158
代码地址：https://github.com/FoundationVision/GLEE
Demo 地址：https://huggingface.co/spaces/Junfeng5/GLEE_demo
视频地址：https://www.bilibili.com/video/BV16w4m1R7ne/

计算机视觉研究院专栏

Column of Computer Vision Institute

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前依然缺乏一个强大的基础模型。

为了解决这个问题，来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE，一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪，并在实现全能性的同时保持 SOTA 性能。

此外，GLEE 还构建了统一优化目标的训练框架，从超过一千万的多源数据中汲取知识，实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。

1. GLEE 可以解决哪些任务？

GLEE 可以同时接受语义和视觉上的 prompt 作为输入，因此，任意长度的开放词表、目标属性描述、目标位置描述都、交互式的 point，box，mask 都可以被作为 prompt 来指引 GLEE 检测分割出任意目标。具体来说，开放世界的目标检测、实例分割、文本描述的指代检测与分割（referring expression comprehension and segmentation）以及交互式分割都可以被轻松实现。

此外，通过在超大规模的图像数据上进行训练，GLEE 学习到了更加有判别性的目标特征，直接对这些特征进行无参数的帧间匹配可以实现高质量的跟踪，从而将 GLEE 的能力完全扩展到视频任务上。在视频任务中 GLEE 可以实现开放世界的视频实例分割（VIS），视频目标分割（VOS），参考视频实例分割（RVOS）以及交互式的视频目标分割跟踪。

2. GLEE 统一了哪些数据用来训练？

GLEE 使用了来自 16 个数据集的超过一千万图片数据进行训练，充分利用了现有的标注数据和低成本的自动标注数据构建了多样化的训练集，是 GLEE 获得强大泛化性的根本原因。

GLEE 使用的数据根据标注类型可以分为四大类：1）基于词表的目标检测数据集，如 COCO、Objects365。2）基于目标描述的 grounding 数据集，如 RefCOCO 系列、VisualGenome。3）无类语义信息的 open-world 数据集，如 SA1B、UVO。4）视频数据，如 YouTubeVIS、OVIS。GLEE 所使用的图片超过 1 千万，其中标注目标数量超过一亿五千万。

3. GLEE 如何构成？

GLEE 包括图像编码器、文本编码器、视觉提示器和目标检测器，如图所示。文本编码器处理与任务相关的任意描述，包括目标类别词表、目标任何形式的名称、关于目标的标题和指代表达。视觉提示器将用户输入（如交互式分割中的点、边界框或涂鸦）编码成目标对象的相应视觉表示。然后，这些信息被整合到一个检测器中，根据文本和视觉输入从图像中提取对象。

4. 在目标感知任务上的全能性和泛化能力

该研究展示了 GLEE 模型作为一个目标感知基础模型的普适性和有效性，它可以直接应用于各种以目标为中心的任务，同时确保最先进的性能，无需进行微调。

此外，该研究在一些开放词汇表的视频任务中验证了 GLEE 的零样本泛化能力。在 TAO、BURST、LV-VIS 这三个开放词汇表的跟踪数据集上，GLEE 在未经过训练和微调的情况下，取得了令人惊叹的最先进（SOTA）性能，这证明了 GLEE 在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。

5. 作为基础模型的潜力

作为基础模型，该研究用预训练且冻结的 GLEE-Plus 替换了 LISA 的中使用的 SAM backbone，并将 GLEE 的 Object Query 输入到 LLAVA 中，移除了 LISA 的解码器。该研究直接将输出的 SEG 标记与 GLEE 特征图进行点积运算以生成 Mask。在进行相同步数的训练后，修改后的 LISA-GLEE 取得了与原版 LISA 使用 SAM 相媲美的结果，这证明了 GLEE 的表示具有多功能性，并且在为其他模型服务时的有效性。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

年薪百万or惨遭裁员，AIGC开发者如何破局？

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

2024全球无人机市场洞察报告

粉丝福利！免费赠书中奖名单

凭什么YOLO是最强目标检测器，一文读懂！

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

史上最通俗易懂的YOLO系列（v1-v10）模型解读！

更快、更灵活的Transformer图像去雾网络

“计算机视觉研究院”商务合作

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉