通向高分辨率VLM (8): DeepStack

文摘科技 2024-06-23 09:37 上海

Github: https://github.com/MengLcool/DeepStack-VL

Paper: https://arxiv.org/abs/2406.04334

摘要

看惯了切patch输入做到的高分辨率，让我们看一篇不一样的方法：《DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs》：保持相同的视觉上下文长度，通过从下到上堆叠视觉token到transformer不同层，来提供丰富的视觉信息。

大多数多模态大模型（MLLM）是通过将视觉token作为一个序列送到大型语言模型（LLM）的第一层来实现的。由于高分辨率图像通常会切成非常多的patches，增加了序列输入长度，这极大增加了计算和内存成本（attention是n方复杂度）。

本文提出了一种新的LMM体系结构DeepStack。考虑到MLLM有N层，我们也可以将视觉token堆叠成N组，并将每组从下到上馈送到对应的transformer层。令人惊讶的是，这种简单的方法大大增强了MLLM高分辨率视觉能力，且开销很小。

方法

DeepStack的框架非常简单：将视觉token注入不同的transformer层中。

对于LLM的DeepStack-L，给定一个输入图像，从低分辨率图像中提取的token送到LLM的输入层。考虑到图像的2D性质，我们从高分辨率输入中增加了token，并将其重组为DeepStack，然后将其送到LLM中的后续层。

对于ViTs的DeepStack-V，应用了类似的采样策略，但将视觉token输入ViT视觉编码器的transformer层。

评测

文中也做了一系列ablation study

论文将默认高分辨率图像分组策略与另外两种组织视觉token的变体进行了比较。如下图所示，2d Grid 将每个局部裁剪作为一个层，而 1d Sequence 则将视觉token简单地展平为一维。而如论文的默认设置中的 2d Spatial（类似pixel unshuffle的操作），能够实现最佳结果。

放开微调图像编码器同样十分重要：

DeepStack的idea虽然不错，但是毕竟输入长度不变，数据也局限于LCS-558k和LLaVA-mixed-665k，所以性能提升并不是非常显著。指标相比于同期工作，即先前推送的一些高分辨率VLM而言没啥优势，可能还得是一寸长一寸强（输入长度和训练数据规模）。但仍不失为一个非常好的低成本提升输入分辨率的思路。

[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

通向高分辨率VLM (4): Idefics2

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (7): Ferret-V2

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理

RPBench-Auto：大模型角色扮演Benchmark

FlexAttention：兼具PyTorch的灵活与FlashAttention的性能

SAM 2 开源：视频上也能“分割一切物体”

MINT-1T: 万亿Token的开源多模态数据集

MambaVision: 在视觉任务里，Mamba也能work？

InternVL 2.0 “书生·万象” ：探寻多模态大模型的能力边界

Defect Spectrum: 带有丰富语义的大规模缺陷检测数据集

通向高分辨率VLM (9): SliME

通向高分辨率VLM (8): DeepStack

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (4): Idefics2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉