通向高分辨率VLM (5): InternLM-XComposer-4KHD

文摘科技 2024-06-20 09:15 上海

HuggingFace: https://huggingface.co/internlm/internlm-xcomposer2-4khd-7b

Github: https://github.com/InternLM/InternLM-XComposer

Paper: https://arxiv.org/abs/2404.06512

摘要

与本系列先前几篇高分辨率VLM类似，上海人工智能实验室出品的InternLM-XComposer-4KHD使用了相同的方法解决了高分辨率输入的问题。InternLM-XComposer2-4KHD 支持从336像素到4K HD（3840x1600）的分辨率。

高分辨率处理方面，该模型引入了一种新的动态分辨率自动patch切片方法，这允许模型在保持训练图像宽高比的同时，根据输入图像的宽高比自动计算并调整patch数量和布局。在输入高分辨率patches的同时，也增加了低分辨率的全局视图输入。这样更加符合知觉，也更加简单合理。

训练数据方面，高分辨率的训练数据尤其是OCR相关任务的数据也是必不可少的，对高分辨率任务的效果上起到了很大的作用。

方法

InternLM-XComposer2-4KHD的结构如下：

视觉编码器选用了 OpenAI CLIP ViT-L-14-336
MLP projecter 连接视觉特征和 LLM
LLM 使用了上海人工智能实验室自己的 InternLM2

输入类似图像金字塔，但是只有两级。模型会把图片直接resize的全局视图，和切patch之后的多个高分辨视图，编码和映射之后同时作为LLM的输入：

图像切割：对于任意给定的图片，在训练时会预设一个参数，指定该图片最多被切分为多少个“patch”（小块）。例如，HD-9、HD-25和HD-55指的是图片最多被切分为9块、25块和55块。
图像resize：选择分辨率的目标是在接近预设的patch数量的情况下，保持图片横纵比的情况下切成不超过指定patch，尽量减少后续处理中添加的padding像素。一旦确定了分辨率，图片会先按比例调整大小以保持原有的横纵比，然后添加padding直至达到该分辨率。
全局视图获取：除了输入高分辨率的图像patches，原图还会被强制调整为较低分辨率的全局视图，例如将672×1344的图像resize为336x336像素，作为全局视图的额外输入。
组织输入内容：为了帮助模型更好地理解和区分不同的patch，研究者在每个patch后添加了一个可学习的特殊token，并引入了另一个特殊的分隔token。
Token合并：鉴于在高分辨率输入时，图像token的数量会非常多（例如56个patch每个输出576个token，总共32256个image token），直接训练会导致问题。因此，采用了一个简单的token合并策略，将相邻的4个token合并为一个，转换到通道维度（经典的Space2Detph或称为PixelUnShuffle操作），从而将最多的image token数量减少到8064个，使得模型训练更为可行。（更加简单可行的操作，替代了先前工作中各种花里胡哨的resampler，符合奥卡姆剃刀，也确实更加有效）

使用的训练数据如下：

可以看到预训练阶段和指令微调阶段，均增加了大量高分辨率、OCR数据。

评测

从结果来看，高分辨率对于OCR有关的VQA任务有很大帮助，对其他任务帮助不大。文档理解场景的对比上来看，本文方案也是超出了先前推送的Monkey或者LLaVA-UHD等，且支持到了更高分辨率的输入。

大模型的论文都喜欢画星座图，个人感觉其实意义不大，每个坐标轴上下界都可以手动调整，总有办法显得自己远超其他开源模型，且弱项与闭源商业模型差距不大。

InternLM-XComposer-4KHD更简单合理的设计，更高的性能参数，相比之前工作来说更具实用价值。实际使用体验也是相对不错的：

[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

通向高分辨率VLM (4): Idefics2

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理

RPBench-Auto：大模型角色扮演Benchmark

FlexAttention：兼具PyTorch的灵活与FlashAttention的性能

SAM 2 开源：视频上也能“分割一切物体”

MINT-1T: 万亿Token的开源多模态数据集

MambaVision: 在视觉任务里，Mamba也能work？

InternVL 2.0 “书生·万象” ：探寻多模态大模型的能力边界

Defect Spectrum: 带有丰富语义的大规模缺陷检测数据集

通向高分辨率VLM (9): SliME

通向高分辨率VLM (8): DeepStack

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (4): Idefics2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉