InternVL2.0 发布!在MMMU基准测试中实现了62.0%的准确率,与GPT-4o等商业多模态大模型有一战之力!今年或许是多模态大模型元年,AGI的黎明!
Github: https://github.com/OpenGVLab/InternVL
Huggingface: https://huggingface.co/collections/OpenGVLab/internvl-20-667d3961ab5eb12c7ed1463e
引言
2022年,OpenAI的ChatGPT引爆大语言模型(LLM)热潮,人工智能大模型行业风起云涌,国外顶尖机构相继跟进,LLaMa、Cluade、Mixtral、Qwen、ChatGLM、Kimi、InternLM等优秀的大语言模型竞争日渐胶着,能力不分高下。然而,人工智能的能力不能止于文字,面对万象缤纷的真实世界,LLM似乎难以领会。图灵奖得主Yann LeCun曾在一次采访中指出,为什么猫狗没有语言,但对世界的理解却比任何 LLM 都要好?这个问题17 世纪的 Sensim 学派哲学家可以回答:因为没有感知就没有认知。生物在5亿年进化出视觉 ,1万年前才有智人语言/现代人语言,视觉的信息带宽(约20MB/s)远高于语言信息带宽(约12bytes/s)。LeCun 认为,没有视觉就无法建立对世界有深刻理解的模型,纽约大学助理教授谢赛宁则直言“现有的单纯的语言模型是一个盲人摸象般被遮蔽了双眼的博学的系统”。
就这样,多模态来到人工智能的浪潮之巅。国际顶尖机构相继入局,谷歌推出Gemini Pro1.5,OpenAI推出GPT-4O等商业闭源模型。上海人工智能实验室的InternVL系列从视觉生根,进化为书生·万象多模态大模型。万象,代表作者对多模态大模型的愿景,即理解真实世界一切事物和景象,实现全模态全任务的通用智能。它涵盖图像,视频,文字,语音、三维点云等5种模态,首创渐进式对齐训练,实现了首个与大语言模型对齐的视觉基础模型,通过模型”从小到大”、数据”从粗到精"的渐进式的训练策略,以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现,横扫国内外开源大模型,媲美国际顶尖商业模型,同时也是国内首个在MMMU(多学科问答)上突破60的模型。它在数学、图表分析、OCR等任务中表现优异,具备处理复杂多模态任务、真实世界感知方面的强大能力,是当之无愧的最强多模态开源大模型。
于今日下午,InternVL2.0正式开源:
InternVL 2.0开源了多种指令微调的模型,参数从 2B 到 108B 不等,最大参数量的模型(pro版本)需要在官网申请api试用:
https://internvl.intern-ai.org.cn/
与最先进的开源多模态大语言模型相比,InternVL 2.0 超越了大多数开源模型。它在各种能力上表现出与闭源商业模型相媲美的竞争力,包括文档和图表理解、信息图表问答、场景文本理解和 OCR 任务、科学和数学问题解决,以及文化理解和综合多模态能力。
InternVL 2.0 使用 8k 上下文窗口进行训练,训练数据包含长文本、多图和视频数据,与 InternVL 1.5 相比,其处理这些类型输入的能力显著提高。
亮点
相比于InternVL 1.5,可以看出有一些改变:
InternVL 2.0 更好地支持多轮对话、和多图输入的对话,可见训练上下文长度有所提升(8k上下文)
更好地支持了更多领域数据的输入(比如医疗影像分析能力),以及支持了更多模态的输入(比如视频输入)
多任务输出:支持数百种视觉代理任务的输出,比如更好地支持了Grounding任务(定位信息)
渐进式训练方法:引入了一种渐进式对齐训练策略,实现了第一个与大型语言模型原生对齐的视觉基础模型。通过采用渐进式训练策略,即模型从小规模逐渐扩展到大规模,数据从粗糙到精细逐步细化,以相对较低的成本完成了大型模型的训练。这种方法在资源有限的情况下展示了卓越的性能。
方法
截止发稿,InternVL 2.0的技术报告暂未开源。但模型结构方面和InternVL 1.5没有较大的改动。动态分辨率输入方面,训练中最多12个448×448的patch,测试中最多40个patch(4K分辨率)。
其用到的方法从本号之前推送的几篇系列前置工作,可初窥端倪:
在第一阶段预训练视觉backbone时:
1. 使用了互联网收集的图文交错(interleaved)的大规模预训练数据集:
2. 以及与数据集相适应的视觉backbone训练方法:
在第一阶段预训练视觉backbone和MLP,在其中也加入了大量OCR数据和目标检测数据,使得视觉backbone原生支持强大的OCR能力和grounding能力
在第二阶段指令微调时:
1. 高分辨率MLLM实现:
2. 以及2B级别轻量化的实现:
Mini-InternVL1.5: 仅2B参数的多模态大模型!
3. 多视觉代理任务结果输出:
在第二阶段微调时,并没有像很多工作冻结视觉backbone,而是同时训练ViT、MLP和LLM,通过极大的数据规模,进一步增强视觉理解能力。
在如上代季峰老师的这一系列工作中,可以看到每一步的目标都很明确,上述每个工作都在InternVL2.0这里最终被融合和统一,最终实现了InternVL 2.0强大的能力,团队的工程协作能力可见一斑。
评测
点击👇关注 “思源数据科学”
👇点个“赞”和“在看”吧