多模态大模型技术点总结

科技 2024-11-25 08:01 北京

原文：https://zhuanlan.zhihu.com/p/717586003

总结

BLIP2

论文地址：https://https://arxiv.org/pdf/2301.12597

发布时间：2023.06.15

模型结构：

Vision Encoder：ViT-L/14
VL Adapter：Q-Former
LLM：OPT (decoder-based)，FlanT5（encoder-decoder-based）

论文主要提出Q-Former（Lightweight Querying Transformer）用于连接模态之间的gap。BLIP-2整体架构包括三个模块：视觉编码器、视觉和LLM的Adapter(Q-Former)、LLM。其中Q-Former是BLIP-2模型训练过程中主要更新的参数，视觉Encoder和大语言模型LLM在训练过程中冻结参数。

BLIP-2的预训练包括两个阶段：

Stage 1）Vision-and-Language Representation Learning. Q-Former与冻结的Image Encoder(ViT-L/14)连接，在和文本交互中学习图文相关性表示（3个预训练任务）。

Stage 2）Vision-to-Language Generative Learning. 第一个阶段训练得到的Q-Former的输出接入一个大语言模型，学习视觉到文本生成（1个预训练任务）。

下面分别介绍两个阶段：

阶段1：左侧为Q-Former的结构以及如何学习视觉文本表征，右侧self-attention masking策略

阶段1：Q-Former的结构如上图所示，包括两个Transformer子模块（共享Self-Attention层），一个image transformer与image encoder交互提取视觉表征（图中黄色区域左侧），一个text transformer既作为text encoder也作为text decoder（图中黄色区域右侧）。首先创建一个可学习的query向量（Learnable query embeddings）作为image transformer的输入，queries通过self-attention层进行自我交互，然后与冻结参数的image features（来自image encoder）通过cross-attention层（插入每隔一个block）进行交互，此外这个query向量还与text通过同一个self-attention进行交互。在不同的预训练任务中，使用不同的self-attention masks来影响查询文本的交互，在这个阶段的预训练中，一共通过三个任务进行学习（类似BLIP），分别为：

ITM：图文匹配任务，使用双向self-attention mask, 不进行掩码，该任务目标是学习细粒度的图文表示对齐。训练过程中queries和text可以完全互相看到，query embeddings的输出Z包含了多模态的信息，将它输入一个2分类linear层得到一个logit，平均来自所有queries的logits作为最终的匹配分数，论文采纳了难负样例挖掘的策略创建更具信息量的负样本对。

ITG：图引导文本生成，使用causal self-attention mask, 由q-former的架构可以看到，冻结的image encoder没有和text tokens直接交互，而生成(generation)所需要的信息必须首先通过queries提取视觉信息以及通过self-attention传给text tokens，因此queries被迫学习抽取可以描述文本信息的视觉特征。论文使用multimodal causal self-attention mask来控制query和text的交互（同UniLM中的使用），queries可以看到自己但看不到text tokens，text tokens可以看到queries以及已经生成的text tokens, 用[DEC] token取代[CLS] token作为第一个text token来指示解码任务的开始。

ITC：图文对比学习，使用单模态self-attention mask, 对text的token全部进行掩码，使得queries和text互相看不到，这个任务对齐的是来自image transformer的query表示和来自text transformer的文本表示（[CLS] token）。

在论文实验中，选用两种视觉编码模型 1）CLIP预训练的ViT-L/14. 2）EVA-CLIP预训练的ViT-g/14. 并移除ViT的最后一层，只使用倒数第二层的输出特征（实验中效果更好），与queries交互。Learned Queries侧使用32个query，每个query维度768，q-former输出维度为32*768，这样比冻结的image features维度要小很多（比如对于使用ViT-L/14来说是257*1024），因此第一个阶段主要目标是训练queries可以提取蕴含语义信息的视觉表示。

阶段2：从冻结LLM中学习视觉文本生成，两种LLM（上图Decoder-based，下图Encoder-Decoder-based）

阶段2：Q-Former通过一个FC层使得Q-former的输出query embedding Z对齐到与LLM输入同样的维度，并前置于input text embedding一起输入LLM，这种拼接方式有点像软视觉提示（soft visual prompt），q-former在前面预训练任务中已经学到如何抽取蕴含语言信息的视觉表示，该阶段中可以起到把最重要信息输入给LLM同时去除错误没有意义的视觉信息的作用，从而降低LLM学习视觉语言对齐的负担，同时也缓解了灾难遗忘的问题。

论文实验了两种LLM，对于decoder-based LLM，预训练使用language modeling loss. 对于encoder-decoder-based LLM，预训练使用prefix language modeling loss, 将text分成两部分，前一部分与q-former输出拼接一起作为编码器的输入，后面部分作为解码器的生成目标。

InstructBLIP

论文地址：https://arxiv.org/pdf/2305.06500 （https://arxiv.org/pdf/2305.06500）

发布时间：2023.06.15

模型结构：

Vision Encoder：ViT-g/14
VL Adapter：Q-Former
LLM：FlanT5-xl(3B), FlanT5-xxl(11B), Vicuna-7B, Vicuna-13B

InstructBLIP的模型结构与BLIP-2类似，区别在于输入文本换成了指令数据Instructions. Q-Former抽取指令感知的视觉特征（Instruction-aware vision model），根据指令的不同获取不同的视觉特征。然后将这些视觉特征作为LLM的软视觉提示（soft prompt），使用language modeling loss和指令微调模型生成回复。

训练过程（Vision-Language Instruction Tuning）：3阶段训练以及zero-shot预测

Stage 1：预训练，训练Q-Former和Projection Layer，冻结image encoder。使用image caption数据，学习视觉文本相关性表示。
Stage 2：预训练，训练Projection Layer，冻结LLM。使用image caption数据，学习对齐LLM的文本生成。
Stage 3：指令微调，训练Q-Former和Projection Layer。使用Instruction任务数据，学习遵循指令生成回复的能力。

训练数据：收集11个任务以及相应的26个数据集，如下图所示。对于每个任务，人工编写10-15个自然语言的指令模版，作为构造指令微调数据的基础。对于偏向较短回复的开源数据集，在指令模版中使用'short/briefly'降低模型过拟合为总是生成较短回复（防止过拟合的方式是在指令中有所体现）。

Qwen-VL

论文地址：https://arxiv.org/pdf/2308.12966

发布时间：2023.10.13

模型结构：

Vision Encoder：ViT-bigG/14
VL Adapter：a single-layer cross-attention（Q-former的左侧部分）
LLM：Qwen-7B

VL Adapter创建一组可训练的queries向量和image features一起做cross-attention，将视觉特征压缩至256的固定长度，同时为了提升细粒度的视觉理解，在cross-attention中也加入图像的2D绝对位置编码。

Image Input使用特殊token（<img> and </img>）分隔，Bounding Box Input使用特殊token（<box> and </box>）分隔，bounding box的content referred使用特殊token（<ref> and </ref>）分隔。

训练过程：

Stage 1：预训练，训练Cross-Attention和ViT，冻结QwenLM。

Stage 2：多任务预训练（7 tasks同时），全参数训练。

Stage 3：指令微调，训练Cross-Attention和QwenLM，冻结ViT。

训练数据：

第一个阶段使用image-text pairs数据，77.3%英文、22.7%中文，一共14亿数据训练，图片size=224*224.

第二个阶段使用质量更高的image-text pairs数据，包含7个任务，图像size=448*448. 在同一个任务下构造交错图像文本数据，序列长度为2048. 训练目标与Stage1一致。

第三个阶段使用Instruction数据，训练指令遵循和对话能力，通过LLM self-instruction构造，一共350k条。

指令格式

Qwen2-VL

论文地址：https://arxiv.org/pdf/2409.12191

发布时间：2024.09.18

模型结构：

Vision Encoder：ViT/14
VL Adapter：Cross-Modal Connector
LLM：Qwen2-1.5B, Qwen2-7B, Qwen2-72B

Qwen2-VL相较于Qwen-VL的主要改进点（除了一些VQA等基础能力的提升之外）：

1）支持视频理解，支持context上下文长度到128k token（20分钟左右视频）。

2）Visual Agent能力，支持实时视频对话。

3）图像位置编码采用2D-RoPE，一张224*224分辨率的图像经过ViT/patch_size=14等一系列转换之后会被压缩至66个token输入到LLM。

训练过程：

Stage 1：训练ViT，使用大量image-text对。

Stage 2：全参数微调，使用更多的数据提升模型全面理解的能力。

Stage 3：指令微调，训练LLM。

LLaVA

论文地址：https://https://arxiv.org/pdf/2304.08485

发布时间：2023.12.11

模型结构：

Vision Encoder：ViT-L/14
VL Adapter：/
Projection Layer：a linear layer
LLM：LLaMA

训练过程：

Stage 1：Pre-training for Feature Alignment. 训练Projection Layer

Stage 2：Fine-tuning End-to-End. 训练Projection Layer和LLM

LLaVA-1.5

论文地址：https://arxiv.org/pdf/2310.03744

发布时间：2024.05.15

模型结构：

Vision Encoder：Clip预训练 Vit-L/336px
VL Adapter：MLP
LLM：Vicuna v1.5 13B

MiniGPT-4

论文地址：https://arxiv.org/pdf/2304.10592

发布时间：2023.10.02

模型结构：

Vision Encoder：ViT-G/14
VL Adapter：Q-Former
Projection Layer：a single linear
LLM：Vicuna

训练过程：

Stage 1：只训练Linear Projection Layer来对齐视觉特征和大语言模型。使用大量text-image pair数据。

Stage 2：指令微调，使用少量高质量text-image instruction数据

指令模板：###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

MiniGPT-v2

论文地址：https://arxiv.org/pdf/2310.09478

发布时间：2023.11.07

模型结构：

Vision Encoder：ViT
VL Adapter：/
Projection Layer：Linear
LLM：Llama2-7B

训练过程：

Stage 1：预训练，使用大量弱监督image-text和细粒度数据集的混合数据训练，让模型获取多样化知识

Stage 2：多任务训练，只使用细粒度高质量数据集训练模型在不同任务上的能力。

Stage 3：多模态质量微调，让模型具备Chat哪里

训练数据：

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247551055&idx=5&sn=dff28f1799a49ec612d2edf539d4f99b

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉