【他山之石】AAAI 2025｜如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

科技 2025-02-04 18:02 辽宁

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！

前言在多模态大语言模型（MLLMs）的发展中，视觉-语言连接器作为将视觉特征映射到LLM语言空间的关键组件，起到了桥梁作用。因此，它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而，如何高效地将视觉特征映射到LLM的探索还有很大提升空间。字节团队与中大合作提出的 ParGo 模型，通过巧妙地融合全局视野和局部细节，不仅在多项权威基准测试（Benchmark）中表现出色，成功入选了 AAAI 2025。

论文标题：ParGo: Bridging Vision-Language with Partial and Global Views
论文地址：https://arxiv.org/abs/2408.12928
代码地址：https://github.com/bytedance/ParGo

过去，大多数研究主要依赖线性投影或多层感知机（MLP）将视觉特征直接映射，这种方法难以有效控制输入LLMs的视觉token数量，特别是在处理细粒度特征时，导致计算成本极高。

另一类基于注意力机制的方法（如Q-former）通过注意力操作将图像特征投射为固定数量的视觉token，虽然大幅减少了计算成本，但往往使得生成的token集中在图像的显著区域，忽略了细节部分。

为了解决这一问题，ParGo提出了一种创新的全局-局部投影器来连接视觉与文本，通过结合全局视野和局部细节的双重视角，克服了传统方法对显著区域的过度聚焦，使得视觉特征能够在更细腻的层面上得到全面展现，同时有能有效控制过长的token带来的计算成本的升高，进而实现了视觉特征和LLM的高效连接。

方法

ParGo (Partial-Global) 采用两种类型的可学习token，利用attention机制，同时从局部和全局视角将视觉特征映射到大语言模型（LLM）中。该框架包含两个关键模块：Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)。这两个模块共同作用，实现了高效的视觉-语言连接，既捕捉了图像的全局信息，又能精细地提取局部特征，从而提升了多模态大语言模型的效果。

核心模块

Partial-Global Perception Block （PGP）

在 ParGo 中，视觉编码器的特征被映射为两种不同类型的token：Partial token 和 Global token，从而能够分别提取图像的局部和全局信息。具体来说：

Partial tokens：每个token仅与部分视觉特征进行交互，专注于图像的局部信息

Global tokens：全局token则与所有视觉特征进行交互，捕捉图像的全局信息

ParGo 采用了一种新的交叉注意力掩码设计（Partial-Global Attention Mask），如图1 (b) 所示，来处理输入的视觉特征。该设计能够同时输出包含图像局部和全局信息的特征，即 Partial tokens 和 Global tokens。具体的公式如下：

Cascaded Partial Perception Block (CPP)

此外，考虑到不同局部物体在图像中的占比不同，为了进一步增强对多种局部信息的完整捕获能力，ParGo 在 Partial-Global Perception 模块之前引入了 Cascaded Partial Perception (CPP) 模块。

CPP模块的核心是一个带有特殊设计掩码的自注意力机制 ,如图1 (b) 中的 Cascaded Partial Attention Mask。随着层数的增加，每个 Partial token 能够访问到更多的相邻 token，从而逐步扩展其感知范围。该过程可以通过以下公式表示：

实验效果

论文重点对比了当前不同类型的Projector（投射器），在一些通用的MLLM的benchmark的效果，均取得了优异的效果。

为了进一步进行公平对比，论文在相同数据集和实验参数下，比较了三种主流的投影器（Projector）。结果显示，ParGo 依然取得了最佳的性能表现。另外，在不同基座LLM下，ParGo均表现良好，体现出了更好的泛化性能。

案例分析

为了能进一步展现ParGo在控制token数量的情况下，依然能做到细粒度和空间关系的准确捕获，作者对比了ParGo和Q-former这两种均是基于注意力机制的Projector（投射器）在相同tokens下的效果，

结论

本研究提出了ParGo（局部-全局投影器），一种创新的视觉-语言投影方案，旨在提升多模态大语言模型（MLLMs）中视觉和语言模态的对齐效果。

ParGo通过结合局部token和全局token，并使用精心设计的注意力掩码分别提取局部和全局信息，在控制token数量的同时增强了局部区域之间的关系建模，充分考虑了图像的细节与全局视角，从而克服了传统方法中忽视细节的问题。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

【源头活水】NeurIPS 2024 | 超越KL！大连理工提出WKD：基于WD距离的知识蒸馏新方法

【他山之石】ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

【源头活水】DEIM: 在DETR中使用多对一匹配的策略加快收敛

【源头活水】GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

【他山之石】DeepSeek V3论文细节：如何绕开CUDA的垄断！

【他山之石】原来，这些顶级大模型都是蒸馏的

【他山之石】创造历史！DeepSeek超越ChatGPT登顶中美AppStore

【他山之石】全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

【源头活水】2025年Next Token Prediction范式会统一多模态吗？

【他山之石】DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

【源头活水】中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

【他山之石】Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

【他山之石】扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

【他山之石】顶刊TPAMI 2024！北大提出实用、紧致的图像压缩感知网络PCNet，代码已开源

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

【源头活水】近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

【他山之石】重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

【源头活水】一个关于MoE的猜想

【他山之石】TPAMI-2024 | Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

纯卷积实现用于图像生成扩散模型？DiC：重新思考扩散模型中的 3×3 卷积

【他山之石】TPAMI 2024 | 倒置金字塔多任务Transformer用于视觉场景理解

【源头活水】NeurIPS 2024 Spotlight | 轻微的预训练数据扰动如何造就更优秀的扩散模型

【他山之石】NIPS 2024 | 注意力掩码和LayerNorm在Transformer中的作用

【他山之石】NeurIPS'24｜新型成员推理方法CLiD：一举破解文生图模型隐私难题

【源头活水】视频任意门来了！港大&达摩院新作VideoAnydoor：向视频无缝传送物体，同时支持准确动作控制

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

AAAI 2025 | SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【他山之石】AAAI 2025｜如何高效桥接视觉和语言，字节&amp;中大提出全新多模态大模型连接器ParGo

方法

核心模块

实验效果

案例分析

结论

【他山之石】AAAI 2025｜如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo