VILA-U：统一多模态理解与生成模型！多模态任务新架构！

文摘 2024-10-30 00:02 上海

点击下方卡片，关注“AI生成未来”

今日论文推荐

论文名：VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation

论文链接：https://arxiv.org/pdf/2409.04429.pdf

开源代码：https://github.com/mit-han-lab/vila-u

导读

近年来，大型语言模型（LLMs）在各种语言任务中展现出了卓越的能力。它们吸引人的特性，如指令遵循、零样本泛化和少样本上下文学习，激发了研究人员将它们与视觉模型结合起来，构建视觉语言模型（VLMs），用于多模态任务。许多努力已经投入到这一领域，取得了在视觉语言理解基准测试上的显著性能。在这些工作中，通过像CLIP这样的视觉基础模型将视觉输入投影到LLMs的语义空间上，以包括文本-图像对齐训练目标来桥接两种模态。

除了视觉理解之外，结合视觉和语言模态的另一个重要研究方向是视觉生成。有两种流行的文本引导图像生成方法。一种方法采用扩散模型，这是各种生成任务的强大工具。另一条工作线通过向量量化（VQ）将视觉内容转换为离散标记，然后利用自回归变换器进行高质量和多样化的生成。

简介

VILA-U是一个统一的基础模型，它整合了视频、图像、语言理解和生成。传统的视觉语言模型（VLMs）使用独立的模块来理解和生成视觉内容，这可能导致对齐不当和复杂性增加。相比之下，VILA-U采用单一的自回归下一个词预测框架来处理这两个任务，消除了像扩散模型这样的额外组件需求。这种方法不仅简化了模型，而且在视觉语言理解和生成方面实现了接近最先进的性能。VILA-U的成功归功于两个主要因素：在预训练期间将离散的视觉标记与文本输入对齐的统一视觉塔，增强了视觉感知；自回归图像生成可以在高质量数据集上实现与扩散模型相似的质量。这使得VILA-U能够使用完全基于标记的自回归框架与更复杂的模型相媲美。

方法与模型

本工作提出了一种旨在有效高效统一视觉和语言模态的多模态框架。实现这种统一的关键组件是一个统一的基座视觉塔，它将视觉输入转换为与文本对齐的离散标记，以及一个统一的多模态生成训练程序。我们框架内的主要多模态训练和推理过程的概述如图1所示。

统一视觉基座

为了支持多样化的视觉理解和生成任务，我们首先构建了一个统一的基座视觉塔来提供适当的视觉特征。我们提议在我们的视觉塔训练中包括文本-图像对比损失和基于VQ的图像重建损失，以增强我们的视觉塔的文本对齐和离散标记化能力。如图2所示，从图像中提取的特征主要是通过残差量化离散化的。在一条路径上，离散视觉特征被输入到解码器中以重建图像并计算重建损失；在另一条路径上，我们计算离散视觉特征与文本编码器提供的文本特征之间的图像-文本对比损失。通过这种训练过程，视觉塔学会了提取适合理解和生成我们的VLM的离散特征。

我们使用加权和来结合文本-图像对比损失和基于VQ的图像重建损失：

残差向量量化

我们的视觉特征是离散量化的，因此它们的表示能力严重依赖于我们量化器中使用的代码大小。由于我们希望它们包含高级和低级特征，我们需要在它们的向量特征空间中有更多的容量，这使得下游任务中的良好性能需要更大的代码大小。然而，每张图像的太多代码会导致LLM在视觉生成过程中产生过多的标记，从而带来很大的延迟。因此，在尝试增加向量特征容量并同时保持LLM合理的标记数量时，我们采用了RQ-VAE[33]后的残差向量量化方法，将向量z离散化为D个离散代码：

直观上，在每个深度中，我们选择一个代码来减少量化误差。因此，与标准的向量量化方法相比，我们有D个代码来量化一个向量，允许更精细的近似和更大的特征空间。在多模态训练和推理期间，LLM只需要预测代码嵌入，不同深度的代码通过深度变换器依次产生，深度变换器以代码嵌入作为初始输入。因此，通过这种残差量化，我们可以在不增加太多延迟的情况下增强我们的视觉塔的表示能力。

统一的多模态生成预训练

我们的视觉塔编码器顺序处理视觉输入，生成一个1D令牌序列。然后将这个序列与文本令牌连接起来形成多模态序列。为了区分模态并启用视觉内容生成，我们在图像令牌的开始和结束处插入特殊令牌：<image_start>和<image_end>，在视频令牌的开始和结束处插入<video_start>和<video_end>。视频令牌是多帧图像令牌的直接连接。

训练目标。由于视觉标记和文本标记都是离散的，我们可以用通用语言建模的下一词预测目标来训练我们的LLM。然而，由于对视觉标记使用了残差量化，文本和视觉标记的训练目标略有不同。对于文本标记，负对数似然损失计算如下：

实验与结果

在我们的实验中，我们采用LLaMA-2-7B作为我们的基础语言模型。对于视觉塔，我们选择SigLIP-Large-patch16-256/SigLIP-SO400M-patch14-384作为我们的视觉编码器架构，并采用了RQ-VAE中的残差量化器、深度变换器和解码器架构。量化器码本大小为16384。所有图像和视频都被调整到256 x 256/ 384 x 384的分辨率，每个图像或视频帧被转换成16 x16 x4/27 x27 x16的代码，残差深度D=4/D=16。我们在COYO-700M上训练我们的视觉塔，并在ImageNet上评估其零样本分类和重建性能。对于视觉理解，我们利用ShareGPT4V[10]的1M[image, text]数据，MMC4的6M交错文本和图像数据。在视觉生成方面，我们整合了来自内部数据集的1500万高质量[文本、图像]数据和来自OpenVid数据集的100万[文本、视频]数据。对于视觉生成，我们采用了无分类器指导，CFG值为3。

定量分析结果

视觉理解任务。表2和表3分别总结了我们的方法与其他领先VLM在图像语言和视频语言基准测试上的比较。与像CLIP这样的基础模型产生的连续视觉标记的主流选择相比，基于VQGAN的离散视觉标记与文本的对齐性较差，从而损害了VLM在视觉理解任务上的表现。有了我们统一的基座视觉塔，我们的模型即使使用离散视觉标记，也能接近领先VLM的性能。

我们的方法在与SD v2.1和SD-XL在高级提示上的性能相当，即使是在使用较少级别的数据训练的先进提示上。这进一步表明，VILA-U能够有效地且高效地学习视觉和文本模态之间的相关性，与我们统一的训练框架相结合。

可视化结果

总结

我们提出了VILA-U，这是一个新颖且统一的视觉语言模型，它将视频、图像和语言理解与生成任务整合到一个自回归的下一词预测框架中。我们的方法不仅比大多数利用扩散模型等额外组件来统一视觉生成和理解的VLM更为简洁，而且还证明了自回归方法可以实现与最先进的VLM相当的性能。我们的成功归功于一个统一的基座视觉塔，它在预训练期间将离散的视觉特征与文本对齐，以及一个适合视觉理解和生成训练的高质量数据集。我们相信VILA-U可以作为通用框架，用于多样化的视觉语言任务。

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

喜欢的话，请点个赞👍和关注吧～

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510407&idx=2&sn=c976bfb8146ce9b81eda1bcf688166bc

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉