震撼!deepseek深夜发布,超越OpenAI!Janus-Pro技术报告全面解读!

学术   2025-01-28 08:57   湖北  

刚刚,DeepSeek开源了Janus-Pro系列模型!其在多模态理解能力和文本到图像指令跟随性能方面表现非常出色!

在文本到图像指令跟随排行榜GenEval上,Janus-Pro-7B得分0.80,优于OpenAI的DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)。 

Janus-Pro-7B在多模态理解基准MMBench上得分79.2,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在内的多个最先进的统一多模态模型。 

文本重新编译了Janus-Pro技术报告,详细解读了Janus-Pro的技术细节:

摘要

本文介绍了一种名为 Janus-Pro 的先进模型,它是之前工作Janus的改进版本。具体来说,Janus-Pro包含了(1)优化的训练策略,(2)扩展的训练数据,以及(3)扩展到更大的模型规模。 

通过这些改进,Janus-Pro在多模态理解和文本到图像指令跟随能力方面取得了显著进步,同时提升了文本到图像生成的稳定性。希望这项工作能够激发该领域的进一步研究。     

代码和模型已公开发布,地址为:

https://huggingface.co/deepseek-ai/Janus-Pro-7B 

1. 引言

(a) 在四个多模态理解基准上的平均性能。(b) 文本到图像生成指令跟随基准上的性能。 

MME-Perception的得分被除以20以缩放到 [0, 100]。对于视觉生成,我们在两个指令跟随基准GenEval和DPG-Bench上评估性能。     

总体而言,Janus-Pro比之前的最先进的统一多模态模型以及一些特定任务模型表现更好。请在屏幕上查看最佳效果。       

 

近年来,统一多模态理解和生成模型在多方面取得了显著进展。这些方法已被证明能够增强视觉生成任务中的指令跟随能力,同时减少模型冗余。大多数方法使用相同的视觉编码器来处理多模态理解和生成任务的输入。 

由于这两种任务所需的表示不同,这通常会导致多模态理解性能不佳。为了解决这一问题,Janus提出了解耦视觉编码的方法,缓解了多模态理解和生成任务之间的冲突,实现了在这两项任务上的卓越性能。 

作为开创性模型,Janus在1B参数规模上进行了验证。然而,由于训练数据有限和模型容量较小,Janus存在一些不足,例如在短提示图像生成和文本到图像生成质量稳定性方面表现不佳。     

本文介绍了Janus-Pro,这是Janus的增强版本,通过训练策略、数据和模型规模三个维度的改进进行了优化。Janus-Pro系列包括1B和7B两种模型规模,展示了视觉编码解码方法的可扩展性。 

在多个基准上评估了Janus-Pro,结果表明其在多模态理解能力和文本到图像指令跟随性能方面表现出色。具体而言,Janus-Pro-7B在多模态理解基准MMBench上得分79.2,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在内的多个最先进的统一多模态模型。 

此外,在文本到图像指令跟随排行榜GenEval上,Janus-Pro-7B得分0.80,优于Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)。 

2. 方法

2.1. 架构

Janus-Pro的架构如图3所示,与Janus相同。整体架构的核心设计原则是解耦多模态理解和生成的视觉编码。独立的编码方法用于将原始输入转换为特征,然后由统一的自回归Transformer处理。     

对于多模态理解,使用SigLIP编码器从图像中提取高维语义特征。这些特征从二维网格展平为一维序列,然后通过理解适配器映射到LLM的输入空间。对于视觉生成任务,使用VQ令牌化方法将图像转换为离散ID。 

ID序列展平为一维后,通过生成适配器将每个ID对应的代码簿嵌入映射到LLM的输入空间。然后将这些特征序列连接起来,形成多模态特征序列,输入到LLM中进行处理。 

除了LLM内置的预测头外,还使用一个随机初始化的预测头进行视觉生成任务中的图像预测。整个模型遵循自回归框架。 


2.2. 优化的训练策略

Janus的前一版本采用三阶段训练过程。第一阶段专注于训练适配器和图像头。第二阶段进行统一预训练,此时除了理解编码器和生成编码器外,其他组件的参数会被更新。 

第三阶段是监督微调,基于第二阶段进一步解锁训练中的理解编码器参数。这种训练策略存在一些问题。在第二阶段,Janus将文本到图像能力的训练分为两部分,遵循PixArt的方法。 

第一部分使用ImageNet数据,以图像类别名称作为提示进行文本到图像生成,目标是建模像素依赖性。第二部分使用正常文本到图像数据进行训练。在实现过程中,第二阶段的文本到图像训练步骤中有66.67% 分配给第一部分。 

然而,进一步实验发现,这种策略效果不佳,导致计算效率低下。 

为了解决这个问题,进行了两项修改。 

  第一阶段更长的训练:增加第一阶段的训练步骤,使模型在 ImageNet 数据集上获得充分训练。即使固定 LLM 参数,模型也能有效建模像素依赖性,并基于类别名称生成合理图像。    

  第二阶段专注训练:在第二阶段,放弃 ImageNet 数据,直接使用正常文本到图像数据训练模型,使其能够根据密集描述生成图像。这种重新设计的方法使第二阶段能够更高效地利用文本到图像数据,提高了训练效率和整体性能。

还调整了第三阶段监督微调过程中不同类型数据的比例,将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10改为5:1:4。通过略微减少文本到图像数据的比例,观察到这种调整不仅保持了强大的视觉生成能力,还提高了多模态理解性能。 

2.3. 数据扩展

在多模态理解和视觉生成方面扩展了Janus的训练数据。 

  多模态理解。对于第二阶段预训练数据,参考 DeepSeek-VL2 并增加了约 9000 万样本。这些包括图像标题数据集(如 YFCC),以及表格、图表和文档理解的数据集(如 Docmatix)。

对于第三阶段监督微调数据,也增加了来自DeepSeek-VL2的数据集,如MEME理解、中文对话数据和旨在增强对话体验的数据集。这些添加显著扩展了模型的能力,丰富了其处理多样任务的能力,同时提高了整体对话体验。 

  视觉生成。注意到 Janus 前一版本使用的现实世界数据质量较低,包含大量噪声,这通常导致文本到图像生成不稳定,生成的图像美学质量较差。在 Janus-Pro 中,增加了约 7200 万样本的合成美学数据,使统一预训练阶段中真实数据与合成数据的比例达到 1:1。

这些合成数据样本的提示是公开的,如 [43] 中的提示。实验表明,使用合成数据训练时模型收敛速度更快,生成的文本到图像输出不仅更稳定,美学质量也显著提高。 

2.4. 模型扩展

Janus的前一版本使用1.5B参数的LLM验证了视觉编码解耦的有效性。在Janus-Pro中,模型扩展到7B参数,两种LLM的超参数如表1所示。     

观察到使用更大规模的LLM时,多模态理解和视觉生成的损失收敛速度显著快于较小模型。这一发现进一步验证了该方法的强扩展性。 

3. 实验

3.1. 实现细节

在实验中,使用DeepSeek-LLM(1.5B和7B)作为基础语言模型,最大支持序列长度为4096。理解任务中使用的视觉编码器为SigLIP-Large-Patch16-384。 

生成编码器的代码簿大小为16,384,图像下采样因子为16。理解适配器和生成适配器均为两层MLP。每个阶段的详细超参数见表2。所有图像均调整为384 × 384像素。 

对于多模态理解数据,将图像的长边调整为384,短边用背景色(RGB: 127, 127, 127)填充。对于视觉生成数据,将短边调整为384,长边裁剪为384。 

训练过程中使用序列打包以提高训练效率。根据指定的比例在单个训练步骤中混合所有数据类型。Janus使用HAI-LLM进行训练和评估,这是一个基于PyTorch的轻量级且高效的分布式训练框架。 

整个训练过程在16/32节点的集群上进行,每个节点配备8块Nvidia A100(40GB)GPU,1.5B/7B模型的训练时间约为7/14天。 

3.2. 评估设置

多模态理解

为了评估多模态理解能力,模型在多个广泛认可的基于图像的视觉-语言基准测试上进行了测试,这些基准测试包括GQA。表3展示了与最先进的多模态理解基准测试的比较。 

"Und."和"Gen."分别表示"理解"和"生成"。使用外部预训练扩散模型的模型标记为。

POPE、MME、SEED、MMB、MM-Vet和MMMU是评估多模态理解性能的基准测试。     

视觉生成

为了评估视觉生成能力,使用了GenEval和DPG-Bench。GenEval是一个具有挑战性的基准测试,用于评估图像到文本生成的能力,通过提供详细的实例级分析来反映视觉生成模型的综合生成能力。 

DPG-Bench(密集提示图基准测试)是一个包含1065个详细、密集提示的综合数据集,旨在评估文本到图像模型的复杂语义对齐能力。 

3.3. 与最先进的比较

多模态理解性能

表3展示了所提出的方法与最先进的统一模型和仅理解模型的比较。Janus-Pro在所有基准测试中均取得了最佳结果。这归因于将多模态理解和生成的视觉编码解耦,缓解了这两个任务之间的冲突。 

即使与显著更大的模型相比,Janus-Pro仍然表现出很强的竞争力。例如,Janus-Pro-7B在所有基准测试中均优于TokenFlow-XL(13B),除了GQA。 

视觉生成性能

在GenEval和DPG-Bench上报告了视觉生成性能。如表4所示,Janus-Pro-7B在GenEval上的整体准确率达到80%,优于所有其他统一或仅生成模型,例如Transfusion(63%)、SD3-Medium(74%)和DALL-E 3(67%)。 

这表明该方法具有更好的指令跟随能力。如表5所示,Janus-Pro在DPG-Bench上的得分为84.19,超越了所有其他方法。这表明Janus-Pro在遵循密集指令进行文本到图像生成方面表现出色。     

3.4. 定性结果

图4展示了多模态理解的结果。Janus-Pro在处理来自各种上下文的输入时表现出惊人的理解能力,展示了其强大的功能。图4的下半部分还展示了文本到图像生成的结果。 

Janus-Pro-7B生成的图像非常逼真,尽管分辨率为384 × 384,仍包含大量细节。对于富有想象力和创意的场景,Janus-Pro-7B能够准确捕捉提示中的语义信息,生成合乎逻辑且连贯的图像。     


链接:https://github.com/deepseek-ai/Janus

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章