震撼！deepseek深夜发布，超越OpenAI！Janus-Pro技术报告全面解读！

学术 2025-01-28 08:57 湖北

刚刚，DeepSeek开源了Janus-Pro系列模型！其在多模态理解能力和文本到图像指令跟随性能方面表现非常出色！

在文本到图像指令跟随排行榜GenEval上，Janus-Pro-7B得分0.80，优于OpenAI的DALL-E 3（0.67）和Stable Diffusion 3 Medium（0.74）。

Janus-Pro-7B在多模态理解基准MMBench上得分79.2，超越了包括Janus（69.4）、TokenFlow（68.9）和MetaMorph（75.2）在内的多个最先进的统一多模态模型。

文本重新编译了Janus-Pro技术报告，详细解读了Janus-Pro的技术细节：

摘要

本文介绍了一种名为 Janus-Pro 的先进模型，它是之前工作Janus的改进版本。具体来说，Janus-Pro包含了（1）优化的训练策略，（2）扩展的训练数据，以及（3）扩展到更大的模型规模。

通过这些改进，Janus-Pro在多模态理解和文本到图像指令跟随能力方面取得了显著进步，同时提升了文本到图像生成的稳定性。希望这项工作能够激发该领域的进一步研究。

代码和模型已公开发布，地址为：

https://huggingface.co/deepseek-ai/Janus-Pro-7B

1. 引言

(a) 在四个多模态理解基准上的平均性能。(b) 文本到图像生成指令跟随基准上的性能。

MME-Perception的得分被除以20以缩放到 [0, 100]。对于视觉生成，我们在两个指令跟随基准GenEval和DPG-Bench上评估性能。

总体而言，Janus-Pro比之前的最先进的统一多模态模型以及一些特定任务模型表现更好。请在屏幕上查看最佳效果。

近年来，统一多模态理解和生成模型在多方面取得了显著进展。这些方法已被证明能够增强视觉生成任务中的指令跟随能力，同时减少模型冗余。大多数方法使用相同的视觉编码器来处理多模态理解和生成任务的输入。

由于这两种任务所需的表示不同，这通常会导致多模态理解性能不佳。为了解决这一问题，Janus提出了解耦视觉编码的方法，缓解了多模态理解和生成任务之间的冲突，实现了在这两项任务上的卓越性能。

作为开创性模型，Janus在1B参数规模上进行了验证。然而，由于训练数据有限和模型容量较小，Janus存在一些不足，例如在短提示图像生成和文本到图像生成质量稳定性方面表现不佳。

本文介绍了Janus-Pro，这是Janus的增强版本，通过训练策略、数据和模型规模三个维度的改进进行了优化。Janus-Pro系列包括1B和7B两种模型规模，展示了视觉编码解码方法的可扩展性。

在多个基准上评估了Janus-Pro，结果表明其在多模态理解能力和文本到图像指令跟随性能方面表现出色。具体而言，Janus-Pro-7B在多模态理解基准MMBench上得分79.2，超越了包括Janus（69.4）、TokenFlow（68.9）和MetaMorph（75.2）在内的多个最先进的统一多模态模型。

此外，在文本到图像指令跟随排行榜GenEval上，Janus-Pro-7B得分0.80，优于Janus（0.61）、DALL-E 3（0.67）和Stable Diffusion 3 Medium（0.74）。

2. 方法

2.1. 架构

Janus-Pro的架构如图3所示，与Janus相同。整体架构的核心设计原则是解耦多模态理解和生成的视觉编码。独立的编码方法用于将原始输入转换为特征，然后由统一的自回归Transformer处理。

对于多模态理解，使用SigLIP编码器从图像中提取高维语义特征。这些特征从二维网格展平为一维序列，然后通过理解适配器映射到LLM的输入空间。对于视觉生成任务，使用VQ令牌化方法将图像转换为离散ID。

ID序列展平为一维后，通过生成适配器将每个ID对应的代码簿嵌入映射到LLM的输入空间。然后将这些特征序列连接起来，形成多模态特征序列，输入到LLM中进行处理。

除了LLM内置的预测头外，还使用一个随机初始化的预测头进行视觉生成任务中的图像预测。整个模型遵循自回归框架。

2.2. 优化的训练策略

Janus的前一版本采用三阶段训练过程。第一阶段专注于训练适配器和图像头。第二阶段进行统一预训练，此时除了理解编码器和生成编码器外，其他组件的参数会被更新。

第三阶段是监督微调，基于第二阶段进一步解锁训练中的理解编码器参数。这种训练策略存在一些问题。在第二阶段，Janus将文本到图像能力的训练分为两部分，遵循PixArt的方法。

第一部分使用ImageNet数据，以图像类别名称作为提示进行文本到图像生成，目标是建模像素依赖性。第二部分使用正常文本到图像数据进行训练。在实现过程中，第二阶段的文本到图像训练步骤中有66.67% 分配给第一部分。

然而，进一步实验发现，这种策略效果不佳，导致计算效率低下。

为了解决这个问题，进行了两项修改。

• 第一阶段更长的训练：增加第一阶段的训练步骤，使模型在 ImageNet 数据集上获得充分训练。即使固定 LLM 参数，模型也能有效建模像素依赖性，并基于类别名称生成合理图像。

• 第二阶段专注训练：在第二阶段，放弃 ImageNet 数据，直接使用正常文本到图像数据训练模型，使其能够根据密集描述生成图像。这种重新设计的方法使第二阶段能够更高效地利用文本到图像数据，提高了训练效率和整体性能。

还调整了第三阶段监督微调过程中不同类型数据的比例，将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10改为5:1:4。通过略微减少文本到图像数据的比例，观察到这种调整不仅保持了强大的视觉生成能力，还提高了多模态理解性能。

2.3. 数据扩展

在多模态理解和视觉生成方面扩展了Janus的训练数据。

• 多模态理解。对于第二阶段预训练数据，参考 DeepSeek-VL2 并增加了约 9000 万样本。这些包括图像标题数据集（如 YFCC），以及表格、图表和文档理解的数据集（如 Docmatix）。

对于第三阶段监督微调数据，也增加了来自DeepSeek-VL2的数据集，如MEME理解、中文对话数据和旨在增强对话体验的数据集。这些添加显著扩展了模型的能力，丰富了其处理多样任务的能力，同时提高了整体对话体验。

• 视觉生成。注意到 Janus 前一版本使用的现实世界数据质量较低，包含大量噪声，这通常导致文本到图像生成不稳定，生成的图像美学质量较差。在 Janus-Pro 中，增加了约 7200 万样本的合成美学数据，使统一预训练阶段中真实数据与合成数据的比例达到 1:1。

这些合成数据样本的提示是公开的，如 [43] 中的提示。实验表明，使用合成数据训练时模型收敛速度更快，生成的文本到图像输出不仅更稳定，美学质量也显著提高。

2.4. 模型扩展

Janus的前一版本使用1.5B参数的LLM验证了视觉编码解耦的有效性。在Janus-Pro中，模型扩展到7B参数，两种LLM的超参数如表1所示。

观察到使用更大规模的LLM时，多模态理解和视觉生成的损失收敛速度显著快于较小模型。这一发现进一步验证了该方法的强扩展性。

3. 实验

3.1. 实现细节

在实验中，使用DeepSeek-LLM（1.5B和7B）作为基础语言模型，最大支持序列长度为4096。理解任务中使用的视觉编码器为SigLIP-Large-Patch16-384。

生成编码器的代码簿大小为16,384，图像下采样因子为16。理解适配器和生成适配器均为两层MLP。每个阶段的详细超参数见表2。所有图像均调整为384 × 384像素。

对于多模态理解数据，将图像的长边调整为384，短边用背景色（RGB: 127, 127, 127）填充。对于视觉生成数据，将短边调整为384，长边裁剪为384。

训练过程中使用序列打包以提高训练效率。根据指定的比例在单个训练步骤中混合所有数据类型。Janus使用HAI-LLM进行训练和评估，这是一个基于PyTorch的轻量级且高效的分布式训练框架。

整个训练过程在16/32节点的集群上进行，每个节点配备8块Nvidia A100（40GB）GPU，1.5B/7B模型的训练时间约为7/14天。

3.2. 评估设置

多模态理解

为了评估多模态理解能力，模型在多个广泛认可的基于图像的视觉-语言基准测试上进行了测试，这些基准测试包括GQA。表3展示了与最先进的多模态理解基准测试的比较。

"Und."和"Gen."分别表示"理解"和"生成"。使用外部预训练扩散模型的模型标记为。

POPE、MME、SEED、MMB、MM-Vet和MMMU是评估多模态理解性能的基准测试。

视觉生成

为了评估视觉生成能力，使用了GenEval和DPG-Bench。GenEval是一个具有挑战性的基准测试，用于评估图像到文本生成的能力，通过提供详细的实例级分析来反映视觉生成模型的综合生成能力。

DPG-Bench（密集提示图基准测试）是一个包含1065个详细、密集提示的综合数据集，旨在评估文本到图像模型的复杂语义对齐能力。

3.3. 与最先进的比较

多模态理解性能

表3展示了所提出的方法与最先进的统一模型和仅理解模型的比较。Janus-Pro在所有基准测试中均取得了最佳结果。这归因于将多模态理解和生成的视觉编码解耦，缓解了这两个任务之间的冲突。

即使与显著更大的模型相比，Janus-Pro仍然表现出很强的竞争力。例如，Janus-Pro-7B在所有基准测试中均优于TokenFlow-XL（13B），除了GQA。

视觉生成性能

在GenEval和DPG-Bench上报告了视觉生成性能。如表4所示，Janus-Pro-7B在GenEval上的整体准确率达到80%，优于所有其他统一或仅生成模型，例如Transfusion（63%）、SD3-Medium（74%）和DALL-E 3（67%）。

这表明该方法具有更好的指令跟随能力。如表5所示，Janus-Pro在DPG-Bench上的得分为84.19，超越了所有其他方法。这表明Janus-Pro在遵循密集指令进行文本到图像生成方面表现出色。

3.4. 定性结果

图4展示了多模态理解的结果。Janus-Pro在处理来自各种上下文的输入时表现出惊人的理解能力，展示了其强大的功能。图4的下半部分还展示了文本到图像生成的结果。

Janus-Pro-7B生成的图像非常逼真，尽管分辨率为384 × 384，仍包含大量细节。对于富有想象力和创意的场景，Janus-Pro-7B能够准确捕捉提示中的语义信息，生成合乎逻辑且连贯的图像。

链接：https://github.com/deepseek-ai/Janus

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

PRL：铪基铁电材料降低矫顽场的新策略

4代Intel高主频超算低至4分

隐匿的星光：张益唐的七千万征途

VESTA 3.90.5a版本更新

CBA程序：cif文件化学键长高通量分析程序

【追N求S】Nature | 竞争铁电序中的超高压电响应

《哪吒2》导演饺子：不能给自己留后路

首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务！

重组完成！318个全国重点实验室名单出炉！

Nat. Commun.：机器学习Transformer生成原子嵌入提高晶体特性的预测精度

2025年度国自然信息科学部资助要点提炼

刚刚OpenAI正式推出o3 mini：免费用户也可以用「感谢DeepSeek」

AI 科研重大升级！OpenAI宣布携手美国国家实验室，为15000名科学家送上科研利器

爆料！英伟达宣布使用DeepSeek

ACS Catalysis：通过Ir/Ru共取代合理设计ꞵ-MnO2在酸性介质中增强OER

2025年度国自然工程与材料科学部资助要点提炼！

清华大学Nature: 新的策略提升反铁电储能

基金申请必看：五篇代表作的精准选择技巧

科技部内设机构重大调整

宇树机器人扭秧歌背后的技术密码

npj Comput. Mater.: 等变神经网络加速Hubbard参数预测

武大付磊团队发表Chem. Soc. Rev.：高熵合金的可控合成

Deepseek创始人梁文锋除夕夜回应“国运论”

震撼！deepseek深夜发布，超越OpenAI！Janus-Pro技术报告全面解读！

人工智能能否改善当前分子模拟的现状？

王金兰等人NC: 通过生成模型和鸟群算法逆向设计高效CO2还原电催化剂

DARWIN 1.5 来啦！材料设计通用大语言模型，刷新多项实验性质预测记录

北京大学Chemical Reviews：原子尺度的界面催化

深度学习势能模拟铁电拓扑结构

Nature报道 | 国产之光！中国的低成本开源AI模型DeepSeek令科学家兴奋！

2025最新NC，分子筛机器学习MD

PRL: 魏苏淮教授与合作团队揭示从金属到本征透明导电体的设计新思路

PACKMOL-GUI：用于高效分子包装的一体化VMD界面

2024年度半导体科学与信息器件学科项目受理与资助情况

Best of Machine Learning with Python

JACS：利用大语言模型收集和分析MOFs性能数据集

DP还能干这个？数据降维方法助力DeePMD力场特征数据集搭建

Nat. Rev. Mater.：钙钛矿光伏——机载航天大有可为！

面向晶体与分子材料的高性能通用图神经网络

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

npj Comput. Mater.：通过混合Transformer图神经网络加速材料性能预测

突发！OpenAI宣布“星际之门计划”：5000 亿美元构建未来 AI 基础设施

JPhysD编委访谈|北京科技大学王荣明教授

微软研究团队通过AI加速材料发现，开创材料设计新纪元

国家自然科学基金项目申请书填报指导手册上新！

六年审稿终接收，唐军旺等人最新Nature！

首届复杂界面谱学智算研讨会在厦门大学成功举办

Nat. Catal.: 新型电化学技术将尿液转化为高价值固体过氧化尿素

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉