春节献礼!DeepSeek Janus Pro开源,图像生成直逼DALL-E 3,成本狂降90%!

文摘   2025-01-28 10:46   美国  

 

继 R1 引发开源社区热烈讨论后,DeepSeek 再度震撼 AI 领域,推出全新多模态大模型 Janus Pro,强势进军图像生成领域,直接对标 OpenAI 的 DALL-E 3!Janus Pro 的发布,不仅展示了 DeepSeek 强大的技术实力,更预示着 AI 行业将迎来新一轮的变革。 特别值得注意的是,该模型在图片分析方面输入分辨率被限制在 384x384,这在当前追求高分辨率的趋势下显得尤为独特,但在该约束下,其性能依然亮眼。DeepSeek 团队选择在春节前夕发布这一成果,无疑是为 AI 社区献上了一份厚礼。

Janus Pro:双面神模型,开启多模态理解与生成新篇章

Janus Pro,以罗马神话中的双面神命名,寓意其兼具图像生成和视觉理解的双重能力。它不仅能够根据文本提示生成图像,还能对输入的图像进行深入分析和理解。这种多模态能力,使其成为 AI 领域的一颗耀眼新星。

技术创新:优化训练策略、数据增强、扩大模型规模,提升性能

Janus Pro 的卓越性能,源于 DeepSeek 团队在多个方面的技术创新:

优化的 training strategy

DeepSeek 团队对 Janus Pro 的训练策略进行了精心优化。他们采用了一种新颖的训练方法:

  • • Stage II 中,完全摒弃了 ImageNet 数据,直接利用正常的文本到图像数据来训练模型,根据各种描述生成图像。 这种策略使得模型能够更高效地学习文本到图像的映射关系。
  • • Stage III 监督微调过程中不同类型数据集的数据比例从 7:3:10 调整为 5:1:4,略微降低了文本到图像数据的比例。 这一调整使得模型在保持强大的视觉生成能力的同时,提高了多模态理解性能。

数据增强

为了进一步提升模型性能,DeepSeek 团队对训练数据进行了大规模的增强。他们采用了包括:

  • • 图像字幕数据集(例如 YFCC 
  • • 表格、图表和文档理解数据(例如 Doc-matix 
  • • 以及来自 DeepSeek-VL2 的其他数据集,例如 MEME 理解中文对话数据 以及旨在增强对话体验的数据集,总计约 9000 万个样本

这些数据增强措施显著扩展了模型的能力,丰富了其处理各种任务的能力,同时改善了整体对话体验。此外,他们还引入了约 7200 万个合成美学数据样本,将统一预训练阶段的真实数据与合成数据的比例提高到 1:1。实验表明,在合成数据上训练时,模型收敛得更快,并且生成的文本到图像输出不仅更稳定,而且美学质量也得到了显着提高。

模型规模扩大

Janus Pro 提供了 1B 和 7B 两种规模的模型,以满足不同的应用需求。更大的模型规模带来了更强的表达能力和更高的性能上限。这种策略为用户提供了更大的灵活性,可以根据自身的计算资源和性能要求选择合适的模型。

性能表现:超越前作,比肩业界巨头,384x384分辨率下表现依旧亮眼

Janus Pro 在多个权威的 AI 基准测试中展现了强大的实力,即使在图片分析输入分辨率限制为 384x384 的情况下,其表现依然令人瞩目:

GenEval 和 DPG-Bench 测试结果

在 GenEval 和 DPG-Bench 这两个专门用于评估文本到图像生成模型性能的基准测试中,Janus Pro-7B 取得了令人瞩目的成绩。它不仅超越了前作 Janus,更是在部分指标上超越了 DALL-E 3 和 SD3-Medium 等业界领先的闭源模型。即使在图片分析输入分辨率限制在 384x384 的情况下,Janus Pro 依然展现出了卓越的性能。

下图表展示了 Janus-Pro 在 GenEval 和 DPG-Bench 上的具体表现:

图:DeepSeek 声称其 Janus Pro 图像模型比 OpenAI 的 DALL-E 3 或 Stability AI 的 SD3-Medium 具有更高的性能




下图表为不同模型在 GenEval 上的详细对比:


图:在 GenEval 基准上评估文本到图像的生成能力。“Und.” 和 “Gen.” 分别表示“理解”和“生成”。使用外部预训练扩散模型的模型标有 †

下图表为不同模型在 DPG-Bench 上的性能对比:



图: 在 DPG-Bench 上的性能表现。此表中的方法除了 Janus 和 Janus-Pro 之外,均为专门针对图像生成的模型

与其他模型的对比

Janus Pro-7B 在多模态理解基准测试 MMBench [29] 上取得了 79.2 分的成绩,超过了 Janus [46](69.4)、TokenFlow [34](68.9)和 MetaMorph [42](75.2)等最先进的统一多模态模型。 此外,在文本到图像指令遵循排行榜 GenEval [14] 上,Janus-Pro-7B 得分为 0.80,超过了 Janus [46](0.61)、DALL-E 3(0.67)和 Stable Diffusion 3 Medium [11](0.74)。这些对比数据充分证明了 Janus Pro 在多模态理解和生成方面的领先地位, 尤其是在受限条件下的优异表现。

下图表为不同模型在多模态理解任务上的性能对比:



图:  在多模态理解基准测试上与当前最佳模型(SOTA)的比较。“Und.” 和 “Gen.” 分别表示“理解”和“生成”。使用外部预训练扩散模型的模型标有 †

来源:DeepSeek Janus Pro 技术报告

能力范围

Janus Pro 具备强大的图片分析和生成能力。它可以根据用户输入的文本指令,生成与之匹配的图像。同时,它也能够对输入的图像进行分析,并输出对图像内容的理解。需要注意的是,Janus Pro 的图片分析输入分辨率目前限制在 384x384。 这一限制虽然在一定程度上影响了模型在处理高分辨率图像时的细节表现,但在该约束条件下,Janus Pro 仍然展现出了超越许多其他模型的能力。

以下是一些 Janus Pro 生成的图片示例:

DeepSeek:开源力量,冲击 AI 行业格局

DeepSeek 不仅仅是一家 AI 公司,更是一种开源精神的象征。它的崛起,正在深刻地影响着 AI 行业的格局。

DeepSeek R1 的影响:开源模式引发热议,挑战闭源巨头的商业模式

DeepSeek R1 的发布,在 AI 领域掀起了一场关于开源与闭源模式的激烈讨论。R1 的卓越性能和开源策略,让人们看到了开源 AI 模型的巨大潜力,也对 OpenAI 等闭源巨头的商业模式构成了挑战。

开源策略的意义

DeepSeek 的开源策略,降低了 AI 技术的应用门槛,使得更多的开发者和研究者能够参与到 AI 技术的创新中来。 这不仅推动了 AI 技术的快速发展,也促进了 AI 应用的普及, 特别是对于那些资源有限的团队和个人。

对闭源巨头的挑战

OpenAI 等闭源巨头依靠其强大的技术实力和资源优势,构建了庞大的 AI 帝国。然而,DeepSeek 的开源策略,正在打破这种垄断格局。 开源模型的高性能和低成本,使得更多的企业和开发者可以选择开源方案,从而削弱了闭源巨头的市场份额和定价权。

低成本、高性能:DeepSeek 的技术秘诀

DeepSeek 的模型不仅性能卓越,而且训练成本相对较低。 根据 DeepSeek 团队的报告,他们仅用了约 11 万美元 的成本,就完成了一个训练运行,并取得了超越 DALL-E 3 的性能。这一成本远低于业界预期,也低于 Stability 的前 CEO 对 DALL-E 2 训练成本的估计(约 100 万美元)。这主要得益于 DeepSeek 团队在算法和训练策略上的创新:

  • • 优化的自回归框架: DeepSeek 团队设计了一种高效的自回归框架, 能够更好地捕捉图像和文本之间的关系。
  • • 高效的数据处理流程: DeepSeek 团队优化了数据处理流程, 提高了数据利用率, 降低了训练成本。
  • • 针对性的硬件优化: DeepSeek 团队针对 A100 GPU 进行了特定的硬件优化, 充分利用了硬件性能。

根据技术报告,他们仅使用了 数百块 A100 GPU 就完成了 Janus Pro 的训练,而训练时间仅为 7/14 天(分别对应 1.5B/7B 模型)。这与动辄需要数千块 GPU 和数月训练时间的闭源模型相比,效率提升显著, 成本大幅降低。

以下是DeepSeek Janus-Pro 的训练参数细节:



图: Janus-Pro 训练的详细超参数。数据比例指的是多模态理解数据、纯文本数据和视觉生成数据之间的比例
以及模型架构配置:



图: Janus-Pro 的架构的超参数

中美 AI 竞争:Janus Pro 的发布加剧竞争,引发关于算力限制和技术路线的讨论

Janus Pro 的发布,进一步加剧了中美在 AI 领域的竞争。它不仅展示了中国 AI 技术的实力,也引发了业界关于算力限制和技术路线的深入讨论。

竞争格局

Janus Pro 的出现,使得中国在 AI 领域的竞争力进一步提升。它表明,中国 AI 公司不仅能够开发出与美国领先的闭源模型相媲美的产品,而且在开源领域也展现出了强大的实力。 DeepSeek 的开源策略和技术实力,正在改变全球 AI 行业的竞争格局。

技术路线讨论

Janus Pro 的低成本、高性能,引发了业界对 AI 技术发展路线的思考。一些人认为,未来的 AI 模型将更加注重效率和实用性,而不是一味地追求更大的模型规模和更高的算力投入。DeepSeek 的成功,为这种技术路线提供了有力的支持。同时, 如何在资源受限的情况下, 仍然保持模型的性能, 也成为了一个新的研究方向。

模型限制

尽管 Janus Pro 取得了令人瞩目的成绩,但它目前仍然存在一些局限性:

图片生成质量

Janus Pro 生成的图像虽然在语义上与提示相符,但在细节表现上还有待提升。 这主要是由于当前版本的模型在训练时将分辨率限制在了 384x384。例如,在生成人脸等复杂图像时,细节可能会有所欠缺。

图片分析能力

由于输入分辨率的限制 (384x384),Janus Pro 在处理需要精细识别的任务,例如 OCR (光学字符识别) 时,性能会受到一定影响。 这限制了其在某些应用场景下的实用性。

Janus Pro 的未来展望

尽管存在一些局限性,但 Janus Pro 的发布仍然是 DeepSeek 的一个重要里程碑。DeepSeek 团队表示,他们将继续改进模型,提升性能,并探索更高分辨率的图像生成和分析。我们有理由相信,未来的 Janus Pro 将会更加强大,并在更多领域得到应用, 例如探索更高分辨率的图像生成和分析, 以及改进在细粒度任务上的性能。

DeepSeek Janus Pro 的发布,不仅仅是一款优秀的开源多模态模型,更是开源 AI 力量的又一次胜利。

 

推荐阅读


 

 

子非AI
子非AI,亦解AI之妙:一站式AI情报站,助你开启智能未来之门。
 最新文章