除夕之夜,DeepSeek 开始玩起了「左右互搏术」!
DeepSeek最新推出的Janus-Pro模型,直接把多模态AI的「左右脑」给打通了!
这个能同时做图文理解和图像生成的双面杀手,正在用自研框架改写行业规则。
这可不是简单的功能叠加,而是通过解耦视觉编码路径,让模型实现了真正的「一心二用」。
传统的多模态模型就像用同一只手写字画画,而Janus-Pro直接给AI装上了两套神经系统!
框架革命:化解多模态的世纪难题
Janus-Pro最狠的创新,在于把视觉编码拆成了两条独立通道。
就像给AI装上了理解之眼和创作之手,让模型在处理「看图说话」和「文字生图」时不再打架。
其最大的突破在于其全新的统一架构设计。这个架构包含三个核心组件:
自回归解码器:作为核心语言模型
SigLIP-L@384:负责图像理解编码
基于LlamaGen的VQ-VAE:实现图像生成
通过将视觉编码解耦为独立路径,同时维持统一的Transformer架构,Janus-Pro巧妙解决了此前模型在视觉编码器上的角色冲突问题。
@reach_vb 指出架构关键突破:
模型基于DeepSeek-LLM-1.5b/7b构建,使用SigLIP-L处理384x384图像输入,通过任务特定路径解耦编码过程
这种设计让模型在保持单一Transformer架构的同时,实现了多模态任务的无缝切换。
训练策略:三步登天的进化之路
DeepSeek团队采用了精心设计的三阶段训练流程:
第一阶段:在ImageNet数据集上训练新参数,建立视觉与语言元素的概念连接
第二阶段:引入多模态混合数据集,进行全参数微调
第三阶段:通过监督微调提升指令跟随和对话能力
在数据配比上也做了创新性调整:
图像理解任务:50%(大幅提升)
图像生成任务:40%
文本任务:10%
@iScienceLuvr 指出训练玄机:
第三阶段微调时故意减少文本任务比例
这是逼着模型把算力集中在跨模态转换
性能怪兽:双修王者
这个「文武双全」的怪物在两项核心指标上杀疯了!
官方测试显示,Janus-Pro不仅吊打前代统一模型,甚至能单挑专用模型——理解任务得分追平LLaVA,生成质量碾压DALL-E 3!
GenEval评分0.8,直接把SD3-Medium按在地上摩擦
DPG-Bench 84.19分,视觉创作质量接近专业设计师
这基于7200万张合成图像打底、三阶段修炼大法(适配器训练→统一预训练→监督微调)的训练策略,活脱脱把模型炼成了「多模态仙人」。
@dr_cintas 晒出实测对比:
在iPhone上跑4位量化版,推理速度近60 token/s
生成的384x384小图竟能看清车牌文字
在多模态理解基准测试中,Janus-Pro-7B展现出惊人实力:
POPE:87.4%
MME-PT:1567.1
MMBench:79.2
SEED:72.1
MMMU:41.0
MM-Vet:50.0
在图像生成方面,模型达到了0.8的GenEval评分和84.19的DPG-Bench评分,超越了包括DALL-E 3和SD3-Medium在内的多个主流模型。
MIT开源:随便玩!
DeepSeek这次直接掀桌子——7B/1B双版本全开源,MIT协议允许商用修改!
Hugging Face即刻能下,连iPhone都能本地运行1B轻量版。
开发者@angrypenguinPNG 现场演示:
输入「未来都市夜景」秒出赛博朋克街景
追问画面细节,模型能准确描述霓虹灯颜色渐变
实用价值:降低使用门槛
为了满足不同场景的需求,DeepSeek提供了两个版本:
Janus-Pro-7B:完整版本,性能强劲
Janus-Pro-1B:轻量级版本,可直接在浏览器中运行
这两个版本都已在Hugging Face平台开源,并采用MIT许可证发布,开发者可以自由使用和修改。
DeepSeek的全面突围
现在最刺激的问题是:当理解和生成不再需要两套模型,现有AI应用架构会不会被集体颠覆?
那些还在死磕单模态的玩家,是时候考虑下左右脑协同开发了。
毕竟,能同时玩转图文「左右互搏」的模型,才是真正的多模态完全体。
而值得注意的是,Janus-Pro的发布只是DeepSeek最近一系列重要突破中的一环:
Perplexity已集成DeepSeek R1模型用于深度网络搜索
DeepSeek R1蒸馏版本实现了在iPhone上60 token/s的本地推理速度
DeepSeek AI助手跃居App Store免费榜首位
在Groq平台上展现出极速的推理性能
这一系列成就展现了DeepSeek在AI领域的全面实力,而Janus-Pro的突破性进展,更是为多模态AI的发展开辟了新的方向。
相关链接
项目地址:
GitHub仓库:https://github.com/deepseek-ai/Janus 技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
模型下载:
Janus-Pro-7B:https://huggingface.co/deepseek-ai/Janus-Pro-7B Janus-Pro-1B:https://huggingface.co/deepseek-ai/Janus-Pro-1B
快速体验:
在线演示:https://huggingface.co/spaces/AP123/Janus-Pro-7b
参考文档:
快速入门指南:https://github.com/deepseek-ai/Janus?tab=readme-ov-file#3-quick-start DeepSeek官方活动:https://huggingface.co/organizations/deepseek-ai/activity/all
最后,我想说的是:Sam Altman 公司的名、画过的饼、想过的路,似乎正交由这家基于好奇心驱使的中国公司接力,继续对智能边界的深度求索!
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!