DeepSeek 深夜发布新模型 Janus-Pro！刚打完 OpenAI，现在又脚踢 Midjourney！

职场 2025-01-28 07:32 河南

这两天 DeepSeek 发布的 R1 模型，让美国科技圈已经炸锅了，以前还没觉得 DeepSeek 有多厉害，只是看到数据觉得很强，直到一夜掀翻美股，让美国科技圈集体傻眼，这是真的挺猛的。

刚打完 OpenAI，现在又脚踢 Midjourney，DeepSeek 深夜发布新模型 Janus-Pro，在图像生成和理解能力上全面超越了现有的主流模型。

统一的多模态理解与生成能力

Janus-Pro 最大的特点在于其"统一性"。不同于传统的需要使用多个独立模型来处理不同任务的方式，Janus-Pro 采用了创新的架构设计，能够在单一模型中同时处理：

图像理解
文本生成
图像生成
多模态对话

这种统一的架构不仅提高了模型的效率，更重要的是提升了各个任务之间的协同性能。

技术创新

根据 DeepSeek 官方发布的技术报告，Janus-Pro 的核心创新包括：

解耦的视觉编码架构
改进的数据扩展策略
优化的模型训练方法

这些创新使得 Janus-Pro 在处理复杂的多模态任务时表现出色，特别是在图像生成的质量和准确度方面。

开源与生态

值得一提的是，DeepSeek 选择了开源的方式来推动 Janus 系列模型的发展。在 GitHub 上，Janus 项目已经获得了超过 3.8k 的 star，这体现了开发者社区对该项目的高度认可。

开源已经打破了闭源的护城河，现在开源的模型已经可以和闭源的模型媲美，甚至超越，比如 OpenAI 的 GPT-4 和 GPT-4o，o1,以及 Midjourney 的 5.2 和 5.2 Pro。

快速入门

DeepSeek 在 HuggingFace 部署了 Janus-Pro 在线演示，可以直接使用。Janus-Pro-7B

可能访问人数太多了... 有点慢！

以下为本地步骤！

环境准备

首先需要安装必要的依赖：

pip install -e .

基础使用

Janus 提供了多种使用方式：

图像理解与对话


import torch
from transformers import AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor
from janus.utils.io import load_pil_images

# specify the path to the model
model_path = "deepseek-ai/Janus-Pro-7B"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

conversation = [
    {
        "role": "<|User|>",
        "content": f"<image_placeholder>\n{question}",
        "images": [image],
    },
    {"role": "<|Assistant|>", "content": ""},
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation, images=pil_images, force_batchify=True
).to(vl_gpt.device)

# # run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# # run the model to get the response
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True,
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

文本到图像生成

import os
import PIL.Image
import torch
import numpy as np
from transformers import AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor


# specify the path to the model
model_path = "deepseek-ai/Janus-Pro-7B"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

conversation = [
    {
        "role": "<|User|>",
        "content": "A stunning princess from kabul in red, white traditional clothing, blue eyes, brown hair",
    },
    {"role": "<|Assistant|>", "content": ""},
]

sft_format = vl_chat_processor.apply_sft_template_for_multi_turn_prompts(
    conversations=conversation,
    sft_format=vl_chat_processor.sft_format,
    system_prompt="",
)
prompt = sft_format + vl_chat_processor.image_start_tag


@torch.inference_mode()
def generate(
    mmgpt: MultiModalityCausalLM,
    vl_chat_processor: VLChatProcessor,
    prompt: str,
    temperature: float = 1,
    parallel_size: int = 16,
    cfg_weight: float = 5,
    image_token_num_per_image: int = 576,
    img_size: int = 384,
    patch_size: int = 16,
):
    input_ids = vl_chat_processor.tokenizer.encode(prompt)
    input_ids = torch.LongTensor(input_ids)

    tokens = torch.zeros((parallel_size*2, len(input_ids)), dtype=torch.int).cuda()
    for i in range(parallel_size*2):
        tokens[i, :] = input_ids
        if i % 2 != 0:
            tokens[i, 1:-1] = vl_chat_processor.pad_id

    inputs_embeds = mmgpt.language_model.get_input_embeddings()(tokens)

    generated_tokens = torch.zeros((parallel_size, image_token_num_per_image), dtype=torch.int).cuda()

    for i in range(image_token_num_per_image):
        outputs = mmgpt.language_model.model(inputs_embeds=inputs_embeds, use_cache=True, past_key_values=outputs.past_key_values if i != 0elseNone)
        hidden_states = outputs.last_hidden_state
        
        logits = mmgpt.gen_head(hidden_states[:, -1, :])
        logit_cond = logits[0::2, :]
        logit_uncond = logits[1::2, :]
        
        logits = logit_uncond + cfg_weight * (logit_cond-logit_uncond)
        probs = torch.softmax(logits / temperature, dim=-1)

        next_token = torch.multinomial(probs, num_samples=1)
        generated_tokens[:, i] = next_token.squeeze(dim=-1)

        next_token = torch.cat([next_token.unsqueeze(dim=1), next_token.unsqueeze(dim=1)], dim=1).view(-1)
        img_embeds = mmgpt.prepare_gen_img_embeds(next_token)
        inputs_embeds = img_embeds.unsqueeze(dim=1)


    dec = mmgpt.gen_vision_model.decode_code(generated_tokens.to(dtype=torch.int), shape=[parallel_size, 8, img_size//patch_size, img_size//patch_size])
    dec = dec.to(torch.float32).cpu().numpy().transpose(0, 2, 3, 1)

    dec = np.clip((dec + 1) / 2 * 255, 0, 255)

    visual_img = np.zeros((parallel_size, img_size, img_size, 3), dtype=np.uint8)
    visual_img[:, :, :] = dec

    os.makedirs('generated_samples', exist_ok=True)
    for i in range(parallel_size):
        save_path = os.path.join('generated_samples', "img_{}.jpg".format(i))
        PIL.Image.fromarray(visual_img[i]).save(save_path)


generate(
    vl_gpt,
    vl_chat_processor,
    prompt,
)

Gradio 演示

如果想要快速体验模型功能，可以运行 Gradio 演示：

pip install -e .[gradio]
python demo/app_janusflow.py

这将启动一个本地的 Web 界面，让你可以直观地体验模型的各项功能。

应用前景

Janus-Pro 的出现为多模态 AI 应用开辟了新的可能性。无论是在：

智能创作
视觉理解
人机交互
内容生成

等领域，都展现出了广阔的应用前景。

结语

随着 Janus-Pro 的发布，DeepSeek 不仅向世界展示了中国 AI 技术的实力，更为多模态 AI 的发展指明了新的方向。这个统一的、强大的模型架构，很可能会重新定义我们对 AI 能力的认知。

欢迎关注 “AI智见录”，为您分享更多精彩 AI 内容。

期文章推荐

- 这是底线 -

扫描以下二维码加小编微信，备注 “ai”，一起交流 AI 技术！

AI智见录

洞见AI前沿，分享技术与实践，助力智慧未来

最新文章

清华大学《DeepSeek：从入门到精通.pdf》

王者归来！GitHub Copilot 重磅推出 Agent 模式，剑指 Cursor

DeepSeek 中老年人使用指南，90%的人都不知道的使用技巧，强烈建议收藏！

秘塔AI×DeepSeek R1强强联合：解决 99% 用户的联网搜索问题！

OpenAI 祭出 "深度搜索" 大杀器！没想到DeepSeek的回复够犀利！

深度揭秘！99%人不知道的DeepSeek隐藏用法，用错血亏！

打工人逆袭！DeepSeek隐藏的8个AI神操作，每天偷懒2小时竟被夸效率高

重磅！华为芯片跑通DeepSeek！国产AI大模型最低1元100万Token，还能白嫖！

Cursor 说 o3-mini 所有用户免费使用！

重磅！OpenAI 发布免费推理模型 o3-mini，正面对标 DeepSeek，AI 领域再掀波澜

刚刚！Windsurf 宣布支持 DeepSeek R1 和 V3，成本比 Claude 便宜 4 倍！

DeepSeek 使用技巧，强烈建议收藏！普通人逆袭就靠它了！

知乎上爆火的 DeepSeek 梁文峰深夜回信，R1 模型说大概率 AI 写的！

连环出击！美国刚对 DeepSeek 网络攻击，意大利就要求下架？

爆火！新人小白也能用 DeepSeek 写新年祝福！

马斯克：这是我见过的对 DeepSeek 最透彻的分析！

DeepSeek 深夜发布新模型 Janus-Pro！刚打完 OpenAI，现在又脚踢 Midjourney！

重磅升级！Cursor 0.45：AI 更懂代码、DeepSeek 双模型加持

Cline 发布 3.2：白嫖 Claude 3.5、秒变架构师！

V0 的弟弟 “V2” 来了！

硬刚OpenAI o1，DeepSeek开源R1，自带思维链能力，能够推理和解决复杂问题

直冲 Cursor！字节发布全新 AI IDE Trae，Claude-3.5 无限量免费用！

Windsurf 新版本抢占高地，Cursor 说我又拿了 7 亿融资，谁会赢的未来？

Windsurf 发布Wave 2，Web实时搜索、URL上下文、自动化记忆等一大波新功能来袭！

Qwen Chat 发布全新 Web UI！体验超棒！

Roo Cline 3.0 重磅发布：人手一个架构师时代到来！

Gemini 2.0 Flash + Cline 打造最强 0 元购组合！

Cline 3.1 最新发布：体验感拉升一个新高度！

太火爆！Browser-Use WebUI 已被纳入 browser-use 麾下！

Browser-Use WebUI + DeepSeek V3 把浏览器整成自动化了!

Windsurf：唯一让 Cursor 瑟瑟发抖的最强对手！

一起来聊聊 Cursor、Copilot、Windsurf、V0...

Cline + DeepSeek-V3 对打 Cursor，谁更胜一筹？

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

Cursor Yolo 模式太棒了！

国产大模型 DeepSeek-V3 正式发布：代码场景逼近Claude-3.5-Sonnet和GPT-4o

Cursor发布0.44版本：全面提升Agent能力！

感受下 Cursor Agent 的强大魅力！

尤大亲自转发点赞！Github Copilot Edits 有何魔力？

字节最新开源：让 AI 给你写 UI 自动化测试

Cursor 的最佳搭档来了，专治不会写提示词！

Sora 正式发布：刚推出就火的让奥特曼关闭注册功能了！

antd 对 ai 下手了！Vue 开发者表示羡慕！

v0 急了！迎来重大更新，这是要对标 Bolt.new 和 Cursor？

斯坦福大学教授开源新项目：一个接口调用 OpenAI 等众多大模型

那个被何同学抄袭的项目 ASCII-generator 是干嘛用的？

40.9K Star！单图秒变主角，AI实时换脸神器引爆创意新潮流

OpenAI 写给学生的《12 条 ChatGPT 使用指南》

苹果上的 ChatGPT 现已支持 VS Code、Xcode、Terminal 等应用

只需 2 分钟，让 Bolt.new 写一个 “抖音”！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

DeepSeek 深夜发布新模型 Janus-Pro！ 刚打完 OpenAI，现在又脚踢 Midjourney！

统一的多模态理解与生成能力

技术创新

开源与生态

快速入门

环境准备

基础使用

Gradio 演示

应用前景

结语

期文章推荐

DeepSeek 深夜发布新模型 Janus-Pro！刚打完 OpenAI，现在又脚踢 Midjourney！