[ComfyUI]DeepSeek:国内AI黑马深夜开源Janus-Pro!统一多模态理解和生成模型!

科技   2025-01-28 10:29   浙江  

 

[ComfyUI]DeepSeek:国内AI黑马深夜开源Janus-Pro!统一多模态理解和生成模型!

🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !

Janus多模态模型简介

今天文章将介绍一款由最近因LLM模型低成本火起来的deepseek这家国内LLM 公司发布的统一的多模态理解和生成模型Janus-Pro

Janus-Pro:通过数据和模型扩展实现统一的多模态理解和生成

Janus-Pro 是针对先前工作 Janus 的高级版本。Janus-Pro 包含以下改进:

  • • 优化的训练策略:采用更高效的训练方法,提升模型性能。

  • • 扩展的训练数据:使用更大规模的数据集进行训练,增强模型的泛化能力。

  • • 模型规模的扩大:扩展模型的规模,提升其处理复杂任务的能力。

通过这些改进,Janus-Pro 在多模态理解和文本到图像的指令跟随能力方面取得了显著进步,同时增强了文本到图像生成的稳定性。

Janus:解耦视觉编码以实现统一的多模态理解和生成

Janus 是一个新颖的自回归框架,它通过将视觉编码解耦为独立的路径,同时仍然使用单一的统一变换器架构进行处理,从而实现了多模态理解和生成的统一。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。官方称:Janus 超越了以往的统一模型,并在性能上与特定任务的模型相匹配或超越。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选。

JanusFlow:将自回归与修正流相结合以实现统一的多模态理解和生成

JanusFlow引入了一种极简的架构,将自回归语言模型与修正流(rectified flow)相结合,修正流是生成建模中的最新方法。Janus 模型的关键发现表明,修正流可以直截了当地在大型语言模型框架内进行训练,无需进行复杂的架构修改。并通过大量实验表明,JanusFlow 在各自领域中实现了与专用模型相当或更优的性能,同时在标准基准测试中显著优于现有的统一方法。
  • • Github:https://github.com/deepseek-ai/Janus

  • • huggingface:https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main

  • • 在线体验:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B

Janus多模态ComfyUI体验

当前 @CY-CHENYUE 大佬的ComfyUI插件ComfyUI-Janus-Pro已支持了Janus多模态反推和图片生成,在管理器中搜索 Janus-Pro即可。模型文末网盘获取!

  • • ComfyUI-Janus-Pro插件:https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro

  • • Janus-Pro-7B模型:需下载整个项目并放置 /ComfyUI/models/Janus-Pro/Janus-Pro-7B/ 目录。地址:https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main

  • • 当前8Janus-Pro支持多模态图像理解反推图像的生成,但图像的生成仅分辨率384x384,仍然只是雏形。图像理解反推和提示扩写则是推荐功能,在社区图像反推又多了一件可选武器。

Flux文生图&混元视频工作流

最新LIBLIBAI平台已支持Flux文生图混元视频ComfyUI工作流在线体验:

  • • F.1-绮梦流光-水湄凝香:https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

  • • 文生图-Flux文生图(PuLID|LORA|Joy|SUPIR)工作流:https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8?versionUuid=9c5eceb01fb94d4d93d60fe2c0bd7468

  • • 文生视频-腾迅混元最强开源视频(LORA)工作流:https://www.liblib.art/modelinfo/35ee21d5f6a94204abb767ad194ab9cd?versionUuid=be674032ffa14e5597a08922556f4da0

Janus多模态图像反推和生成ComfyUI工作流体验

Janus多模态图像反推和生成ComfyUI工作流已上传LIBLIBAI平台可体验:https://www.liblib.art/modelinfo/73989dd3503d4b76a66d9fcac88c6d45?versionUuid=8d36dfa8932c49c6b346f08a45643482

注意

  • • 当前Janus-Pro支持多模态图像理解反推图像的生成,但图像的生成仅分辨率384x384,仍然只是雏形。并且人物的生成效果差,本文就不作展示。
  • • 图像理解反推和提示词扩写则是本文推荐可选功能,在社区图像反推又多了一件可选武器。
  • • 生图和反推过程大约使用显存17G,预估16G显存和大内存可运行。

01.反推-写实人物反推

反推结果

close-up,  1women, winter scene,a RAW photo,UHD,8k,light particle,advanced filters,Texture noise,Hong Kong style,bikini,bra,Pants,young Asian woman,This is a high-definition picture of a girl standing at the gym,she's wearing a sports bra and sweatpants,she's wearing a high ponytail,standing,she's sweating a lot,she's looking at the camera at the moment,there's a lot of sports,gear and bust behind her,available light,mid-shot,

02.反推-写实人物反推

反推结果

The image shows a young woman with long, dark brown hair wearing a cream-colored, off-the-shoulder knitted sweater. She has a tattoo of a tiger's face on her chest, with a red rose positioned above the tiger's head. The background is a plain, light-colored wall, and the overall tone of the image is soft and neutral.

03.线稿反推

反推结果

This image is a detailed black-and-white illustration of a young woman. She has short, wavy hair that falls just above her shoulders. Her facial features are delicate, with large, expressive eyes that are accentuated by long eyelashes and subtle makeup. She has a small nose and full lips.

She is wearing a fitted, long-sleeved top that appears to be slightly tight, highlighting her figure. Over her shoulders, she has a jacket that is casually draped, with the sleeves hanging off her arms. The jacket seems to be made of a soft, possibly padded material.

The overall style of the illustration is realistic with a focus on fine details, particularly in the hair and clothing textures. The background is plain, ensuring that the viewer's attention is drawn to the subject.

04.生图-猫咪

a cute cat

Janus-Pro模型:关注公众号口令【Janus-Pro获取

 更多推荐文章:

• [ComfyUI]混元图生视频:生态加速!Leapfusion新颖图生视频采样方法,仅需307M的LORA模型

• [ComfyUI]FitDiT:高逼真和贴合度虚拟试穿,纹理和尺寸感知!单图1024x768推理仅4.57秒!

• ComfyUI Copilot:大模型加持工作流的生成和修复和在线运行!

• [ComfyUI]腾讯混元3D:2.0重大升级!先进的高分辨率3D白膜和带纹理3D模型

• 腾讯混元3D:2.0重大升级,完善3D生态产品和3D模型工作流

• [ComfyUI]奈飞视频生成控制新方法,轻松掌控视频模型运动模式,Go-with-the-Flow与CogVideoX体验

感兴趣加入[AGI技术交流群]+V

如果觉得文章不错,就请在看转发三连

 

破狼
关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V:shunshizhiwu。
 最新文章