论文标题:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 论文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf 7B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-7B 1B 版本:https://huggingface.co/deepseek-ai/Janus-Pro-1B Hugging Face 试用链接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
阶段 I:重点训练适配器和图像头。 阶段 II:进行统一预训练。在此过程中,除理解编码器和生成编码器外,所有组件的参数都会被更新。 阶段 III:进行监督微调。在阶段 II 的基础上,进一步解锁理解编码器的参数。
多模态理解:对于阶段 II 的预训练数据,参考 DeepSeek-VL2 ,并增加了大约 9000 万条样本。样本包括图像标注数据集,以及表格、图表和文档理解的数据。 视觉生成:前一个版本的 Janus 使用的真实世界数据质量较差,且包含大量噪声,导致文本生成图像时不稳定,生成的图像质量较差。在 Janus-Pro 中,研究者加入了大约 7200 万条合成的美学数据样本,在统一预训练阶段,真实数据和合成数据的比例为 1:1。
论文标题:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation 论文地址:https://arxiv.org/pdf/2411.07975
@THE END
欢迎加入10W+领导者社群
文章来源 :领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载”
版权说明 :我们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。