.01
.02
理解编码器:在处理多模态理解任务时,Janus利用高维语义特征提取方法,通过SigLIP将特征转换为适配语言模型的序列。这种处理方式确保了模型在理解内容时的高效性和准确性。 生成编码器:针对视觉生成任务,Janus采用VQ tokenizer将视觉数据转化为离散表示,进而实现细致的图像合成。这种分开处理的方式有效避免了以往模型在理解和生成过程中可能出现的冲突,从而提高了整体的效率和准确性。
.03
.04
.05
参考:
https://huggingface.co/deepseek-ai/Janus-1.3B https://github.com/deepseek-ai/Janus https://arxiv.org/abs/2410.13848