Qwen2.5-0.5B-Instruct 作为基础语言模型处理文本输入;
SigLIP-400M 作为视觉编码器生成图像嵌入;
投影层(MLP)将视觉编码器的嵌入对齐到语言模型的 token 空间。
Omnivision 亮点:
9倍图像token减少,降低延迟和计算成本。
使用DPO训练减少幻觉,提高结果可信度。
在多项基准测试中优于nanoLLAVA。
支持本地设备快速推理。
适用于视觉问答和图像描述任务。
论文地址:https://arxiv.org/pdf/2411.00622
项目地址:https://github.com/LingmaTongyi/Lingma-SWE-GPT
基于 Qwen 系列基础模型,Lingma SWE-GPT 通过软件工程开发过程数据的额外训练,增强了其解决复杂软件工程任务的能力。该模型旨在通过智能辅助,提升软件开发的各个方面。
Lingma SWE-GPT 的表现:
在软件工程领域的应用中表现出色,首次在SWE-bench基准测试中达到了 30.20% 的解决率。
能模拟专业开发者的思维过程,支持代码优化、开发辅助,代码故障定位成功率 51.16%,可以用它做代码审查、Bug 修复等。
在软件工程特定任务中的表现优于其他类似规模的开源模型,如比 Llama 3.1 405B 高出 22.76%,接近封闭源模型(GPT-4o 解决 31.80% 问题)的表现。
图:Table 1 展示了 Lingma SWE-GPT(7B 和 72B)与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。
论文地址:https://arxiv.org/abs/2411.07975
项目地址:https://github.com/deepseek-ai/Janus
模型下载:https://huggingface.co/deepseek-ai/JanusFlow-1.3B