Molmo :开源多模态LLM超越 GPT-4o(实际测试)

科技   2024-09-28 22:38   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

在今天的文章中,我们将讨论 Momo,这是一个 70 亿参数和 720 亿参数的多模型,从它的基准测试上显示,它击败了 GPT 4o 和 Claude Sonet3.5:

准确的说是,Molmo-72B 获得了最高的学术基准分数,并在人工评估中排名第二,略低于 GPT-4o。

Molmo 72B 基于Qwen2-72B,使用OpenAI CLIP作为视觉主干。

Molmo 模型在大多数视觉基准测试中均优于 Llama 3.2

除此以外,你可能想问他和Qwen2 VL 72B的比较:转自reddit网友提供的,你想要看到的Molmo-72B和这些模型的比较

• 视觉问答的绝对优势:在 AI2D、VQAv2 和 TextVQA 等视觉相关任务中,Molmo-72B 拥有极高的准确率,特别适合以图像为主的多模态任务。
• 文档处理能力:DocVQA 中的表现接近顶级,适合需要处理文档理解和视觉元素的复杂任务场景。
• 广泛适用性:尽管在一些数学和综合任务(如 MathVista 和 RealWorldQA)中的表现不是最顶尖,但仍然具备中等以上的能力,显示出广泛的适用性。
同时有人提到对Qwen2 VL基准测试的怀疑:

Molmo 72B 所以这么好,最重要的一点是他们的高质量数据集 pixo,正如他们所说,数据质量胜过数量,而且始终注重高质量数据,因为垃圾进垃圾出。

开放了四个Molmo 模型:

测试一下

下面的测试中我会提到llama3.2 90B,写于这篇文章:

全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)

你能理解这个梗图的梗点在哪里吗

很明显,4o回答正确了,而Molmo则完全错误,甚至不知道他有些东西是怎么来的,哪里有综合?印证了梗图的胡言乱语,哈哈哈。

图中有几个水果,哪个最小,哪个最酸,它们分别在架子的哪一行和哪一列?

酸的说对了,但是那是苹果,不是荔枝;不过比llama3.2 90B的回答好。

4o回答得更棒,只是还是漏掉了一个:西瓜。不过最小和最酸的都答对了;4o得分啦,+1。不过说个题外话,最近这几天4o好像变懒了,回答问题都很短,令人头疼。

我继续问它们图片的分辨率是多少

Molmo无法识别图像的分辨率,而 ChatGPT 可以 。

识别线的相交情况:

Molmo 、4o都失败了。

石头计数和水印

试了好几次,都数成了7块,前面一片文章llama3.2 90B是可以数对的。

4o也错了。

船的计数问题

这一轮二者都通过

下面继续:

这个问题我尝试了两次,实际上他有30艘,不过他数的大差不差,我觉得也已经很不错了

4o也数错了:

Molmo这个模型的计数还挺厉害的,关于这个技术的细节有热心网友提供:https://arxiv.org/abs/2310.11441

时钟问题

Molmo发布后,有网友指出它是第一个可以准确识别时钟具体时间的LLM

对,Gpt-4o 也不行,曾经专门有个帖子提到了这一点

我也测试了一下

确实,4o不管问几次,始终不能说出正确的时间:5点50分

但是 Molmo可以

但是,值得注意的是 ,有网友指出,Molmo 专门针对时钟数据集微调过。

所以,鉴于这种原因,并不能说Molmo完全更厉害,4o 想要做到这一点并不难,仅仅因为没有包含此类数据并不意味着他不能。

Molmo一些其他的例子

Molmo 解决距离问题:

Molmo 可以高精度地获取图像中物体的坐标,

图像中的物体含义

总的来说对于这个新模型我觉得他挺棒的,它拥有独特的优势,不过对我来说,我觉得4o还是最佳的视觉模型。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] https://molmo.allenai.org/
                                     

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章