事情是这样的,下午看到这个消息:
ps:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的 AI 架构。
既然这么厉害,就去开源网站了解了一下,看到大模型提供了演示平台,于是便想测试一下,找图片的时候又发现桌面有张这样的截图,那就试试吧,看看大模型能识别图片里的英雄吗?
喂给大模型后,提问一下,Monkey是这样回复的:
这个。。。不好评价了,再多问几句:
这个。。。更不好评价了。。。
那就让Monkey生成一下图像的描述吧:
总体评价,还行吧。不过以上纯属娱乐了,专业的评测留给专业人士。
大模型介绍及官方演示
根据介绍,Monkey 引入了一种高效的训练方法,可以有效地将输入分辨率提高到 896 x 1344 ,同时不需要从开始进行预训练。为了弥合简单的文本描述和高输入分辨率之间的差距,Monkey 还提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用,Monkey 在多个基准测试中取得了优异的结果。与各种多模态大模型(包括 GPT4V)相比,Monkey 通过关注文本信息并捕获图像中的精细细节,在图像字幕方面表现出了良好的性能;高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。
Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。
Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey 展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey 正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。
Monkey 可以准确地描述图像中的细节。
Monkey 在密集文本问答任务中表现特别好。例如,在商品标签的密集文本中,Monkey 可以准确回答有关该商品的各种信息,与包括 GPT4V 在内的其他 LMMs 相比,Monkey的性能非常突出。
Monkey 在日常生活场景中也表现同样出色。它可以完成各种问答和字幕任务,详细描述图像中的各种细节,甚至是不显眼的水印。
与现有的 LMMs(包括 GPT4V、Qwen-vl 等)进行定性比较,Moneky 显示出令人鼓舞的结果。您可以尝试使用我们提供的演示。
感兴趣的可以到大模型的开源网址去了解,希望国内有更多全能的多模态大模型出现吧。
今天先分享这些,【恶人笔记】只分享好人的东西,不定时更新