看看华中科大多模态大模型Monkey能识别王者峡谷草丛里的英雄吗

百科科技 2023-12-14 17:38 北京

事情是这样的，下午看到这个消息：

据华中科技大学消息，近日，华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

ps：多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的 AI 架构。

既然这么厉害，就去开源网站了解了一下，看到大模型提供了演示平台，于是便想测试一下，找图片的时候又发现桌面有张这样的截图，那就试试吧，看看大模型能识别图片里的英雄吗？

喂给大模型后，提问一下，Monkey是这样回复的：

这个。。。不好评价了，再多问几句：

这个。。。更不好评价了。。。

那就让Monkey生成一下图像的描述吧：

总体评价，还行吧。不过以上纯属娱乐了，专业的评测留给专业人士。

大模型介绍及官方演示

根据介绍，Monkey 引入了一种高效的训练方法，可以有效地将输入分辨率提高到 896 x 1344 ，同时不需要从开始进行预训练。为了弥合简单的文本描述和高输入分辨率之间的差距，Monkey 还提出了一种多级描述生成方法，该方法自动提供丰富的信息，可以指导模型学习场景和对象之间的关联。通过这两种设计的协同作用，Monkey 在多个基准测试中取得了优异的结果。与各种多模态大模型（包括 GPT4V）相比，Monkey 通过关注文本信息并捕获图像中的精细细节，在图像字幕方面表现出了良好的性能；高输入分辨率还可以使模型在具有密集文本的文档图像中展现出出色的性能。

Monkey 模型在 18 个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外，Monkey 在文本密集的问答任务中显示出“显著的优势”，甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。

Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中，Monkey 展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey 正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。

Monkey 可以准确地描述图像中的细节。

Monkey 在密集文本问答任务中表现特别好。例如，在商品标签的密集文本中，Monkey 可以准确回答有关该商品的各种信息，与包括 GPT4V 在内的其他 LMMs 相比，Monkey的性能非常突出。

Monkey 在日常生活场景中也表现同样出色。它可以完成各种问答和字幕任务，详细描述图像中的各种细节，甚至是不显眼的水印。

与现有的 LMMs（包括 GPT4V、Qwen-vl 等）进行定性比较，Moneky 显示出令人鼓舞的结果。您可以尝试使用我们提供的演示。

感兴趣的可以到大模型的开源网址去了解，希望国内有更多全能的多模态大模型出现吧。

开源地址：https://github.com/Yuliang-Liu/Monkey

今天先分享这些，【恶人笔记】只分享好人的东西，不定时更新

http://mp.weixin.qq.com/s?__biz=MzI1Mzg2MjAxNQ==&mid=2247486214&idx=1&sn=ba6820bb53ef8b6a82356535d4b844c9

恶人笔记

恶人不是坏人

最新文章

AIGC生成与检测技术：大模型领域的“猫鼠游戏”

“清华AI医院”（Agent Hospital）：医疗版《西部世界》的尝试探索——AI医疗

【神器收藏】WinFR：你的数据恢复救星，免费且强大！

体验苹果系统，无需黑苹果或者昂贵的Mac！浏览器轻松运行MacOS

告别年终总结噩梦，智谱清言“清言PPT”限时免费来拯救你！

一键P图不是梦！字节新模型SeedEdit，让图片编辑像打字一样简单

智能高效阅读，十倍放大你的信息价值——语鲸可能比follow更好用

腾讯元宝论文AI阅读神器：总结、精读、翻译、脑图唾手可得，导师再也不用担心我的科研效率了

智谱清言发布AutoGLM，AI的Phone Use时代来临！

大家都在要Follow邀请码，看看这个没有新意只有心意的分享吧

这个网站基于gpt-4o，可以帮你进行各种事件的概率预测

当AI学会读唇术：你的悄悄话还能保密吗？

分享一种从【中国招标投标公共服务平台】下载PDF格式招投标文件的方法

视频号也可以下载，这个开源免费的嗅探器，可以收藏备用

又来分享视频下载工具了，简单好用，支持很多平台

随时在线的AI个人数字导师，基于Meta最新开源大模型Llama驱动

免费访问由 GPT4 支持的 50000 多个 GPTs 工具，免翻免登录，这不怕被薅吗

这个汇聚了全球顶级AI大模型应用和工具的网站，真是一个AI便利超市

360的鲁大师居然也做NAS了，还是软件的免费使用，看看这个AiNAS怎么样

快手可灵有网页版了，还开源了文生图大模型，可以免费生成视频了

我试用了8个AI视频生成工具，快手可灵算不错的了

有这个免费工具，还需要等字幕组吗，视频配音翻译字幕全搞定了

使用这些AI工具，你也可以成为爽文短剧大师

继续分享视频下载、网盘搜索工具，还有一个关于《蒙娜丽莎》的话题

照片别乱发，AI可以定位，互联网没有隐私

三五分钟小说丨夜的命名术，作者：会说话的肘子

《重生之我嫩爹》，养AI逆子，做赛博义父，各位老父亲辛苦了

三五分钟小说丨吞噬星空，作者：我吃西红柿

互联网没有隐私，我知道你下载了什么

三五分钟小说丨大奉打更人，作者：卖报小郎君

两款支持100多个平台的视频、音频、图像等媒体下载工具

三五分钟小说丨灵境行者，作者：卖报小郎君

四百多万字的长篇小说如何快速看完——大模型的“歪理学说”

三五分钟小说丨诡秘之主，作者:爱潜水的乌贼

假期肯定拍了不少照片吧，AI可以帮你做写真了——大模型的“歪理学说”

关于PDF的所有需求，这一个工具就够了

不止是一问一答，知识库也可以这么玩——大模型的“歪理学说”

几乎所有短视频都可以下载，吾爱精品软件

下载神器，公众号文章、抖音视频、图片音乐等等，能看到的都可以下载

甚至都不需要注册，这些免费的工具赶紧收藏吧

分享最近爆火的两款AI音乐创作工具，以及周边应用

这款数据采集神器，一定收藏好了，千万别乱用

AIGC平台分享，一款免费强大的国产AI多风格画图工具Dreamina，字节跳动抖音出品，剪映同门

分享神级OCR软件，告别手动输入识别PDF，效率翻倍！

清华出品的AI学术助手，功能都有、很低调、还是免费

利用大模型，一键生成短视频，看看MoneyPrinterTurbo这个宝藏工具

AI搜索不光是搜索，还是个工具，除了“秘塔”还有这些

看看华中科大多模态大模型Monkey能识别王者峡谷草丛里的英雄吗

干货分享：可用的大模型AI站点，看看大厂怎么用大模型AI

聊聊搜索，分享各种资料搜索、信息查询、资源下载的工具，可以收藏备用了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉