升级Ollama!MiniCPM-V2_6图像识别模型上线,适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

科技   2024-09-11 22:47   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Ollama 发布了一个新版本,并且带来了三个很酷的新功能。首先,它现在支持 MiniCPM 视觉模型,还支持 Yi-Coder 模型和 DeepSeek V2.5 版本。

我会在不同的文章中介绍这三个功能,但对我来说,最吸引人的无疑是这个 MiniCPM 视觉模型。如果你还不了解 MiniCPM 视觉模型,可以告诉你,它是一个紧凑但非常强大的模型,尤其是在视觉和通用任务方面。

如果你访问 Hugging Face,他们提供了很多关于这个模型的详细信息,你可以浏览并查看相关内容。

比如,最新版本是 2.6,这是该系列中最强大的模型。

MiniCPM-V 2.6 是 MiniCPM-V 系列中最新、功能最强大的模型。该模型基于 SigLip-400M 和 Qwen2-7B 构建,共有 8B 个参数。

与 MiniCPM-Llama3-V 2.5 相比,它的性能有了显著提升,并引入了用于多图像和视频理解的新功能。MiniCPM-V 2.6 的显著特点包括:

如果你访问 Ollama 的网站,可以在模型部分搜索 MiniCPM,或者直接访问他们的 GitHub 页面。你可以看到,这就是 MiniCPM 视觉模型,现在已经可以使用了。

不过在运行之前,你需要先升级 Ollama。在这个视频中,我将首先展示如何在本地系统中升级 Ollama,然后下载 MiniCPM,并进行一些操作。

如果运行 `Ollama --version`,你会看到我目前使用的版本是 3.6。

如果你访问 Ollama 的发布页面,你会发现最新的版本是 3.10,这个版本支持 MiniCPM 视觉模型 和 DeepSeek 模型。

因此,我们首先需要升级 Ollama。升级命令和初次安装时一样。访问 Ollama 的网站,点击下载,选择对应的操作系统。我使用的是 Linux,所以点击 Linux,复制这里的命令,然后回到终端并运行该命令。这需要一些时间,大约一分钟。

不过,对于国内来说使用这个命令通常会卡死。这里我介绍一个自己使用百分百能成功的方法:

我们先直接去github下载他的安装包

然后去这个网址把脚本文件复制下来(或者下载 install.sh):https://ollama.com/install.sh

然后操作我图中画出来的两步(一个是注释,一个是替换为上面下载的二进制文件夹路径,tips:一定要是二进制的目录,以便进行离线安装):

之所以这样离线安装,是因为官方给的手动(离线)安装的结束后出现了“段错误”。

Ollama 已经升级了,但我们需要指向新的二进制文件。复制新的二进制文件路径,然后再次运行 `Ollama --version`。

虽然 Ollama 已升级到 3.10 版本,但客户端还是 3.6,所以我们还需要升级客户端。虽然已经升级了,但我们需要重新加载系统守护进程和服务。所以重新加载守护进程,然后停止 Ollama 服务,接着重新启动它。现在如果再次运行 `Ollama --version`,你会看到版本已经是 3.10。

现在 Ollama 已经升级完成了。顺便提一下,如果你在 Docker 中使用 Ollama,需要运行相关命令。我没有使用 Docker,所以跳过这一部分。如果你在 Windows 或 Mac 上使用,只需根据系统设置环境变量即可。

现在 Ollama 已经升级好了,让我们回到 Ollama 的 MiniCPM 页面,下载 MiniCPM 视觉模型。回到终端,运行命令开始下载,模型的大小大约是 4.44 GB,下载后它会进行校验。

模型已经下载完毕,校验也已完成。接下来展示如何使用它。比如,如何识别图像、描述图像,或者使用 MiniCPM 视觉模型进行 OCR。

我已经在图像目录中,想要描述图像的话,运行 `ollama run` 命令,后面跟上模型名称、提示词和图像文件名。

现在你可以看到,模型正在描述图像,描述非常详细和准确。比如,它描述了带兜帽的树、日落、一群鸟等等。图片的内容和描述完全吻合,模型表现得非常好。

我在测试中注意到,有时如果不指定语言,模型会返回中文描述。不过你也可以直接要求它用中文回答,你看,它现在给出了中文描述。

除了图像描述,你还可以使用 OCR 功能。只需要给出图像文件,并询问图像中的文本内容。比如,我已经有一张图片,

现在你可以看到,它识别了括号、百分号,甚至还正确识别了特殊字符,比如带重音符的字母。它不仅识别了英文,还识别了其他语言,OCR 效果非常好。

让我再展示一个示例图片。这次我问它这是什么建筑,答案是斯蒂芬大教堂。

模型识别出了这是一座大教堂,当我进一步询问建筑的地点时,它正确地回答这是位于奥地利维也纳的圣斯蒂芬大教堂。

你可以看到,模型非常强大,现在我们可以在 Ollama 上运行它,所有操作都可以通过文本提示完成。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[2] huggingface:https://huggingface.co/openbmb/MiniCPM-V-2_6

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章