为了彻底榨干 DeepSeek-OCR,我写了三个小工具

科技   科技   2026-01-31 10:19   湖北   联系删除
图片
最近好多朋友问我:装了 Ollama 玩了几天,除了跟 AI 聊聊天还能有啥实际的作用?
那玩法多了去!今天开始,我准备出几期 Ollama 的硬菜 
这一期,莫理给大家带来在 Ollama 上实战部署 DeepSeek-OCR 的保姆级教程。
并且附带了多款配套小工具,批量处理、转换为本地 API 服务,主打一个实用。

DeepSeek-OCR 硬件门槛不高。虽然官方建议使用 RTX 30 系列,但实测 RTX 2060 甚至部分 AMD 核显也能达到可用水平。

也就是说大部分的电脑都能跑。

从拉取模型到识别第一张图

安装 Ollama:

https://ollama.com/download

若此前已安装,则需查询 Ollama 版本号:

Windows 用户打开 CMD 或 PowerShell,macOS 用户打开终端,输入命令:

ollama -v

务必确认版本号不低于 v0.13.0,否则请先升级或重新在官方下载最新安装包。

安装 deepseek-ocr 模型:

ollama pull deepseek-ocr

模型大小约6.7GB,下载完成后再执行:

ollama list

检查列表里是否出现了 deepseek-ocr:latest。

接下来要首次尝试调用模型,这也是大部分小伙伴卡住的地方

DeepSeek-OCR 在 Ollama 里不支持图形界面或网页上传图片,必须通过命令行来指定文件路径。

命令格式为:

ollama run deepseek-ocr “图片路径\n提示词”

比如要识别 D:\OCR目录下的test.jpg,输入:

ollama run deepseek-ocr “D:\OCR\test.jpg\nExtract the text in the image.”

如果终端里出现:

Added image ‘D:\OCR\test.jpg’ The text in the image is:XXXX

就说明图片已经被成功解析。我拿官方简介的截图试了一下:

识别结果准确,没有乱码。

再次强调,目前 DeepSeek-OCR 不支持直接通过 Cherry Studio、Open-WebUI 等图形界面上传图片,在 Ollama 中只支持使用命令行调用。

真正的用武之地 - 批量处理

单张图片识别,手机APP就能搞定,DeepSeek-OCR 的真正价值在于本地批量处理。

无论是扫描书籍、发票、合同,还是成摞的纸质文档,只要转成图片,就能在本地一次性完成高质量识别。

而 Ollama 的命令行特性,恰好为自动化和二次开发留下了空间。

① 本地程序批量识别

既然模型能通过命令行稳定输出结果,那我们完全可以写个脚本或程序来批量调用。

考虑到不是所有人都会写代码,我做了一个小工具,选好图片所在的文件夹,就能自动调用Ollama中的DeepSeek-OCR识别全部图片。

下载地址:

https://downloads.ysht.me/DeepSeek-OCR.1.1.260126-1.zip

软件功能简单,一目了然。识别后的文件会以txt格式存放在目标图片目录。

② 转换为本地 API 服务

如果你想把 DeepSeek-OCR 接入其他程序、脚本或者自动化流程,可以把它封装成一个本地 API 服务。

直接运行下面这个程序,开箱即用,不需要任何额外配置,特别适合第一次接触API的朋友。

下载地址:

https://downloads.ysht.me/DeepSeek-OCR-Web.1.2.260126-1.zip

双击运行后,等命令行窗口提示启动成功。

命令行窗口.png

这时程序已经同时开启了网页界面和标准API接口。Web 界面地址主要用于测试效果,API接口则用于程序调用。 

据提示在浏览器里访问对应地址,比如默认的http://127.0.0.1:5000,就能看到 Web 服务页面。

根据提示打开的网页截图.png

如需使用 API 调用时,只需在提示词中传入对应的数字即可选择上述模式。未正确指定模式时,可能会导致输出结果不符合预期。

API 的基础地址为:

http://127.0.0.1:5000/v1

模型名固定为:

deepseek-ocr

默认情况下API Key为空,本机使用时不需要鉴权就能直接调用。如果想限制访问,可以自行设置API Key。

要修改端口或设置访问密钥,可以给程序创建快捷方式,在目标路径后追加参数:

--port 8080 --api-key your-key

其中端口号和密钥按需替换。

接下来,你可以在各类软件中直接调用 API。

例如,在 Cherry Studio 的"设置-模型服务"里,添加自定义提供商,类型选 OpenAI: 

自定义的提供商,类型选择OpenAI

把 API 基础地址填进去,API 密钥留空,添加 DeepSeek-OCR 模型: 

模型配置.png

这样就能在 Cherry Studio 里用 API 进行图片识别了。

要说明的是:通过API调用时,提示词里要传入一个"modeX"(X为1-5)参数来指定识别模式。

这个设计来自 Ollama 官方对 DeepSeek-OCR 的使用说明,模型预设了5种标准识别模式,网页界面里的模式1-5与API调用时的数字参数完全对应。

mode1 对应“布局识别(Grounding Layout)”;
mode2 为“自由识别(Free OCR)”;
mode3 为“图表解析(Parse Figure)”;
mode4 为“文字提取(Extract Text)”;
mode5 为“转换为 Markdown”。

    如果没正确指定模式,可能会导致输出结果不符合预期。比如在Cherry Studio里,可以这样用: 

    Cherry Studio对话.png

    进阶使用场景

    实际使用中,文字识别往往只是第一步。识别完了之后,我们通常还想进一步加工成可以检索的文档或知识库。

    比如扫描对象是一本书、一叠资料或一批连续文档时,单个图片对应的零散识别结果并不适合直接阅读,这就需要对OCR输出做二次处理。

    因此我又做了个小工具来解决这个问题:

    下载地址:

    https://downloads.ysht.me/AI-Text-Merger.1.1.260126-1.zip

    在这个工具中我们可以调用 ollama 的本地模型或在线大模型,对 DeepSeek-OCR 的扫描结果进行统一整理、合并与润色的二次加工。

    主界面.png

    *由于小模型处理长文本的能力有限,建议选择参数量较大的在线大模型


    到这里,整个流程就跑通了。

    用 Ollama 部署 DeepSeek-OCR,只需要一行命令安装,搭配几个简单的程序,就能完成从识别到实用的全过程。

    纸媒时代留下的很多高质量内容,往往因为格式问题躺在那儿没法用。

    如果这篇教程能帮你把书架上、抽屉里的资料重新激活,让它们真正为大模型所用,那这期硬菜就算没白出。

    最后特别感谢海豚大佬提供的编程支持。使用中遇到问题,或者有新想法,随时评论区交流~


    本文发表于公众号【莫理】
    关注我们,阅读更多精彩内容

    ▽▽▽

    莫理
    关注我,和你一起探索AIGC的新边界!
     最新文章
    广告