DeepSeek-OCR 硬件门槛不高。虽然官方建议使用 RTX 30 系列,但实测 RTX 2060 甚至部分 AMD 核显也能达到可用水平。
也就是说大部分的电脑都能跑。
从拉取模型到识别第一张图
安装 Ollama:
https://ollama.com/download
若此前已安装,则需查询 Ollama 版本号:
Windows 用户打开 CMD 或 PowerShell,macOS 用户打开终端,输入命令:
ollama -v务必确认版本号不低于 v0.13.0,否则请先升级或重新在官方下载最新安装包。
安装 deepseek-ocr 模型:
ollama pull deepseek-ocr模型大小约6.7GB,下载完成后再执行:
ollama list检查列表里是否出现了 deepseek-ocr:latest。
接下来要首次尝试调用模型,这也是大部分小伙伴卡住的地方。
DeepSeek-OCR 在 Ollama 里不支持图形界面或网页上传图片,必须通过命令行来指定文件路径。
命令格式为:
ollama run deepseek-ocr “图片路径\n提示词”比如要识别 D:\OCR目录下的test.jpg,输入:
ollama run deepseek-ocr “D:\OCR\test.jpg\nExtract the text in the image.”如果终端里出现:
Added image ‘D:\OCR\test.jpg’ The text in the image is:XXXX
就说明图片已经被成功解析。我拿官方简介的截图试了一下:
识别结果准确,没有乱码。
再次强调,目前 DeepSeek-OCR 不支持直接通过 Cherry Studio、Open-WebUI 等图形界面上传图片,在 Ollama 中只支持使用命令行调用。
真正的用武之地 - 批量处理
单张图片识别,手机APP就能搞定,DeepSeek-OCR 的真正价值在于本地批量处理。
无论是扫描书籍、发票、合同,还是成摞的纸质文档,只要转成图片,就能在本地一次性完成高质量识别。
而 Ollama 的命令行特性,恰好为自动化和二次开发留下了空间。
① 本地程序批量识别
既然模型能通过命令行稳定输出结果,那我们完全可以写个脚本或程序来批量调用。
考虑到不是所有人都会写代码,我做了一个小工具,选好图片所在的文件夹,就能自动调用Ollama中的DeepSeek-OCR识别全部图片。
下载地址:
https://downloads.ysht.me/DeepSeek-OCR.1.1.260126-1.zip
软件功能简单,一目了然。识别后的文件会以txt格式存放在目标图片目录。
② 转换为本地 API 服务
如果你想把 DeepSeek-OCR 接入其他程序、脚本或者自动化流程,可以把它封装成一个本地 API 服务。
直接运行下面这个程序,开箱即用,不需要任何额外配置,特别适合第一次接触API的朋友。
下载地址:
https://downloads.ysht.me/DeepSeek-OCR-Web.1.2.260126-1.zip
双击运行后,等命令行窗口提示启动成功。
这时程序已经同时开启了网页界面和标准API接口。Web 界面地址主要用于测试效果,API接口则用于程序调用。
根据提示在浏览器里访问对应地址,比如默认的http://127.0.0.1:5000,就能看到 Web 服务页面。
如需使用 API 调用时,只需在提示词中传入对应的数字即可选择上述模式。未正确指定模式时,可能会导致输出结果不符合预期。
API 的基础地址为:
http://127.0.0.1:5000/v1模型名固定为:
deepseek-ocr默认情况下API Key为空,本机使用时不需要鉴权就能直接调用。如果想限制访问,可以自行设置API Key。
要修改端口或设置访问密钥,可以给程序创建快捷方式,在目标路径后追加参数:
--port 8080 --api-key your-key其中端口号和密钥按需替换。
接下来,你可以在各类软件中直接调用 API。
例如,在 Cherry Studio 的"设置-模型服务"里,添加自定义提供商,类型选 OpenAI:
把 API 基础地址填进去,API 密钥留空,添加 DeepSeek-OCR 模型:
这样就能在 Cherry Studio 里用 API 进行图片识别了。
要说明的是:通过API调用时,提示词里要传入一个"modeX"(X为1-5)参数来指定识别模式。
这个设计来自 Ollama 官方对 DeepSeek-OCR 的使用说明,模型预设了5种标准识别模式,网页界面里的模式1-5与API调用时的数字参数完全对应。
mode1 对应“布局识别(Grounding Layout)”;
mode2 为“自由识别(Free OCR)”;
mode3 为“图表解析(Parse Figure)”;
mode4 为“文字提取(Extract Text)”;
mode5 为“转换为 Markdown”。如果没正确指定模式,可能会导致输出结果不符合预期。比如在Cherry Studio里,可以这样用:
进阶使用场景
实际使用中,文字识别往往只是第一步。识别完了之后,我们通常还想进一步加工成可以检索的文档或知识库。
比如扫描对象是一本书、一叠资料或一批连续文档时,单个图片对应的零散识别结果并不适合直接阅读,这就需要对OCR输出做二次处理。
因此我又做了个小工具来解决这个问题:
下载地址:
https://downloads.ysht.me/AI-Text-Merger.1.1.260126-1.zip
在这个工具中我们可以调用 ollama 的本地模型或在线大模型,对 DeepSeek-OCR 的扫描结果进行统一整理、合并与润色的二次加工。
*由于小模型处理长文本的能力有限,建议选择参数量较大的在线大模型
到这里,整个流程就跑通了。
用 Ollama 部署 DeepSeek-OCR,只需要一行命令安装,搭配几个简单的程序,就能完成从识别到实用的全过程。
纸媒时代留下的很多高质量内容,往往因为格式问题躺在那儿没法用。
如果这篇教程能帮你把书架上、抽屉里的资料重新激活,让它们真正为大模型所用,那这期硬菜就算没白出。
最后特别感谢海豚大佬提供的编程支持。使用中遇到问题,或者有新想法,随时评论区交流~
▽▽▽

