GitHub 上一款强大且可离线使用的 OCR 工具:Ollama OCR。通过搭配 Ollama 在本地使用,支持多种视觉模型,包括 LLaVA 7B、Llama 3.2 Vision 等。支持多种文件格式输出,如 Markdown、纯文本、JSON 等,同时支持并行处理多个图像。
参考文献:
[1] GitHub:https://github.com/imanoop7/Ollama-OCR
欢迎支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。若微信群二维码过期,则加微信buxingtianxia21进群。
NLP工程化知识星球
NLP工程化资料群