ExtractThinker 是一个灵活的文档智能工具

科技   2024-12-31 00:00   浙江  

ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,类似于 ORM(对象关系映射),实现无缝的文档处理工作流程。主要功能如下所示:

  • 灵活的文档加载器:支持多种文档加载器,包括 Tesseract OCR、Azure 表单识别器、AWS Textract、Google Document AI 等。
  • 可定制的合约:使用 Pydantic 模型定义自定义提取合约,实现精确的数据提取。
  • 高级分类:使用自定义分类和策略对文档或文档部分进行分类。
  • 异步处理:利用异步处理高效处理大型文档。
  • 多格式支持:无缝处理各种文档格式,如 PDF、图像、电子表格等。
  • 类似 ORM 的交互:以类似 ORM 的方式与文档和 LLMs 交互,便于直观开发。
  • 拆分策略:实施懒拆分或急拆分策略,按页或整体处理文档。
  • 与 LLMs 的集成:轻松集成不同的 LLM 提供商,如 OpenAI、Anthropic、Cohere 等。
  • 社区驱动开发:受到 LangChain 生态系统的启发,专注于智能文档处理。

参考文献:
[1] https://enoch3712.github.io/ExtractThinker/getting-started/
[2] https://github.com/enoch3712/ExtractThinker



欢迎支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。若微信群二维码过期,则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

NLP工程化
专注于对话系统领域的技术分享,重点写《Dify应用操作和源码剖析》专栏。
 最新文章