基于视觉模型的 PDF 分块处理工具Chunk My Docs

文摘   2024-10-20 07:56   湖南  

项目简介

基于视觉模型的 PDF 分块处理工具,提供了一个可自行托管的解决方案,利用最先进的视觉模型进行分段提取和 OCR,通过 Rust Actix 服务器统一输出,支持 GPU 和 CPU 环境,并提供了一个用户界面


我们是卢米娜。我们构建的搜索引擎的相关性是 Google Scholar 的五倍。您可以在lumina.sh上查看我们。我们通过将最先进的搜索技术(最好的密集和稀疏向量嵌入)引入学术研究来实现这一目标。


虽然搜索是一个问题,但获取高质量数据是另一个问题。我们需要在内部处理数百万个 PDF 来构建 Lumina,并且我们发现从 PDF 中提取结构化信息的现有解决方案太慢且太昂贵(每页 $$)。


Chunk my docs 提供了一种自托管解决方案,该解决方案利用最先进的 (SOTA) 视觉模型进行分段提取和 OCR,通过 Rust Actix 服务器统一输出。此设置允许您在单个 NVIDIA L4 实例上以每秒约 5 页的惊人速度处理 PDF 和提取片段,为高精度边界框片段提取和 OCR 提供经济高效且可扩展的解决方案。该解决方案具有适应 GPU 和 CPU 环境的模型。尝试chunkr.ai上的 UI!


(超级)快速启动

  1. 前往chunkr.ai

  2. 注册一个帐户并复制您的 API 密钥

  3. 创建任务:

curl -X POST https://api.chunkr.ai/api/v1/task \   -H "Content-Type: multipart/form-data" \   -H "Authorization: ${YOUR_API_KEY}" \   -F "file=@/path/to/your/file" \   -F "model=HighQuality" \   -F "target_chunk_length=512" \   -F "ocr_strategy=Auto"

4. 轮询您创建的任务:

curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \  -H "Authorization: ${YOUR_API_KEY}"


自行部署

  1. 您需要 K8s 和 docker。

  2. 按照self-deployment.md中的步骤操作


项目链接

http://github.com/lumina-ai-inc/chunkr

扫码加入技术交流群,备注开发语言-城市-昵称

合作请注明


 

关注「GitHubStore」公众号


GitHubStore
分享有意思的开源项目
 最新文章