项目简介
基于视觉模型的 PDF 分块处理工具,提供了一个可自行托管的解决方案,利用最先进的视觉模型进行分段提取和 OCR,通过 Rust Actix 服务器统一输出,支持 GPU 和 CPU 环境,并提供了一个用户界面
我们是卢米娜。我们构建的搜索引擎的相关性是 Google Scholar 的五倍。您可以在lumina.sh上查看我们。我们通过将最先进的搜索技术(最好的密集和稀疏向量嵌入)引入学术研究来实现这一目标。
虽然搜索是一个问题,但获取高质量数据是另一个问题。我们需要在内部处理数百万个 PDF 来构建 Lumina,并且我们发现从 PDF 中提取结构化信息的现有解决方案太慢且太昂贵(每页 $$)。
Chunk my docs 提供了一种自托管解决方案,该解决方案利用最先进的 (SOTA) 视觉模型进行分段提取和 OCR,通过 Rust Actix 服务器统一输出。此设置允许您在单个 NVIDIA L4 实例上以每秒约 5 页的惊人速度处理 PDF 和提取片段,为高精度边界框片段提取和 OCR 提供经济高效且可扩展的解决方案。该解决方案具有适应 GPU 和 CPU 环境的模型。尝试chunkr.ai上的 UI!
(超级)快速启动
前往chunkr.ai
注册一个帐户并复制您的 API 密钥
创建任务:
curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"
4. 轮询您创建的任务:
curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"
自行部署
您需要 K8s 和 docker。
按照
self-deployment.md
中的步骤操作
项目链接
http://github.com/lumina-ai-inc/chunkr
扫码加入技术交流群,备注「开发语言-城市-昵称」
合作请注明
关注「GitHubStore」公众号