刚刚,PDF利器Chunkr开源了!

旅行   2024-10-10 00:31   北京  

PDF处理终于不再是噩梦!

Lumina AI推出的开源工具Chunkr,正在为RAG(检索增强生成)领域带来一场革命。

Chunkr:PDF处理的救星

几乎所有涉足RAG的开发者都不得不面对PDF这个"撒旦的文件格式"。现有的解决方案要么速度慢如蜗牛,要么价格高得离谱,要么就是闭源黑盒。

Chunkr的出现,让这一切有了改变。

它不仅开源,而且速度快质量高。更重要的是,它能够处理PDF、PPT、DOCX和XLSX等多种文件格式。

强大功能一网打尽

Chunkr提供了一系列令人垂涎的功能:

  • 为PDF、PPT、DOCX和XLSX提供边界框和标签

  • 所有分段PNG的签名URL

  • 卓越的表格OCR能力

  • 高速处理:高质量模式下每秒10页,快速模式下每秒50页

更让人惊喜的是,Chunkr还提供了1500页的免费托管API额度

开源的力量

Ishaan Kapoor (@Ishaank1999) 强调了开源的重要性:

我们相信像Chunkr这样的软件应该是开源的。它是代理和搜索工具所需的核心技术——这应该是一个已经解决的问题。

开源不仅让技术变得透明,也为整个社区贡献了宝贵的资源。

性能对比

Chunkr在性能上也不遑多让。与广受欢迎的开源解决方案Unstructured相比,Chunkr采用了更先进的技术。

Ishaan指出:

Unstructured是最大的可比开源解决方案,被财富500强企业中的三分之一使用——但他们依赖于像tesseract这样十年前的技术。

技术内幕

Chunkr的强大源于其精心设计的技术栈:

  • VGT(GiT和ViT)

  • OCR(paddle)

  • VLM(qwen)用于后备

这种组合确保了Chunkr能够高效准确地处理各种复杂文档。

对于那些饱受PDF处理之苦的开发者来说,Chunkr不仅解决了技术难题,还通过开源方式为整个社区赋能。

如Ishaan所说:

分割对搜索质量有着巨大影响。处理这些的管道不应该对你来说是个黑盒。

未来展望

随着AI和RAG技术的不断发展,Chunkr不仅简化了开发流程,还为更智能、更高效的信息处理铺平了道路。

PDF处理不再是噩梦,Chunkr让它变成了美梦。

你准备好尝试了吗?

仓库地址:

https://github.com/lumina-ai-inc/chunkr

 👇


👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章