MinerU:开源高质量数据提取工具,支持PDF/网页/多格式电子书提取

学术   2024-11-16 22:01   北京  

文档内容分析一直是计算机视觉中的一个重要研究领域。尽管在OCR、布局检测和公式识别等方法上取得了显著进展,现有的开源解决方案在面对文档类型和内容的多样性时,仍难以始终如一地提供高质量的内容提取效果。为了解决这些挑战,作者提出了 MinerU,一种用于高精度文档内容提取的开源解决方案。MinerU 利用先进的 PDF-Extract-Kit 模型有效地从各种文档中提取内容,并采用精细调整的预处理和后处理规则,以确保最终结果的准确性。实验结果表明,MinerU 在各种文档类型上都能稳定地实现高性能,显著提高了内容提取的质量和一致性。

https://github.com/opendatalab/MinerU

MinerU稳定版体验:

https://www.modelscope.cn/studios/OpenDataLab/MinerU

MinerU测试版体验:

https://huggingface.co/spaces/opendatalab/MinerU

MinerU论文:

https://arxiv.org/pdf/2409.18839

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章