文档内容分析一直是计算机视觉中的一个重要研究领域。尽管在OCR、布局检测和公式识别等方法上取得了显著进展,现有的开源解决方案在面对文档类型和内容的多样性时,仍难以始终如一地提供高质量的内容提取效果。为了解决这些挑战,作者提出了 MinerU,一种用于高精度文档内容提取的开源解决方案。MinerU 利用先进的 PDF-Extract-Kit 模型有效地从各种文档中提取内容,并采用精细调整的预处理和后处理规则,以确保最终结果的准确性。实验结果表明,MinerU 在各种文档类型上都能稳定地实现高性能,显著提高了内容提取的质量和一致性。