在7月4日举行的WAIC 2024科学前沿主论坛上,书生·浦语2.5正式发布,面向大模型研发与应用的全链条工具体系同时迎来升级。在数据处理环节,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU。
MinerU项目地址
https://github.com/opendatalab/MinerU(点击文末“阅读原文”直达)
PDF-Extract-Kit PDF模型解析工具链代码
https://github.com/opendatalab/PDF-Extract-Kit