直播预告丨热门开源工具MinerU详解：助力复杂PDF/网页高效解析提取

文摘 2024-09-04 18:07 上海

本文转载自：OpenMMLab

【社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

大模型时代，高质量的语料数据是训练和微调环节不可缺少的一环，然而 AI 研究者常常面临着从海量文档中提取高质量数据的挑战。如何从格式、排版纷繁复杂的学术文献、行业报告、课本、试卷、网页、书籍等文档中，快速、智能地解析、抽取正式内容，提高 AI 语料准备效率？如何助力各行业利用大模型、RAG 等技术，结合专业文档，打造垂直领域的新知识引擎？

本次社区开放麦，我们邀请到上海人工智能实验室大模型数据基座 OpenDataLab 数据提取工程师赵小蒙，他将为我们分享大模型研发与应用的全链条工具体系之数据提取方案及热门开源工具 MinerU。

MinerU，全新的智能数据提取工具。作为书生·浦语大模型开源工具链体系里的工具之一，主要用于数据处理环节。

MinerU 开源链接：

https://github.com/opendatalab/MinerU

MinerU 能力现已集成在新一代大语言模型书生·浦语2.5（InternLM2.5）中，可以与 AI 进行文档格式转化及内容问答交互，欢迎大家体验。

InternLM2.5 开源链接：

https://github.com/InternLM/InternLM

分享内容

大模型数据提取常见处理方法综述

MinerU 能力、原理、使用方法详解

PDF 及网页数据提取案例分享

分享时间

北京时间

2024 年 9 月 5 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

赵小蒙

大模型数据提取工程师，MinerU 核心开发者

内容详情

MinerU 介绍视频

本次分享将首先概述大模型数据处理涉及的各个环节，重点从“数据提取”环节出发，讲解如何从各类源头原始数据（如 PDF 文档、网页信息和电子书等），有效使用数据提取技术自动帮助剔除无关紧要或低质量的信息，高效地构建大模型训练、微调、评测等所需的高质量数据。这不意味着简单的数据提取，更需确保所获取的数据具有足够的质量和准确性。

在分享的第二部分，讲者会介绍网页提取的不同发展阶段的方法、特点以及当前通用做法，然后阐述 MinerU 工具对网页数据提取的改进策略、实际解析效果展示与评价。

因 PDF 文档相比网页、电子书等结构标准化的文件含有更多复杂的元素，处理更具挑战性和代表性。在分享的最后，讲者将以 PDF 为例，全面详细讲解 MinerU 复杂版面 PDF 提取的处理流程及技术架构，并重点介绍 MinerU 4 大核心环节：PDF 文档分类预处理、模型解析 PDF 内容提取、管线处理多种格式输出、PDF 提取结果质检。

除此之外，讲者还会介绍其中模型层的高质量 PDF 模型解析工具链 PDF-Extract-Kit 的四个关键组成模块（布局检测、公式检测、公式识别、光学字符识别）及实际效果评价。同时，会对在线使用、本地安装部署及常见问题进行解答。

相关工作

MinerU 项目地址：

https://github.com/opendatalab/MinerU

PDF-Extract-Kit PDF 模型解析工具链代码：

https://github.com/opendatalab/PDF-Extract-Kit

交流群

同时为了方便大家交流沟通，我们建立了MinerU的交流群，本期分享的大佬也在群里哦，可与大佬进行 1v1 沟通，扫码即可入群~

点击下方卡片，关注我们，获取人工智能领域最新资讯。

OpenDataLab

上海人工智能实验室是我国人工智能领域新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

最新文章

从入门到“出圈”，书生大模型实战营第4期学员招募中 | 活动预告

DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

免费下载 | 横跨120余年，数亿条学术数据，大规模学术数据库“智创”开源

谁才是你最爱的 AI 数据平台？在线等，急！（有奖调研）

直播预告丨热门开源工具MinerU详解：助力复杂PDF/网页高效解析提取

不是吧？这么好用的开源标注工具，竟然还有人不知道…

AI Spot 第 2 期丨ACL 2024 字节专场直播，与多位研究员在线畅聊

江湖救急：MinerU安装宝典，AI侠客必备

速看！2024 CVPR 上海人工智能实验室专场直播回顾&干货资料包来了

登顶GitHub Trending，开源工具MinerU助力复杂PDF高效解析提取

CVPR 2024 上海人工智能实验室专场直播丨AI Spot 学术分享会

A100算力加持！书生大模型实战营全面升级，趣味闯关等你来

AI考生能被什么大学录取？文科可上一本，理科过二本线

AI Talk直播预告⑤ | 详解MinerU：赋能大模型的高质量网页与PDF数据提取技术及工具分享

周伯文：探索人工智能45°平衡律

WAIC上官宣！大模型语料提取工具MinerU正式发布，开源免费“敲”好用

AI Talk直播预告④ | 详解MAP-Neo：第一个高性能、完全开源透明的双语LLM

ModelScope联手OpenDataLab：直接调用7000+开源数据集，赋能AI模型加速研发

AI Talk直播预告③ | 详解InternVideo2：最新多模态视频基础模型

ACL2024|上海AI Lab, 武汉大学，同济大学联合发布并开源第一个面向大语言模型的中文常识推理测评基准 CHARM !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉