本文转载自:OpenMMLab
【社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
大模型时代,高质量的语料数据是训练和微调环节不可缺少的一环,然而 AI 研究者常常面临着从海量文档中提取高质量数据的挑战。如何从格式、排版纷繁复杂的学术文献、行业报告、课本、试卷、网页、书籍等文档中,快速、智能地解析、抽取正式内容,提高 AI 语料准备效率?如何助力各行业利用大模型、RAG 等技术,结合专业文档,打造垂直领域的新知识引擎?
本次社区开放麦,我们邀请到上海人工智能实验室大模型数据基座 OpenDataLab 数据提取工程师 赵小蒙,他将为我们分享大模型研发与应用的全链条工具体系之数据提取方案及热门开源工具 MinerU。
MinerU,全新的智能数据提取工具。作为书生·浦语大模型开源工具链体系里的工具之一,主要用于数据处理环节。
MinerU 开源链接:
https://github.com/opendatalab/MinerU
MinerU 能力现已集成在新一代大语言模型书生·浦语2.5(InternLM2.5)中,可以与 AI 进行文档格式转化及内容问答交互,欢迎大家体验。
InternLM2.5 开源链接:
https://github.com/InternLM/InternLM
分享内容
大模型数据提取常见处理方法综述
MinerU 能力、原理、使用方法详解
PDF 及网页数据提取案例分享
分享时间
北京时间
2024 年 9 月 5 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
赵小蒙
大模型数据提取工程师,MinerU 核心开发者
内容详情
MinerU 介绍视频
本次分享将首先概述大模型数据处理涉及的各个环节,重点从“数据提取”环节出发,讲解如何从各类源头原始数据(如 PDF 文档、网页信息和电子书等),有效使用数据提取技术自动帮助剔除无关紧要或低质量的信息,高效地构建大模型训练、微调、评测等所需的高质量数据。这不意味着简单的数据提取,更需确保所获取的数据具有足够的质量和准确性。
在分享的第二部分,讲者会介绍网页提取的不同发展阶段的方法、特点以及当前通用做法,然后阐述 MinerU 工具对网页数据提取的改进策略、实际解析效果展示与评价。
因 PDF 文档相比网页、电子书等结构标准化的文件含有更多复杂的元素,处理更具挑战性和代表性。在分享的最后,讲者将以 PDF 为例,全面详细讲解 MinerU 复杂版面 PDF 提取的处理流程及技术架构,并重点介绍 MinerU 4 大核心环节:PDF 文档分类预处理、模型解析 PDF 内容提取、管线处理多种格式输出、PDF 提取结果质检。
除此之外,讲者还会介绍其中模型层的高质量 PDF 模型解析工具链 PDF-Extract-Kit 的四个关键组成模块(布局检测、公式检测、公式识别、光学字符识别)及实际效果评价。同时,会对在线使用、本地安装部署及常见问题进行解答。
相关工作
MinerU 项目地址:
https://github.com/opendatalab/MinerU
PDF-Extract-Kit PDF 模型解析工具链代码:
https://github.com/opendatalab/PDF-Extract-Kit
交流群
同时为了方便大家交流沟通,我们建立了MinerU的交流群,本期分享的大佬也在群里哦,可与大佬进行 1v1 沟通 ,扫码即可入群~
点击下方卡片,关注我们,获取人工智能领域最新资讯。