9K star！快速转换PDF为MD和JSON，让数据AI Ready

文摘科技 2024-11-15 11:35 北京

点击上方蓝字关注我们

IT 咖啡馆，探索无限可能！

恭喜你发现了这个宝藏，这里你会发现优质的开源项目、IT知识和有趣的内容。

现在的工作中会涉及到很多的文件格式，常见的比如word、pdf、ppt等，但在面对程序时，时常需要装文件内容快速转换给程序使用。

今天我们分享的开源项目，它是一个可爱的小鸭子，可以高效的解析各种类型的文件，并转换成markdown或JSON。它就是：Docling

Docling 是什么?

Docling是来自IBM的开发者们带来了一个名为Docling的新工具，这个库专为处理文档而生，它能高效解析PDF、DOCX、PPTX等格式，并导出为Markdown和JSON格式。

它不仅支持多种文档格式的转换，如PDF、DOCX、PPTX等，还能处理图像、HTML及Markdown等格式，将这些转换为易于处理的Markdown或JSON格式。

产品的功能特性包括了以下：

🗂️ 读取流行的文档格式（PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown）并导出为 Markdown 和 JSON
📑 高级 PDF 文档理解，包括页面布局、阅读顺序和表格结构
🧩 统一、富有表现力的DoclingDocument表示格式
🤖 轻松与 LlamaIndex 🦙 和 LangChain 🦜🔗 集成，打造强大的 RAG / QA 应用程序
🔍 支持扫描 PDF 的 OCR
💻 简单方便的 CLI

安装和使用 Docling

安装 Docling 非常简单，pip install 一下就好：

pip install docling

Docling适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。

代码使用

然后用 Python 写几行代码，就能体验它的神奇之处，以下就是一个最简单的示例：

from docling.document_converter import DocumentConverter
source = "<https://arxiv.org/pdf/2408.09869>"  # document per local path or URLconverter = DocumentConverter()result = converter.convert(source)print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

CLI使用

您还可以直接从命令行使用 Docling 来转换单个文件（本地文件或通过 URL）或整个目录。

一个简单的例子如下：

docling https://arxiv.org/pdf/2206.01062

更多详细的使用参数，可以参考文档来使用。

Docling 的技术

Docling 背后集成了 Unstructured、PDFminer、LayoutParser、Tesseract OCR 等多个强大的库，提供统一的接口，让文档处理变得如此简单！

Docling 实现了线性操作管道，该操作在每个给定文档上顺序执行。每个文档首先由 PDF 后端解析，该后端检索由字符串内容及其在页面上的坐标组成的编程文本标记，并且还呈现每个页面的位图图像以支持下游操作。然后，标准模型管道在文档中的每个页面上独立应用一系列人工智能模型，以提取特征和内容，例如布局和表格结构。最后，所有页面的结果被聚合并通过后处理阶段，该阶段会增强元数据、检测文档语言、推断阅读顺序并最终组装一个可以序列化为 JSON 或 Markdown 的类型化文档对象。

Docling中还包括了两个功能强大的人工智能模型，第一个模型是布局分析模型，是页面元素的精确对象检测器。第二个模型是 TableForme，是一种最先进的表结构识别模型。

总结

将 PDF 文档转换回机器可处理的格式一直是一个重大挑战，因为它们格式的巨大变化、标准化薄弱以及打印优化的特性会丢弃大多数结构特征和元数据。随着LLMs和检索增强生成 (RAG) 等流行应用模式的出现，利用 PDF 中嵌入的丰富内容变得越来越重要。Docling可以方便的解决这方面的需求极大的帮助了开发人员，而且从它快速上升的热度也能看出使用者对于它的认可程度，如果有相关的使用需要可以尝试一下。

项目信息

项目名称：Docling
GitHub 链接：https://github.com/DS4SD/docling
Star 数：9K

往期推荐

16K star！实时文档协作编辑器，远程工作好帮手

9K star！快速可视化数据库架构，数据库编辑工具

「Github一周热点48期」聚合 AI 平台、数据库图表编辑器、音频工具包、AI 开发平台和密钥检测工具

识别二维码关注我们

微信号- it-coffee

B站 - IT-咖啡馆

头条号- IT咖啡馆

http://mp.weixin.qq.com/s?__biz=MzI1NzEzOTAzOA==&mid=2247487149&idx=1&sn=02e03d2a35923d0a7ef6caf7696f9334

IT咖啡馆

开源项目、IT技能和有趣的事情

9K star！快速转换PDF为MD和JSON，让数据AI Ready

老瓶装老酒？微信发布Linux版本，居然用这个框架

AI Agent开发必备，6种架构模式总结

9K star！快速可视化数据库架构，数据库编辑工具

「Github一周热点48期」聚合 AI 平台、数据库图表编辑器、音频工具包、AI 开发平台和密钥检测工具

2K star！语音转文本模型，比Whisper快，更适合小设备

16K star！开源工作流编排，让计划更简单

16K star！实时文档协作编辑器，远程工作好帮手

「Github一周热点47期」llama官方配套资料、低代码框架、网页变化监控工具、工作流编排平台和我的世界AI工具

3K star！微软开源的AI屏幕解析工具，基于纯视觉识别UI

31K Star！快速构建应用，几分钟就能开发网站的低代码工具

「Github一周热点46期」大模型OCR、IPTV直播源、工作流程自动化、下一代信息浏览器和下载金融数据工具

12K star！开源OCR工具包，效果不错

「Github一周热点45期」OCR工具包、文件分享平台、开源调查问卷、编程AI助手和面部识别框架

「Github一周热点44期」多语言算法库、远程工作指南、可扩展区块链、一体化项目管理平台和数学动画引擎

掌握深度学习，这5个开源项目值得收藏

36K star！轻量化的docker终端可视化工具

24K star！开源的量化交易平台开发框架

「Github一周热点43期」面向LLM的爬虫、网页一键变APP、开源金融分析工具等

开源的3D互动数字人聊天，你的二次元AI助理

8K star X2！anthropics 开源的AI学习资源，27份指南+5个课程

「Github一周热点42期」计算机视觉工具、AirDrop替代、 llama开发框架等5个项目

8K star！互动式学习，0基础入门CUDA

5k star！可视化的定时任务管理系统

4k star！OCR进入2.0时代，端到端的开源模型

20K star！用React编程做视频，程序员爱了

「Github一周热点41期」eBPF的捕获工具、本地版AWS、Devops脚本等5个项目

17K star！备用机必备神器，开源短信转发工具

9K star！Java开发的网盘应用，多种存储支持

8K star！开源的小巧工具，帮你实现证件照自由

28K star！开源的自建PaaS平台，拥有自己的Heroku

「Github一周热点39期」开源RAG UI、AI证件照、开源免费ERP等5个项目

8K star！开源行为检测引擎，更适合云原生环境

16K star！网站内容变化实时监控，快速掌握一手信息

「Github一周热点38期」黑客工具箱、Notion平替、AI换脸等5个项目

4K star！实现页面拖拽，只需几行代码

8K star！抖音开源力作，全面的前端UI库

6K star！平替Lodash，体积缩小97%，轻巧的JS实用库

「Github一周热点37期」开源身份认证、代理客户端、Transformer可视化等5个项目

56K star！Nginx的轻量替代者，自动HTTPS的web服务器

GraphRAG门槛高，试试更小、更快、更干净的 GraphRAG

浏览器书签秒变导航站，有手就行

7K star！滴滴开源，灵活的流程图可视化框架

25K star！实时视频换脸，不要轻易相信你看到的

7K star！精致小巧的开源Redis可视化客户端

35K star！生产环境的Java诊断工具，阿里开源神器

54K star!网站状态监控轻松搞定，小巧且强大

37K star！实时后端服务，一个文件实现

5K Star!这款开源神器让路由追踪直观可视

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉