PyMuPDF4LLM：多模态PDF 解析神器！

旅行 2024-10-07 00:00 北京

从现在起，PDF 不再是你 AI 应用的拦路虎！

PyMuPDF4LLM，这个新鲜出炉的开源库，正改变着 PDF 处理的游戏规则。它不仅能轻松提取文本和图像，还能为 LLM 和 RAG 应用提供结构化的数据，让你的 AI 项目如虎添翼。

文本提取：从混沌到有序

PyMuPDF4LLM 的 to_markdown() 函数就像一把锋利的手术刀，能够精准地从 PDF 中剖析出文本内容。

#### Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.\n\n## Attention Is All You Need\n\n\n**Ashish Vaswani[∗]**\nGoogle Brain\n```\navaswani@google.com\n\n```\n**Llion Jones[∗]**\nGoogle Research\n```\n llion@google.com\n\n```\n\n**Noam Shazeer[∗]**\nGoogle Brain\n```\nnoam@google.com\n\n```\n\n

它不仅仅是简单地复制粘贴，而是将文本转换成结构良好的 Markdown 格式。这意味着你可以轻松保留原文的标题、段落和列表结构，为后续的 NLP 任务打下坚实基础。

元数据：PDF 的"隐藏宝藏"

但 PyMuPDF4LLM 的魔力远不止于此。它还能挖掘出 PDF 中的各种元数据，如文档创建日期、文件路径、图像坐标，甚至目录结构。

{'metadata': {'format': 'PDF 1.5',   'title': '',   'author': '',   'subject': '',   'keywords': '',   'creator': 'LaTeX with hyperref',   'producer': 'pdfTeX-1.40.25',   'creationDate': 'D:20240410211143Z',   'modDate': 'D:20240410211143Z',   'trapped': '',   'encryption': None,   'file_path': '/content/document.pdf',   'page_count': 15,   'page': 3},  'toc_items': [[2, 'Encoder and Decoder Stacks', 3], [2, 'Attention', 3]],  'tables': [],  'images': [{'number': 0,    'bbox': (196.5590057373047,     72.00198364257812,     415.43902587890625,     394.4179992675781),    'transform': (218.8800048828125,     0.0,     -0.0,     322.416015625,     196.5590057373047,     72.00198364257812),    'width': 1520,    'height': 2239,    'colorspace': 3,    'cs-name': 'DeviceRGB',    'xres': 96,    'yres': 96,    'bpc': 8,    'size': 264957}],  'graphics': [],  'text': '![](/content/images/document.pdf-2-0.jpg)\n\nFigure 1: The Transformer - model architecture.\n\nThe Transformer follows this overall architecture using stacked self-attention and point-wise, fully\nconnected layers for both the encoder and decoder, shown in the left and right halves of Figure 1,\nrespectively.\n\n**3.1** **Encoder and Decoder Stacks**\n\n          **Encoder:** The encoder is composed of a stack of N = 6 identical'  'words': []}]

这些信息就像给 AI 模型装上了"透视眼"，让它能够更全面地理解文档的结构和内容。

图像处理：不再是可有可无

在多模态 AI 的时代，图像信息变得越来越重要。

PyMuPDF4LLM 不仅能提取图像，还允许你控制图像的大小、分辨率和格式。

更妙的是，它可以将图像直接嵌入到 Markdown 文本中，为你的多模态应用提供完整的素材。

表格识别：结构化数据的福音

对于那些充满表格的 PDF 文档，PyMuPDF4LLM 也有妙招。它能精确定位表格的位置，并提供行数和列数信息。这为后续的表格数据提取和分析铺平了道路。

词语提取：精细到每个字

如果你需要更细粒度的文本分析，PyMuPDF4LLM 的 extract_words 功能堪称神器。

它不仅能提取每个单词，还能给出它们在页面上的精确坐标。

这对于需要保留原文排版信息的应用来说，简直是雪中送炭。

输出的文字序列：

'graphics': [],  'text': 'Table 1: Maximum path lengths,'  'words': [(107.69100189208984,    71.19241333007812,    129.12155151367188,    81.05488586425781,    'Table',    0,    0,    0),   (131.31829833984375,    71.19241333007812,    138.9141845703125,    81.05488586425781,    '1:',    0,    0,    1),   (144.78195190429688,    71.19241333007812,    185.4658203125,    81.05488586425781,    'Maximum',    0,    0,    2),   (187.65281677246094,    71.19241333007812,    204.46530151367188,    81.05488586425781,    'path',    0,    0,    3),

实战应用：多模态 RAG 系统

PyMuPDF4LLM 的强大之处，在于它能无缝集成到现有的 AI 工作流中。

比如，你可以用它来构建一个多模态的检索增强生成（RAG）系统：

使用 PyMuPDF4LLM 提取文本和图像
利用 LlamaIndex 创建文档对象，并添加丰富的元数据
用 Qdrant 分别为文本和图像创建向量存储
构建 MultiModalVectorStoreIndex，将文本和图像统一索引
最后，你就能同时检索相关的文本片段和图像，大大增强 AI 的理解和生成能力

结语

PyMuPDF4LLM 的出现，不仅简化了 PDF 处理流程，还为 RAG 和多模态 AI 应用提供了强大支持。

无论你是在构建问答系统、文档分析工具，还是多模态 AI 助手，PyMuPDF4LLM 都将是你不可或缺的得力助手。

准备好用PyMuPDF4LLM 来升级你的 AI 项目了吗？

开源地址:

https://github.com/benitomartin/multimodal-llm-pymupdf4llm

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453451745&idx=2&sn=5c7c77e0d6d12ed8731f383a66d602df

AGI Hunt

关注AGI 的沿途风景！

最新文章

刚刚，Claude 3.5学会用电脑了！

核能大潮袭来！人工智能巨头押注电力

MLX-VLM：让你的Mac秒变AI视觉大师！

生物界的GPT来了？Basecamp Research获6000万美元融资打造「生物版ChatGPT」

MAID：多文件一键生成ChatGPT提示词的神器！

惊人突破：ChatGPT诊断癌症达96%准确率

Perplexity计划筹资5亿美元，估值将达80亿美元

我如何在两周内全面学习LLMs？【实习求职必读】

重磅！OpenAI前CTO Mira Murati筹资一亿美元创办新公司

Sage：开源版GitHub Copilot，代码库也能聊天了！

特斯拉无线充电机器人，惊艳亮相！

重磅！微软开源1比特推理框架，CPU跑千亿模型，速度起飞

Yann LeCun：驴爬楼梯说明了什么？

SQL+LLM：让数据分析变得更加智能

Anthropic的财务分析师：用AI洞悉数据，一键生成可视化报告

Anthropic新研究揭示模型潜在的「破坏」能力

Omni ocr：「糟糕」PDF一键转结构化数据

重磅！OpenAI 或用「AGI已实现」漏洞与微软决裂

Greg Brockman将于下个月回归OpenAI，但，公司已物是人非！

英特尔联手AMD，x86联盟反击ARM霸权！

OpenAI大门敞开：不懂AI也能加入，只要你敢想敢干！

NotebookLM最新大升级：定制音频概览、后台播放，并推出企业版

Anthropic 的 CEO 认为 AI 将带来乌托邦 —— 但他首先需要数十亿美元

"X is All You Need"的论文标题是怎么爆发的？

为什么Yann LeCun与Sam Altman对AGI 的预测如此不同？

Meta推出CoTracker3：重新定义视频点追踪

Suno 推出新功能：让照片和视频秒变专属歌曲

英伟达深夜偷袭，微调llama3.1直接击败GPT-4o和Claude3.5

刚刚，Mistral发布端侧模型，占据边缘计算之王！

OpenAI Swarm多代理框架 vs CrewAI 和 AutoGen

Andrej Karpathy：1B参数模型足矣！

AI能理解颜色吗？——将色彩进行嵌入的研究

OpenAI「重磅」新研究：你的名字可能影响ChatGPT的回答！

马斯克机器人梦碎？LeCun：Optimus不过是一具华而不实的躯壳

Gladia获1600万美元融资，推实时语音AI引擎

惊人发现！去学习法未能让AI真正「忘记」，它只是学会了「隐藏」

重磅！Anthropic发布超级智能时代的AI安全政策

Google计划用核能前往AGI

AI不如猫？斯坦福AI主任驳LeCun：你太悲观了！

OpenAI O1：正用AI加速AI的研发

普林斯顿大学：限制AI访问将带来负面影响。LeCun：开源终将胜利！

OpenAI的新威胁：前CTO Mira Murati 正挖角内部员工以创办新公司

AlphaCodium突破o1瓶颈：让AI代码生成更接近人类思维

LLM不会推理——1万美金悬赏下，o1在内所有模型均无法反转二叉树？！

谢赛宁：重要的话说三次，表征对齐很重要！！！

Sam Altman的完美花园：OpenAI的未来蓝图？

Cursor 最强对手？AI编程独角兽Poolside获eBay、英伟达融资5亿美元！

OpenAI将推出新模型对抗Anthropic！不是GPT-5

Glean：从OpenAI禁投黑名单到46亿美元估值

PyTorch版AlphaFold 3来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉