Marker---一个把pdf文件转换为文本文件的优秀工具

文摘科学 2024-09-21 09:49 内蒙古

1. 引言

把pdf文件转换为纯文本(md或txt)文件是自然语言处理的一个前提，有许多方法可以实现功能。之前自己写过一个大约80行的代码(pdf-to-txt.py)批量把pdf文件转换为txt文件【数据集准备---批量把pdf文件转换为txt文件】，如下图所示。不过，这个代码的功能有限，首先忽略了pdf文件中的图表，其次忽略了原文件的格式，如分段。

本文测试了一个相对专业的转换工具Marker (R13, 8/20/2024)，Marker能够取出pdf文件中的图表，内容保存为md文本，同时去掉了pdf文件中的页眉和页脚。

2. 安装

Marker安装在虚拟环境st下，安装命令为：

pip install marker-pdf

安装完成后，执行单个文件的转换命令marker_single，可以列出其用法和所需的参数，包括：

(1) [-h]

(2) [--max_pages MAX_PAGES]

(3) [--start_page START_PAGE]

(4) [--langs LANGS]

(5) [--batch_multiplier BATCH_MULTIPLIER]

(6) filename output

3. 测试

我们使用最基本的命令对一个文件进行测试，输入的文件名为06.pdf，这个文件是名为[(2024) What I wish I knew earlier about rock engineering for deep mines.]的论文，共有10页。

marker_single d:/06.pdf d:/ --batch_multiplier 2 --max_pages 10

执行上述命令后，在d:盘生成了一个名为06的文件夹。原pdf文件的尺寸为6.2M，转换后的所有文件尺寸为964K。这个文件夹包括三部分内容：

(1) 从pdf文件取出的所有图形，经核对，取出了原文中的所有图形，共8个，图形格式为png，不过由于这些图形采用了OCR技术，因此图形质量不如原文的质量高。

(2) 与原文件相同名称的06.md。Marker取出了pdf的所有内容，但去掉了原文中的页眉和页脚。

(3) 06_meta.json文件，总结了转换信息。

4. GPU加速

目前的st环境安装的是Torch的CPU版本(pip install torch)，因此不能使用GPU (Torch not compiled with CUDA enabled，未启用 CUDA 对 Torch 进行编译)，即使在settings.py内把CPU的核数改为机器的最大值32，运行速度仍然没有显著改善。

PDFTEXT_CPU_WORKERS: int = 32

于是按照下面的设置安装CUDA版本。CUDA是NVIDIA专为图形处理单元(GPU)上的通用计算开发的并行计算平台和编程模型，借助CUDA，开发者能够利用GPU的强大性能显著加速计算应用。在经GPU加速的应用中，工作负载的串行部分在CPU上运行，且CPU已针对单线程性能进行优化，而应用的计算密集型部分则以并行方式在GPU核心上运行。使用CUDA时，开发者使用编程语言如 C、C++、Fortran、Python 和 MATLAB进行编程，并通过扩展程序以几个基本关键字的形式来表示并行性。

安装完成后进行测试，测试通过，证明安装成功。现在重新试验转换命令，显示采用cuda运行，转换速度明显加快。

import torchtorch_version = torch.__version__ cuda_available = torch.cuda.is_available()cuda_version = torch.version.cudacuda_count = torch.cuda.device_count()cuda_device = torch.cuda.current_device()cuda_name = torch.cuda.get_device_name(torch.cuda.current_device())cuda_mem_allo = torch.cuda.memory_allocated(0)/1024**3cuda_mem_reser = torch.cuda.memory_reserved(0)/1024**3

5. 结束语

Marker是一个很好的pdf->txt转换工具，不过正确部署这个工具通常不会一蹴而就，对较大的文件转换速度相当慢，硬件配置要求高，因此批量转换文件既费时又费力。如果你不想自己动手，可以联系本公众号为你代作，每页的服务费用为0.2元。

http://mp.weixin.qq.com/s?__biz=MzIxMjAzNDU3OA==&mid=2649126459&idx=1&sn=9fbfd28f751d832200191385fd4276e0

计算岩土力学

2024年5月8日，《计算岩土力学》建立4周年啦！

最新文章

尘埃落定: 加拿大批准将秘鲁的 La Arena 金矿出售给紫金矿业

基于图的检索增强生成框架LightRAG (应变软化)

英美资源集团退出煤炭业务：以11亿美元出售澳大利亚煤炭合资企业的股份

一个露天开采转地下开采铁矿的简要回顾

顶级学术盛宴，勇发Nature！岩土工程跨出历史性的一步，青年博士提出AI辅助该领域取得创新性的成果！

SolGold 宣布 Cascabel 项目开始进行岩土工程勘察

矿业领域中预可行性研究与确定性可行性研究的区别 (PFS vs DFS)

FLAC3D和3DEC之间的耦合

2024年第44周 | 本周大语言模型的进展

坦桑尼亚的Kinusi露天铜矿

集成多源的AI在线搜索：增强RAG的准确度

滞回阻尼 (Hysteretic damping)

铯矿---Taron Cesium Project

2024年全球最适合女性工作的矿业公司

矿区工程地质评价和片麻岩岩石力学试验

3DEC 节理本构模型 (Joint Constitutive Models)

基于机器学习的代理模型: 岩石边坡工具 (Rock Slope Tool)

AngloGold 以25亿美元收购埃及Sukari金矿 (采矿方法和岩石力学)

力拓集团投资3500万美元支持阿根廷铜矿的可行性研究

力拓集团西芒杜铁矿发生事故，死亡一人

3DEC流体模拟 (3DEC fluid modeling)

争议再次升级: 马里政府威胁巴里克黄金要收回其采矿许可证

2024年第43周 | LangChain使用的免费搜索工具

赤平投影网中侧向限制(Lateral Limits)的原理和使用

铜冶炼厂发生事故，死亡一人 (Codelco 的矿山)

Adriatic Metals 获准建造新的尾矿库 (全球尾矿管理行业标准 GISTM)

赤平投影网中摩擦锥(Friction Cone)的原理和使用

3DEC振动模式计算 (Modes of Vibration)

Perseus Mining在加纳和科特迪瓦的强劲发展

Nature首发|岩土力学顶级进展，寒门博士一战成名，凭此荣登榜首！

2024年全球矿业公司最佳雇主排名

最新岩土力学顶刊论文！机器学习与岩土工程的碰撞！解决岩土工程百年难题

矿产资源和矿产储量的区别

智利下一个新金矿的建设融资1.5 亿美元

大地震！杀疯了！天才女博士连发3篇国际顶刊！打破岩土工程百年难题！

正在建设中的Florence铜矿项目

确定露天开采境界

纽蒙特的 Peñasquito与矿工工会签署新的劳动协议

Equinox Gold 因 Greenstone 矿下调产量指标导致股价大跌

奋进矿业公司在科特迪瓦的Lafigue金矿宣告落成

2024年第42周 | 目前正在使用的LangChain库

矿产资源的"三率"指标

极端暴雨对采矿作业的影响---Olympic Dam铜矿停产一周

临界(屈服)地震系数ky (Critical Seismic Coefficient)

NEGx 矿业公司为南美项目融资1.75亿美元

应变软化模型 (Strain-Softening Model)

FLAC3D塑性应变计算和剪切应变增量

塞尔维亚抗议者集会反对力拓的Jadar锂矿项目

FLAC3D在Python和FISH中遇到的问题

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉