Python实现PDF自动添加书签目录：适用于阅读招股/募集说明书等长篇幅PDF

文摘 2024-05-27 20:00 广东

本期代码预览

本期代码旨在优化PDF文件的阅读体验，特别针对缺乏书签标识的大篇幅PDF文件，如部分官网下载的招股说明书、募集说明书等。通过本期代码，可以轻松地为PDF文件添加书签目录，省去繁琐的翻页查找过程，使阅读更加高效便捷。

公众号后台回复26代码，即可得到本期代码。

此外，我们还提供了针对本期代码的可执行程序，以exe格式封装，可以通过知识星球获取。

代码使用

准备

（1）确保电脑已成功安装Python；

（2）代码所需的库：os，re，pdfplumber，PyPDF2。

库的安装：cmd中分别执行pip install pdfplumber，pip install PyPDF2。

使用

（1）确保PDF文件中有目录页，且有“目录”标题（如下图）；
注：如果目录本身有误或难以识别，那么添加的书签可能存在问题。

（2）将代码中的PDF路径修改为自己的文件路径；

if __name__ == "__main__":
    # 路径和文件名处理
    pdf_path = r"你的PDF文件路径"
    output_path = gen_new_filename(pdf_path, "【添加书签】")
    # 提取并分类目录
    toc_list = categorize_toc(extract_toc(pdf_path))
    # 添加书签到PDF
    add_bookmarks_to_pdf(pdf_path, output_path, toc_list)
    print(f"已添加书签，PDF文件保存至：{output_path}")

（3）执行代码，生成带书签的PDF文件，保存在原文件所在目录（效果如下图）。

<<< 左右滑动见更多 >>>

代码说明

一、导入的库

import os    # 文件和路径操作
import re    # 正则表达式模块，用于文本匹配
import pdfplumber    # 用于提取PDF文本和信息
from PyPDF2 import PdfReader, PdfWriter    # 用于处理PDF文件

二、提取目录并分级

定义了两个函数：

（1）提取PDF中的目录：extract_toc函数通过扫描PDF文本以获取目录起始页和内容，然后提取目录中的各级标题和页码；

（2）对目录进行分级：categorize_toc函数根据目录标题的格式，将目录分为不同级别，以便后续添加书签。

三、添加书签到PDF文件

利用 PyPDF2 库，定义了add_bookmarks函数，用于向PDF文件添加书签。该函数根据提取并分级后的目录信息，逐级地为每个目录项添加对应的书签，从而便于浏览和导航整个PDF文档。

四、路径和文件名处理

利用 os 库，定义了gen_new_filename函数，根据原始文件的路径和名称生成一个新的文件名，同时添加了特定的前缀“【添加书签】”，方便识别和管理新生成的带书签的PDF文件，同时避免与原文件混淆。

关注我们

后台回复26代码，即可得到本期代码。

以exe格式封装的可执行程序，请通过知识星球获取。

往期文章

往期代码分类整理：ABCoding发展总结 | Python基础教程：环境搭建

人物专访及经验分享：IBD Tools创始人：从四大到投行，开发出万人使用的效率工具；金融校招攻略 | 文商科学码自救小组&来我青年合作总结

知识星球与知识库详细介绍：ABCoding | 知识星球-近期精华总结

职业知识库介绍与申请方法：ABCoding职业知识库 | 高质量面经库！覆盖多行业汇总15+求职方向子库

感谢观看，本篇相关资源在关注后可领取
欢迎点赞与在看，感谢支持！

文商科学码自救小组

专注于结合编程与文商科知识，消灭工作中的Dirty Work，内容涵盖Python/RPA等。

最新文章

ABCoding金融承做终端2.3.3 bug修补丨地址识别

全自动网络核查神器RPA V2.1丨一键批量网络核查，解放生产力

ABCoding金融承做终端2.3.2 丨财务分析/批量转PDF/全自动生成股权穿透图/批量生成说明性文件等

三大报表自动添加增长率轴

批量生成&处理文件夹

校招及投资相关，看这一篇就够了！

全新面经共享群！高质量版面经3群来了！

一级市场各家投行“降薪裁员”调研汇总

文商实习0823|华泰联合、海通证券、广发证券、度小满、快手等

再升级！Python+Draw.io自动生成无重复节点的股权穿透图

文商实习0809|中金公司、华泰证券、海通证券、国泰君安、美团、京东、阿里巴巴等

文商实习0802|中金资本、海通证券、申万宏源、广发证券、小红书、滴滴等

文商实习0726|华泰证券、国泰君安、海通证券、快手、京东、小红书等

文商实习0719|经纬创投、中金公司、申万宏源、麦当劳、美团、理想、抖音等

文商交流圈论坛及小程序开放内测

文商实习0712|华泰、申万宏源、美团、快手、得物、字节跳动等

宏观量化：高频数据驱动PMI预测模型改进

文商实习0705|经纬创投、华泰、美团、快手等

文商实习0628|海通、广发、华泰等

机器学习及Python教程笔记 & 金融终端更新 & HC一手信息（暑期/秋招/在职适用）

Python实现PDF自动添加书签目录：适用于阅读招股/募集说明书等长篇幅PDF

ABCoding职业知识库 | 高质量面经库！覆盖多行业汇总15+求职方向子库

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉