PostgreSQL的PDF数据类型扩展pgpdf

文摘 2024-11-23 07:50 湖南

项目简介

PostgreSQL 的这个扩展提供了pdf数据类型和各种函数。

您可以通过转换text路径或bytea列来创建pdf类型。

SELECT '/tmp/pgintro.pdf'::pdf;

                                       pdf                                        ---------------------------------------------------------------------------------- PostgreSQL Introduction                                                         + Digoal.Zhou                                                                     + 7/20/2011Catalog                                                                +  PostgreSQL Origin

如果您的文件系统中没有 PDF 文件，但已将其内容存储在bytea列中，则可以将其转换为pdf 。

为什么？：这允许您以符合 ACID 的方式处理 PDF。通常的替代方案依赖于外部脚本或服务，这很容易使您的数据摄取管道变得脆弱并使原始数据不同步。

实际的 PDF 解析是由poppler完成的。

用法

下载一些 PDF。

wget https://wiki.postgresql.org/images/e/ea/PostgreSQL_Introduction.pdf -O /tmp/pgintro.pdfwget https://pdfobject.com/pdf/sample.pdf -O /tmp/sample.pdf

创建一个包含pdf列的表：

CREATE TABLE pdfs(name text primary key, doc pdf);
INSERT INTO pdfs VALUES ('pgintro', '/tmp/pgintro.pdf');INSERT INTO pdfs VALUES ('pgintro', '/tmp/sample.pdf');

解析和验证应该自动发生。文件只会从磁盘读取一次！

Note 笔记

文件路径应该可以被postgres进程/用户访问！这与运行 psql 的用户不同。如果您作为 DBA 不明白这意味着什么！

字符串函数和运算符

标准 Postgres字符串函数和运算符应该照常工作：

SELECT 'Below is the PDF we received ' || '/tmp/pgintro.pdf'::pdf;

SELECT upper('/tmp/pgintro.pdf'::pdf::text);

SELECT nameFROM pdfsWHERE doc::text LIKE '%Postgres%';

全文搜索 (FTS)

您还可以执行全文搜索 (FTS)，因为您可以像处理普通文本一样处理pdf文件。

SELECT '/tmp/pgintro.pdf'::pdf::text @@ to_tsquery('postgres');

 ?column? ---------- t(1 row)

SELECT '/tmp/pgintro.pdf'::pdf::text @@ to_tsquery('oracle');

 ?column? ---------- f(1 row)

与`pg_trgm`的文档相似度

您可以使用pg_trgm来获取两个文档之间的相似度：

元数据

可以使用以下功能：

pdf_title(pdf) → text
pdf_author(pdf) → text
pdf_num_pages(pdf) → integer

文档的总页数
pdf_page(pdf, integer) → text

获取第 i 页作为文本
pdf_creator(pdf) → text
pdf_keywords(pdf) → text
pdf_metadata(pdf) → text
pdf_version(pdf) → text
pdf_subject(pdf) → text
pdf_creation(pdf) → timestamp
pdf_modification(pdf) → timestamp

SELECT pdf_title('/tmp/pgintro.pdf');

        pdf_title        ------------------------- PostgreSQL Introduction(1 row)

SELECT pdf_author('/tmp/pgintro.pdf');

 pdf_author ------------ 周正中(1 row)

安装

安装poppler依赖项

Linux

sudo apt install -y libpoppler-glib-dev pkg-config

项目链接

https://github.com/Florents-Tselai/pgpdf

扫码加入技术交流群，备注「开发语言-城市-昵称」

合作请注明

关注「GitHubStore」公众号

http://mp.weixin.qq.com/s?__biz=MzkxNjQ4MzMyOA==&mid=2247491661&idx=2&sn=a05276b0adc1289913c33105b95ccce8

GitHubStore

分享有意思的开源项目

最新文章

EchoMimic全面升级！从数字脸到数字人，输入图+音频+手势即可！

统一的生成式AI接口工具aisuite

微软推出RAG的新方法：LazyGraphRAG

亚马逊推出AI多智能体协调器

本地AI助手Perplexideez

下一代AI Agent框架TEN Framework

PostgreSQL的PDF数据类型扩展pgpdf

从文档中提取结构化数据Documind

将Markdown转换为精美海报图片

AI旅行助手

实时语音交互数字人平台VideoChat

图像不适宜内容检测工具NSFW Detector

Logo 生成器

开源机器人自动化项目SimpleAutomation

从构思到成文帮你组织和撰写文档的多智能体系统Kiroku

无所不能先进的混合型人脸识别工具包DeepFace！

保留原排版的PDF文档翻译工具：PDFMathTranslate

自适应的网页抓取工具Scrapling

智能会议记录与分析工具Offmute

超高精度将图像或 PDF 转换为 Markdown 或 JSON

开源向量数据库性能对比: Milvus, Chroma, Qdrant

基于openai破解验证码

基于苹果MLX框架的视频字幕生成工具：MLX-Auto-Subtitled-Video-Generator

浏览器智能助手cerebellum

群控软件LinkAndroid

E2B桌面沙箱：为大型语言模型提供图形桌面环境的沙盒服务

AI会议助手MeetingMind

视频生成神器：genmoai-smol

序列建模利器：Google开源序列建模库

构建可扩展的智能Agent应用框架Bee Agent Framework

KAG：基于 OpenSPG 引擎的知识增强生成框架

能在手机上实时运行的超轻量级虚拟人

AMT-APC自动钢琴伴奏

优雅阅读实时热门新闻的工具NewsNow

超快速的语音转文字工具whisper-turbo-mlx

wechat-article-exporter：微信文章批量下载

开源的飞书文档下载 Chrome 插件：Cloud Document Converter

功能颇为丰富的开源工具：eSearch

微型赛车Racer：开源的微型遥控赛车项目

实时AI图像生成器BlinkShot

上海交通大学开源的非常牛音生成模型 F5-TTS

微软推出的用于1bit大型语言模型推理的官方框架BitNet

一款虚拟试衣应用Virtual Try-On App

文档布局分析工具DocLayout-YOLO

可视化爬虫平台kspider

语义查询引擎LOTUS

Semantic Cache：基于语义相似性而非字面相等的模糊键值存储工具

基于知识图谱的智能问答系统：fact-finder

一款AI agent和RAG应用的监控分析工具：Laminar

Knowledge Table：简化从非结构化文档中提取和探索结构化数据

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

PostgreSQL的PDF数据类型扩展pgpdf

项目简介

用法

字符串函数和运算符

全文搜索 (FTS)

与pg_trgm的文档相似度

元数据

安装

项目链接

与`pg_trgm`的文档相似度