小猪骑大象：PG内核与扩展包管理神器

科技 2024-12-24 16:16 广东

↓推荐关注↓

最近我都在忙一个非常有趣的新项目，没什么时间写公众号，这两天总算弄完了。各位朋友们，给大家介绍一下这个有趣的小东西，PostgreSQL 与 Pigsty 中久久缺失的一个命令行工具，我称之为 “pig”。

那么 pig 是干什么的？简单来说，这是一个 PostgreSQL 的包管理器，也是 PostgreSQL 与 Pigsty 中久久缺失的一个命令行工具，它可以在主流 Linux 操作系统上提供跨发行版的丝滑无缝的 PostgreSQL 安装部署体验。而且还通过国内镜像解决了下载速度慢和部分仓库被墙的问题。

当然，安装 PG 这种事算不上有什么技术挑战，真正有难度的是 PostgreSQL 生态中的扩展插件。PostgreSQL 有着数据库世界中独一无二的繁荣扩展生态，提供各种强大而惊人的能力。而 pig 则能够在（Debian / Ubuntu / EL ）三大 Linux 主流发行版（五个大版本 x AMD/ARM 两大架构）上，提供 340 个 PG 插件开箱即用的能力。

为什么插件对 PG 至关重要？请参阅《PostgreSQL正在吞噬数据库世界》

快速上手

pig 本身是一个 Go 编写的二进制程序，您可以直接从 Release 页面下载，或者使用 Pigsty 现成提供的 YUM / APT 仓库，使用操作系统的包管理器安装。

使用 pig 分两个步骤，首先，使用 repo 子命令添加上游仓库

然后，您就可以使用 ext 子命令搜索，查阅，安装，卸载，更新扩展了。是的，如果你就是安装个扩展，也就是一行命令这么简单，你可以用命令行完成各种操作，文档里会详细介绍各种高级用法。

为什么需要包管理器？

那么在包管理器出现之前，用户想要安装 PostgreSQL 及其扩展，是怎么样的体验呢？当然你可以直接从源代码编译。PG 内核本身编译安装还是“很简单”的，几条命令就可以，不过 PG 生态的核心扩展 —— 地理空间事实标准 PostGIS 的编译安装基本上就立刻跳到地狱难度了。

尽管如此，编译安装对 绝大多数用户 来说基本属于早已失传的古代技能了。根据我对社区的观察，你能对用户做出的最大期待就是会用 yum/apt install，然后会照着文档敲为数不多的 Linux 命令。再高的工作假设就显得不切实际了。

PGDG官方仓库有什么问题？

尽管 PostgreSQL 官方提供了官方的 PGDG YUM / APT 仓库，但是这里依然有不少的问题：首先扩展数量只有一百个左右，其次，这里只有一半扩展是同时在 YUM / APT 仓库中提供的。最后，针对不同的 PG 大版本，芯片架构，操作系统发行版版本，经常性的会出现某个组合下的扩展缺失与错漏。

为了解决这个问题，我们提供了一个 PGDG 补充仓库，这有点类似于 EL Linux 上的 EPEL 源，补齐了大量缺失的扩展插件，并实现了 Debian / Ubuntu / EL 三大主流 Linux 的扩展功能集对齐，补齐了一块行业空白。我们的扩展仓库完全遵循 PGDG 的打包规范与命名惯例，使用相同的环境构建，确保与官方内核包无缝衔接对齐。

为什么用操作系统包管理器？

pig 被设计为原生使用 Linux 操作系统发行版现有的包管理器（yum / dnf / apt ），而非自己造一个全新的轮子。这是因为操作系统在解决依赖管理，升级降级这些问题上已经有了非常成熟且标准的实践了。并且毫无疑问最广大 PostgreSQL 用户群体早已接受并习惯于这一标准，因此我们认为打破这一标准的做法是远远弊大于利的。

因此，pig 仓库使用的软件包全部使用操作系统标准的 RPM / DEB 格式进行封装，确保它可以在主流的 Linux 发行版上丝滑安装与运行。Pigsty 在不同操作系统发行版上提供了一层统一的抽象，你只需要知道扩展名就可以安装，你不需要操心 PG 版本号，OS 大小版本，芯片架构，pig 会为你处理好所有细节。

使用 pig 工具扫描已安装的 PG 扩展

这个项目的价值在哪里？

抽象是软件能提供的核心价值。而 Pig 提供了一个相当优雅的抽象，解决好了 PostgreSQL 内核与扩展安装的问题。其实 Pigsty 在之前已经非常好的解决了这个问题 —— 你可以一键从裸操作系统上拉起装好所有 PG 扩展的插件，自带监控系统，高可用，PITR，还不要钱！

但我能理解，这样一个一揽子一条龙全家桶解决方案并非适用于所有用户 —— 特别是许多外国人更喜欢：每个工具做好一件事做到极致的方式。pig 其实是用 Go 重写了 Pigsty 的包管理部分。只不过之前 Pigsty 是用 Ansible Playbook 实现的，有个 Python 依赖。而 Pig 是一个干干净净没有依赖的 Go 二进制程序，开箱即用。

pig 除了可以一键安装 PG 扩展，当然也可以一键安装各种版本的 PG 内核。

这个项目的核心壁垒是什么？

pig 只是一个小工具，真正重要的是这个工具背后的 Pigsty 扩展仓库。这个仓库里维护了 140 个 PG 扩展，以及各种针对 PGDG 仓库补漏的构件。要构建这个扩展仓库，你需要有丰富的 PostgreSQL 经验与 Linux 操作系统经验，你需要同时熟悉 RHEL 与 Debian/Ubuntu 的打包方法，而老实说这是一项相当稀缺的技能。

我曾经跟 Pivotal （Greenplum）的团队聊天，老板说他们亟缺构建打包的专家。其实很容易就能看出来，他们发布的时候就一个可怜的 CentOS RPM 包。当然，说他们一句国内 PostgreSQL 综合实力第一的团队应该不为过，而这样的团队却依然没有懂这个的，这确实给我了一些启发。

现在这个仓库是什么状态

目前这个仓库里面提供了 150 个独特的 PG 扩展，包括二十来个 Rust 编写的强力扩展。独特的意思就是没有被收录到 PGDG 官方仓库里。PGDG 官方仓库有 100 个左右扩展，PIGSTY 仓库提供了 150 个，再加上 PG 自带的 70 个，总数 320 个，不过有些扩展只在 EL 有，有的只在 DEB 上有，所以总可用扩展数量目前是 340 个。

这 340 个扩展的质量很高，是已经经过我严格筛选后的结果。一些没鸡毛用的扩展，缺乏维护，年久失修的扩展，代码质量差的扩展，无法跨平台兼容的扩展，已经被我无情淘汰了大概二三十个了。我们有一个网站 https://ext.pigsty.io ，详细收录了这 340 个扩展的元数据详情。在 pig 命令行工具里面也提供了检索与查阅详情的能力。

目前这个仓库托管在 Cloudflare 上，国内镜像放在腾讯云 CDN 上。每个月的下载量算上镜像大概 500 GB 左右，考虑到一个扩展也就几百KB，这个下载量还是相当可观的。

Pig 使用什么开源协议，如何考虑？

这个仓库本身的代码，以及 pig 工具没有使用 Pigsty 的严格 AGPLv3 协议，而是宽松的 Apache-2.0 开源许可证，这样做的目的也是为了让更多的用户与厂商参与进来。目前，这个仓库已经成为了两家友商 AutoBase （原 postgresql_cluster）和 Omnigres 默认使用的上游扩展仓库。

目前，我也在游说 CloudNativePG，Neon 和 Supabase 使用这个扩展仓库，我觉得问题不大，因为这属于互惠共赢的事情 —— 这些 PostgreSQL 发行版马上也可以宣称自己和 Pigsty 一样，340 个扩展开箱即用，哈哈。Omnigres 的创始人 Yurii 下下周来上海（PostgreSQL生态大会）跟我勾兑，我们准备搞个大新闻，尽可能把它做成 PG 世界的一个新事实标准。

为什么是你来做，而不是别人？

在年初，我提出了可扩展性（Extensibility）是 PostgreSQL 的核心属性，得到了社区的广泛认可与响应。我其实是期待生态里面有其他的人能够站出来，解决 PG 扩展分发的问题的。我曾经比较看好 Tembo 的愿景 —— 他们做了个 Trunk （宝箱），其实就是一个 PG 包管理器。我希望他们能做的足够好，这样我就不用操心扩展打包这些活了，直接拿过来就能用，整合到我的 PostgreSQL 发行版 Pigsty 里。

但是这半年观察下来，我发现包括 Trunk 也好，PGXMAN 也好，都是雷声大雨点小，不干实事的家伙，折腾来折腾去就那么些老扩展。而且愿景也比较扯蛋：放着现有的 YUM / APT 实事标准不弄，一会弄个 OCI 镜像分发，一会弄个新 Catalog，唯独就是不解决用户的核心痛点 —— ”我他喵的现在就是想用这个扩展怎么办？“

五年前，我在 PostgreSQL 生态寻找足够好的监控系统，也遇到过这个问题。社区不给力怎么办，当然是我行我上了。所以我也懒得等了，直接自己上了。老实说这里有许多难题要解决，但技术问题都是可以解决的。在这半年里，我在这个领域积累了独一无二的经验 —— 一个人就维护了超过整个 PGDG 仓库，占总数近 60% 的扩展包。

谁还用包管理器，Docker不香吗？

我在《把 PostgreSQL 放入 Docker 是一个好主意吗》这篇文章中深入聊过这个问题，其中特别提到过扩展的问题。总的来说，会遇到：扩展持久化的问题，安装扩展需要重新构建镜像，推送并重启的问题，难以同时组合使用扩展的问题。

一个简单的例子是插件与包管理，PostgreSQL提供了很多实用的插件，譬如PostGIS。假如想为数据库安装该插件，在裸机上只要yum install然后create extension postgis两条命令就可以。但如果是在Docker里，按照Docker的实践原则，用户需要在镜像层次进行这个变更，否则下次容器重启时这个扩展就没了。因而需要修改Dockerfile，重新构建新镜像并推送到服务器上，最后重启数据库容器，毫无疑问，要麻烦的多。
包管理是操作系统发行版的核心问题。然而 Docker 搅乱了这一切，例如，许多 PostgreSQL 不再以 RPM/DEB 包的形式发布二进制，而是以加装扩展的 Postgres Docker 镜像分发。这就会立即产生一个显著的问题，如果我想同时使用两种，三种，或者PG生态的一百多种扩展，那么应该如何把这些散碎的镜像整合到一起呢？相比可靠的操作系统包管理，构建Docker镜像总是需要耗费更多时间与精力才能正常起效。

而且最重要的是你如果去看各种 PostgreSQL Docker 镜像的 Dockerfile 就会发现，它们几乎全都是使用操作系统的软件包来安装扩展的。说到底，这些活是省不了的。用 Docker 也改变不了这一点。

为什么叫 pig 这个名字？

我有一个开源的 PostgreSQL 发行版叫 Pigsty （猪圈），那么 pig 是作为 Pigsty 的管理命令行工具而存在的。猪圈里的动物是什么，自然是猪（pig）。当然，即使你不使用 Pigsty 这个 PG 发行版，你也可以独立使用 pig 这个命令行工具来安装，管理 PostgreSQL 与扩展。

有一个比较有名项目叫 Apache Pig ，在 Hadoop 上提供 SQL-Like 的查询语言支持（Pig Latin），已经占用了 Pig 这个名字，我也思考了很久要不要使用其他名字比如 pk （pigsty keeper，猪圈管理员），或者就叫 pg 。但最后还是决定叫 pig，反正 Apache Pig 已经过气了，使用这套工具的环境和 Apache Hadoop 的用户也尿不到一个壶里去，基本没有命名冲突的风险，所以就这么办了。

下一步 pig 会如何发展？

如你所见，Pig 目前是作为 PostgreSQL 扩展管理器发布的，但它本质上是 Pigsty 的管控命令行工具。后续我会添加更多的功能，尽可能多地把 Pigsty 的一些功能移植进 pig 里来。

在另一个方面，既然我已经成为了构建打包编译大师，那么就应该把这个技能发挥到极致。目前 Pigsty 除了支持原生的 PG 内核之外，还支持 IvorySQL，PolarDB，Babelfish 这样的 PG 分叉内核（分别提供 Oracle 兼容，RAC，MSSQL 兼容能力），但有一个问题就是这些数据库内核目前是没有扩展支持的。比如，如果你想在兼容 Oracle 语法（使用 PolarDB-O 或 IvorySQL）的同时使用 pgvector，那你只能自己去编译。

我的计划是针对主流的 PG Fork，统一提供主流 Linux 系统上的 RPM/DEB 内核包 + 扩展包。让这些分叉也可以做到 340 个 PG 扩展开箱即用。目前我已经基本跑通了 OrieloDB 的流程，可能会在下个版本有一个草案与初步实现。

最后

希望 pig 这个工具，可以帮助你享受 PostgreSQL 和扩展插件的乐趣～。

点一个关注 ⭐️，精彩不迷路

OSC开源社区

开源中国，只关注开源圈、技术圈的硬核内容，与嬉笑怒骂。

本周六，源创会老友们，珠海见！

前端年度大事件盘点：尤雨溪成立公司、ECMAScript 2024发布，以及各大框架重磅更新……

这么多年排序白学了，原来每次排序都在使用世界上最快的排序算法 TimSort

开源日报|2024系统编程语言调查报告；M4 MBA明年发布；IBM为开源项目提供永久免费服务器；智能代理RAG与传统RAG区别

程序员身边都有这样的队友

小猪骑大象：PG内核与扩展包管理神器

开源日报|华硕电脑圣诞节彩蛋“翻车”；只有GPT 3.5称得上突破；curl放弃支持Hyper；OpenAI发布推理模型o3

华硕电脑的圣诞节彩蛋整了个烂活——不仅看上去像感染病毒、还导致内存泄漏

中国基础软件和世界优秀软件的差距在哪？

MySQL 8.0/8.4执行DDL会丢数据？是，但影响有限

GitHub Star数量两天破万——Home Assistant的米家官方集成有什么优势？

AI原生开发平台MoonBit（月兔）开源核心编译器

开源日报|全新桌面版ChatGPT；图森未来退市转型；国产前端开源项目被投毒；LLM供应商Top10；淘宝搜索正在“杀死”淘宝

两款知名国产前端开源项目被“投毒”

Gitee AI携手无问芯穹：模型+算力，共创本土化AI社区新篇章

“2024全球十大工程成就”公布：文生视频大模型Sora、嫦娥六号、无人驾驶汽车等入选

开源日报|GitHub Copilot“免费”；美国考虑封禁TP-Link；MoonBit开源核心编译器；AI改变数学的一年

国行版“苹果牌AI”有望使用腾讯、字节大模型

珠海年终盛典倒计时：下周六不见不散

世界上最先进的开源数据库——PostgreSQL 2024社区现状调查报告

开源日报|OpenAI开放满血o1 API；Databricks宣布100亿美元融资；Linux 6.1 LTS额外延长一年支持

操作系统能知道自己是在虚拟机中运行的吗？

CentOS Stream 10正式GA

开源日报|苹果将推出可折叠iPad；小米又开源；ChatGPT AI搜索免费；字节否认与中兴探讨成立新品牌；周鸿祎的直播平台退市

小米有格局——官方正式开源「Home Assistant米家集成」，让用户更“开放”地使用小米IoT智能设备

写个小工具，AI纯度99%！开源Auto-Coder要怎么玩？

Gitee AI+Dify双剑合璧，打造另类RAG知识库

Apache Hudi 1.0.0 版本正式发布

开源日报|ChatGPT宕机因k8s循环依赖导致；95%以上中国电脑安装了360；Android XR面世；Grok提示词泄露

Rust重写万物之——彻底重写SQLite

Gitee AI助力医疗科研：医用耗材使用分析研究

OpenAI全球宕机复盘：K8S循环依赖

动态链接的魔法：Linux下动态链接库机制探讨

离开1620天，Redis创始人antirez宣布回归

开源日报 | Fedora项目负责人将离任；微软发布Phi-4；“NVIDIA对中国市场断供”不实；VSCode 1.96发布

阿里最受欢迎Java开源项目——Nacos开启3.0时代，未来可能丢弃JDK 8、Spring Boot 2

2024年CSS持续活跃，年终大盘点！

VSCode v1.96发布，AI大幅增强，体验大幅增强

开源日报 | 小米开源OpenVela；《数据结构》编著者严蔚敏去世；ChatGPT全面接入苹果全家桶；谷歌深夜狙击OpenAI

小米重磅开源操作系统：超1000万行公开代码、在近5千万台设备中广泛应用

如何编写既美观又规范的Java代码？

开源日报 | Redis创始人回归；ChatGPT开放Canvas；Devin月费500美元；Cloudflare 2024回顾

百万现金奖励，冲刺鸿蒙生态建设“最后一公里”

Python即将成为TIOBE 2024年度编程语言

开源日报 | Sora正式上线；阿里云数据中心失火；苹果对开发AGI不感兴趣；小红书成立应用算法部；谷歌宣布量子芯片Willow

Mozilla“改头换面”

108期上海站源创会【AI Agent构建与应用】精彩回顾

极狐GitLab架构师爆料：公司向免费版用户发送告知函，称“未经授权使用软件”

开源日报 | 大模型密度定律；iPhone将搭载苹果自研5G基带芯片；“先做个垃圾出来”；Nacos 3.0.0-alpha发布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉