降低数据传输成本，还得靠它！

科技科技 2024-12-03 17:18 上海

变更数据捕获（CDC）是一种技术，它允许数据库之间的数据实时复制。CDC通过追踪源数据库的数据更改，并将这些更改自动同步到目标数据库，支持增量加载，从而避免了批量加载更新的需要，降低了数据传输成本。

CDC的实现原理

CDC通常分为两种技术实现模式：主动查询和事件接收。

主动查询模式，先在数据源表中保存上次更新的时间戳或版本号等信息，然后通过下游不断的查询和对比来确定数据是否有变动。这种方式不涉及数据库底层特性，比较通用，但实时性不高，且对数据库的压力较大。

事件接收模式则通过触发器或日志（例如Transaction log、Binary log、Write-ahead log等）来实现。当数据源表发生变动时，会通过附加在表上的触发器或者binlog等途径，将操作记录下来。下游可以通过数据库底层的协议，订阅并消费这些事件，然后对数据库变动记录做重放，从而实现同步。这种方式的优点是实时性高，可以精确捕捉上游的各种变动。

iPaaS CDC框架及其原理

iPaaS CDC是一个构建在Apache Kafka之上的CDC开源平台，主要用途是在事务日志中记录提交给每个源数据库表的所有行级更改。它提供了一个连接器库，支持多种数据库，例如MySQL、Oracle、PostgreSQL等。这些连接器可以监视和记录数据库更改并将其发布到Kafka等流服务。

iPaaS CDC的工作原理基于日志的CDC，确保捕获所有的数据变更，以极低的延迟生成变更事件，同时避免因为频繁轮询导致CPU使用率增加。例如，对于MySQL或PostgreSQL，延迟在毫秒范围内。iPaaS CDC不需要更改数据模型，并且可以捕获删除操作以及旧记录状态以及其他元数据。

CDC监听之MySQL中的biglog

MySQL的Binlog，即二进制日志，记录数据库更改（不包括查询操作）的日志文件。这些更改包括数据的插入、更新、删除以及数据定义语言（DDL）操作，如创建表、修改表结构等。Binlog对数据库复制、数据恢复和审计至关重要。

Binlog记录数据库的物理变更，即对磁盘上数据页的实际更改。这种记录方式使得Binlog能够精确再现任何数据库操作。事务的变更被记录到Binlog中，如果事务提交，相关的Binlog事件也会被标记为提交状态；如果事务回滚，相关的Binlog事件也会相应回滚。

CDC监听之Oracle的LogMiner和XStream API

LogMiner

LogMiner是Oracle提供的一个分析工具，它可以解析Oracle Redo日志文件，将数据库的数据变更日志解析成变更事件输出。LogMiner特别适用于调试、审计或者回退某个特定的事务。作为一个完全免费的工具，LogMiner可以分析在线和离线日志文件，适用于分析本数据库或其他数据库的重作日志文件。然而，Oracle对解析日志文件的进程做了严格的资源限制，因此对于大规模的表，数据解析可能会比较慢。

XStream API

XStream API是Oracle为Oracle GoldenGate (OGG)提供的内部接口，允许客户端高效地获取变更事件。与LogMiner不同，XStream API的变更数据不是从Redo日志文件中获取，而是直接从Oracle服务器的内存中读取，这样省去了数据落盘到日志文件和解析日志文件的开销，效率更高。但是，使用XStream API需要购买Oracle GoldenGate的License。

CDC监听之PostgreSQL的逻辑解码能力

PostgreSQL的逻辑解码（Logical Decoding）是一种强大的功能，它允许用户以一种连贯、易于理解的格式提取数据库表的所有持久化变更，而无需详细了解数据库的内部状态。自PostgreSQL 9.4版本起，逻辑解码通过解码预写日志（write-ahead log, WAL）的内容实现，这些内容描述了存储级别的变更，并将其转换成特定于应用程序的格式，例如元组流或SQL语句。

在逻辑复制的上下文中，一个槽（slot）代表了可以按照在原始服务器上变更产生顺序重放到客户端的变更流。每个槽流式传输单个数据库的变更序列。输出插件将预写日志的内部表示转换成复制槽消费者所期望的格式。这些插件用C语言编写、编译，并安装在运行PostgreSQL服务器的机器上，它们使用了一些PostgreSQL特定的API。

逻辑解码的主要优势在于其能够提供一种高效、可靠的数据流，用于捕获和复制数据库变更。这对于数据同步、备份、审计和分析等场景非常有用。逻辑解码支持多种输出插件，如decoderbufs和pgoutput，这些插件能够将WAL中的变更转换成不同的格式供消费者使用。

decoderbufs输出插件为逻辑解码生成一个Protobuf消息，每个数据库变更对应一个消息，包含更新表行的新旧元组。而pgoutput插件则提供了更细粒度的控制和更好的性能，尤其是在处理大量变更时。

逻辑解码的实现依赖于PostgreSQL的WAL配置，它允许数据库在处理事务时记录足够的信息，以便能够回放这些事务以重建数据库状态。这要求在postgresql.conf配置文件中设置适当的参数，如wal_level设置为logical，以及配置max_wal_senders和max_replication_slots等参数，以支持逻辑解码和复制槽的使用。

如何在iPaaS DataFlow中创建CDC数据同步任务

首先，在ETL开发列表中，创建同步任务。

接下来选择数据来源和数据去向。

然后配置字段映射，是否创建新表等操作。

点击创建后，发布本次新建的同步任务，一个简单的数据同步任务就完成了。后续可以在目标数据库中看到创建的新表及同步的数据，当原表有新增数据时，同步的表也会增加一条数据。

本期内容就为大家介绍到这里了，如果您有需要进一步视频讲解，或者您有更好的建议，欢迎联系我们反馈！

往期精选

这个工具帮你快速实现数据集成和同步

ApiOps Helper：本地代码智能扫描，API的注册管理自动化

后浪APIOps，你跟上了吗？

一文读懂什么是API

得帆云（https://www.definesys.cn）致力于通过提供零代码、低代码解决方案，帮助组织快速实现业务和管理的数字化。您可以通过得帆云提供的开箱即用的组件、功能，灵活、快速地搭建组织内部的各类数字化系统（例如：CRM、进销存管理、售后服务、人事管理等）。兑现企业的数字化需求，实现组织的降本、增效和快速创新。

不论您是专业的IT技术人员、非IT技术背景的咨询顾问、业务主管、产品经理，还是职场小白，只要您有数字化意识，有产品化思维，都能基于得帆云产品强大的低代码特性和零代码配置能力，即刻配置并交付数字化系统，助您成为数字高手，为组织赋能的同时，强化自身价值。

得帆云 DefinesysCloud

得帆云低代码PaaS平台（aPaaS，iPaaS，MDM，etc.）致力于以无代码、低代码的方式帮助企业搭建数字化基座，持续赋能与助力客户、伙伴的数字化转型。得帆云，助力每个用户成为数字化专家。

最新文章

降低数据传输成本，还得靠它！

11月iPaaS更新，API编排再增Trino数据库

aPaaS更新速览：这两款插件终于来了！

加快发扬新质生产力，双鹤&得帆低代码联合训练营圆满落幕！

aPaaS更新速览：流程审批灵活性已是next level

这个工具帮你快速实现数据集成和同步

aPaaS更新速览：甘特图迎来多项更新，项目管理更高效！

aPaaS更新速览：表单操作丰富性再升级

9月iPaaS更新，ETL编排，安全升级，更多精彩等你解锁！

API质量门禁真有这么香，看这一篇就知道！

8月iPaaS更新，新增多个连接器，用户有福了！

ApiOps Helper：本地代码智能扫描，API的注册管理自动化

7月iPaaS更新，ETL数据集成更快、更强！

从“幕后”到“台前”：一文读懂API经济如何促进企业的创新与增长

aPaaS更新速览：工作台升级诚意满满，狠狠心动了！

揭秘！解锁非结构化数据的高效解析方法

aPaaS更新速览：工作台和可视化迎来全新体验

6月iPaaS更新，高阶API策略配置能力登场！

aPaaS更新速览：流程审批、业务事件等新功能一览

MBTI入侵职场，题目都用大模型生成了？！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉