《中国移动算力网络数据库白皮书》正式发布,NineData叶正盛分享全球数据实时传输技术实践

文摘   2024-09-19 17:51   浙江  
2024年9月12日,中国移动云能力中心将在华中科技大学举办“智算浪潮下数据库发展论坛”,共同探讨数据库技术与应用的创新,分享算力网络时代数据库未来发展的洞见。

在本次论坛上,由中国移动云能力中心联合中国通信标准化协会大数据技术标准推进委员会共同牵头,金篆信科、达梦数据、中移信息、云猿生数据、玖章算术等多家单位共同编制的《中国移动算力网络数据库白皮书》正式发布。

图丨NineData 参与《中国移动算力网络数据库白皮书》的编写和发布

本次论坛,NineData 创始人&CEO 叶正盛受邀参会,并来带来了《算力网络一一数据库全球实时传输技术实践》主题分享。

图丨NineData 创始人&CEO叶正盛演讲
以下内容,来自于叶正盛在本次移动云技术论坛的公开分享整理:

1

数据库与生态产品

数据库是一个庞大的体系,除了数据库引擎,还包括四大类:
  • DevOps:用于数据开发、建模和发布等工作。

  • 数据流:涵盖数据复制、集成,包括迁移、ETL、同步等功能。

  • DBPaaS:主要负责数据库的资源调度、安装配置、备份恢复等。

  • BI:数据分析、报表、大屏等需求。

要充分利用数据库,需要这四个生态产品的统一集成。

2

数据复制核心场景

数据复制的典型场景包括迁移和上云、数据库国产化升级、ETL、容灾等:
  • 迁移和上云:如今很多数据库选择上云,每天可能有几万个数据库进行上云和迁移操作,这是常见场景之一。

  • 数据库国产化升级:在中国,数据库国产化升级是一个重要趋势,包括从 Oracle 到各种国产数据库,以及从 MySQL 开源数据库到国产数据库的转换。

  • ETL:基本上只要有数据仓库的公司都会进行 ETL 操作,数据达到百 GB 级别时通常会建立数据仓库,这在互联网公司和许多央国企等大型企业中都很常见。

  • 数据库容灾:除了标准的数据库主备容灾外,还存在跨云容灾、云上和云到 IDC 的容灾。例如新加坡的机房着火事件,说明了容灾对于企业数据安全的重要性,企业不能接受因 IDC 故障而导致数据丢失的情况,因此容灾变得越来越重要。

3

全域算力网络数据传输挑战

结合移动云的算力网络,这是一个更为复杂的技术领域。以一家企业为例,从北京到苏州,可能需要进行大量数据的实时同步和调度,甚至涉及到甘肃的东数西算,部分数据可以在西北进行运算后再传回。

此外,在全球业务中,许多公司存在跨远距离甚至上万公里的数据实时计算同步需求,这是全域算力网络数据传输面临的核心挑战。

4

NineData 的理念

NineData 有两个理念,分别是 AnyWhere 和 AnyData:

AnyWhere:在 2021 年开始这项工作时,遇到很多客户有多云和混合云的需求,即数据既在云上又在本地 IDC。NineData 的理念是能够将所有主流的云平台串联起来,目前与移动云合作,看到许多客户从其他云逐渐迁移到移动云,也有从 IDC 迁移到移动云的情况,中间可能会处于混合云状态。

AnyData:由于数据库种类越来越多,尤其是中国有几十上百种国产数据库,NineData 的理念是希望能够实时连接各种数据库。

5

大型企业全域数据传输(混合云/多云)

对于一家大型企业,在移动云上可能有苏州、成都等业务场景,并需要建立容灾机制,涉及实时的数据传输和多活。

该企业还可能有业务在其他云(如海外云、阿里、腾讯、华为等)或 IDC。

为了更好地进行数据分析,需要将 IDC、云以及容灾的数据统一到一个云原生数仓中进行分析,否则很难进行 BI 系统的建设。这是大型企业常见的场景,也是全域数据传输中面临的挑战,NineData 希望通过标准化的产品来解决这个问题。

6

NineData 数据复制架构

NineData 的数据复制架构图,左边有各种数据库,右边是各种数据库或数据仓库,中间通过 User Console 进行实时传输。

NineData 架构中包括结构复制、全量复制、实时增量复制以及数据的校验对比等功能,这些都是在一个 K8S 云原生的调度平台上进行调度的。

其中最核心的是增量数据捕获,对于 Oracle、MySQL 或一些国产数据库,要实现数据秒级甚至毫秒级的实时同步,就需要实时抓取其增量变更数据,这是非常具有技术挑战的。目前全球能够做好 Oracle 数据库CDC的可能不到 5 家,因为 Oracle 本身非常复杂,有 RAC、ADG 等各种架构,还有 exadata,内部的适配工作非常复杂,而且其数据格式并未开放。

7

高性能实时复制(Oracle->PostgreSQL)

在进行 Oracle 迁移到 PostgreSQL 时,NineData 能够实现实时同步每秒约 4.5 万条记录,日志消费可达 100 - 200GB / 小时,延时小于 3 秒。

此外,NineData 采用了非侵入式的方式,许多客户的数据库安装在主机上,有些产品需要在主机上安装 Agent 或插件才能捕获数据,但 NineData 希望在对接 Oracle、DB2、SQLServer 等数据库时,无需入侵数据库主机,直接实时捕获数据并传输到其他国产数据库、开源数据库或云平台上,这是其核心技术 CDC。

8

客户实践

这里介绍 NineData 在银行数据库国产化迁移的实践,这个例子是将 Oracle 同步到各种新的数据库,包括开源和国产的数据库,并且还涉及国产数据库的同步和迁移到新的数据库平台。

这里介绍 NineData 帮助跨境物流在全球数据实时同步,这家跨境物流企业的是需要在美西、法兰克福、新加坡和国内各个地方,进行全球的数据实时传输,通过使用 NineData,在界面上进行配置就可以实现全域的数据传输。

9

关于 NineData

NineData 作为新一代的云原生智能数据管理平台,提供了数据复制、数据库  DevOps、数据备份以及数据对比等多种功能,帮助用户轻松实现混合云、多云数据源的统一管理。通过这些功能,可以轻松完成日常数据库开发、数据安全访问、生产数据库变更与发布、数据库备份恢复、数据迁移、容灾多活、数据仓库及数据湖构建等核心应用场景。


NineData
云原生智能数据管理平台,支持60多种数据库!
 最新文章