《实时湖仓建设方法》连载之六:数据孤岛是怎么形成的?

文摘   科技   2024-11-14 17:28   北京  

众多企业的数据平台都是历经多次系统迭代及技术升级建设而成,这个过程中伴随着数据管理技术的发展、组织管理架构的更迭,从而导致企业数据平台往往存在多个数据库集群,每个数据库就像一个数据孤岛(或数据烟囱),甚至因特定数据库产品的扩展性问题,还可能存在建设多套MPP和Hadoop集群的情形,进而形成更多的数据孤岛(或数据烟囱)。


这些数据孤岛的出现,给数据存储、数据开发、技术运维、数据治理等多个方面带来了不利影响。


数据存储


在数据存储方面,多个独立数据库集群中都存放了相同的数据,一般可以造成3倍-5倍的数据冗余,相当于占用了大约3倍-5倍存储空间,这也就意味着造成了3倍-5倍的存储资源成本的浪费。


数据开发


在数据开发方面,多个数据库集群意味着数据平台的整体架构相对复杂,不同集群之间的时序、数据同步流程多。这种情况会导致数据库产品技术门槛较高,对技术人员的素质要求较高;集群之间需要大量的数据同步,一般情况下同步作业占到总作业量50%左右,对于一项数据开发的总体工作量大约增加了1倍左右。从项目管理的角度看大约增加了1倍的成本;同时,作业的链路延长,大大降低了数据时效。


技术运维


在技术运维方面,由于企业数据平台的系统迭代和技术升级,企业可能使用了多个数据库集群,而这些集群往往来自不同厂商,采用不同的数据库技术。对于运维人员来说,这意味着需要精通多个数据库产品及其相关技术,例如传统的关系型数据库(如Oracle、MySQL)和大数据系统(如MPP、Hadoop集群)。运维人员不仅需要管理这些不同的数据库系统,还要确保它们在数据同步、任务调度等方面能顺利协作。


数据治理


在数据治理方面,多个数据库集群可能同时存储相同的数据副本,如果数据在不同集群之间同步不及时或出错,可能导致数据不一致的问题。例如,一个集群中的数据更新后,如果其他集群没有及时同步,查询这些集群时返回的结果将是不一致的。这会导致数据分析和决策出现偏差,甚至造成业务上的损失。





往期推荐


↑扫描上方二维码↑
拉你进入技术交流群

偶数成立于2016年,是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案,自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京,在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强,Gartner Cool Vendor,IDC Innovator。



点击下方阅读原文获取行业报告

偶数
专注于云数据平台产品和解决方案
 最新文章