众多企业的数据平台都是历经多次系统迭代及技术升级建设而成,这个过程中伴随着数据管理技术的发展、组织管理架构的更迭,从而导致企业数据平台往往存在多个数据库集群,每个数据库就像一个数据孤岛(或数据烟囱),甚至因特定数据库产品的扩展性问题,还可能存在建设多套MPP和Hadoop集群的情形,进而形成更多的数据孤岛(或数据烟囱)。
这些数据孤岛的出现,给数据存储、数据开发、技术运维、数据治理等多个方面带来了不利影响。
数据存储
在数据存储方面,多个独立数据库集群中都存放了相同的数据,一般可以造成3倍-5倍的数据冗余,相当于占用了大约3倍-5倍存储空间,这也就意味着造成了3倍-5倍的存储资源成本的浪费。
数据开发
在数据开发方面,多个数据库集群意味着数据平台的整体架构相对复杂,不同集群之间的时序、数据同步流程多。这种情况会导致数据库产品技术门槛较高,对技术人员的素质要求较高;集群之间需要大量的数据同步,一般情况下同步作业占到总作业量50%左右,对于一项数据开发的总体工作量大约增加了1倍左右。从项目管理的角度看大约增加了1倍的成本;同时,作业的链路延长,大大降低了数据时效。
技术运维
在技术运维方面,由于企业数据平台的系统迭代和技术升级,企业可能使用了多个数据库集群,而这些集群往往来自不同厂商,采用不同的数据库技术。对于运维人员来说,这意味着需要精通多个数据库产品及其相关技术,例如传统的关系型数据库(如Oracle、MySQL)和大数据系统(如MPP、Hadoop集群)。运维人员不仅需要管理这些不同的数据库系统,还要确保它们在数据同步、任务调度等方面能顺利协作。
数据治理
在数据治理方面,多个数据库集群可能同时存储相同的数据副本,如果数据在不同集群之间同步不及时或出错,可能导致数据不一致的问题。例如,一个集群中的数据更新后,如果其他集群没有及时同步,查询这些集群时返回的结果将是不一致的。这会导致数据分析和决策出现偏差,甚至造成业务上的损失。
往期推荐