目前,我正在体系化更新数据资源管理/数据治理/数据中台系列文章。
01
再谈,数据中台
数据中台虽然近些年降温了,但是,并不廉价。
数据中台应该算是近些年,数据底座中最热门的一次理念更新了,此概念也是由我国企业率先提出,并被国际引用的大数据概念之一。
数据中台是"一套可复用、可快速迭代、可支撑前台多样化业务需求的通用技术组件和能力",它旨在提供标准化的数据服务,实现数据的共享和价值最大化。
这么说可能还比较抽象,可以看看下面的框架图:
图片来源于网络
数据中台主要包含以下模块:
1. 数据接入层
数据接入层负责从各种数据源采集数据,包括数据库、API、物联网设备等。该层还会对数据进行清洗和标准化,确保数据能够顺利进入数据中台。
常见工具有Flink、Kafka等。
2. 数据存储层
该层负责大规模数据的存储,支持结构化、半结构化和非结构化数据的存储与快速读写。
数据存储层的产品通常包括Hadoop、HBase、Hive、ClickHouse、Doris等。
3. 数据处理层
数据处理层主要进行ETL操作,即数据的提取、转换和加载,处理包括批处理和流处理,确保数据被有效清洗、聚合和转化为可用于分析的形式。
常见工具有Spark、Flink、Airflow等。
4. 数据服务层
数据服务层提供统一的数据查询接口,将经过处理的数据提供给业务系统或应用,支持多种查询方式。数据可以通过API或SQL接口来服务。
常用产品包括StarRocks、Presto等。
5. 数据治理与质量管理
数据治理层负责数据标准化、数据字典管理、元数据管理、数据质量监控以及数据安全,确保数据的完整性、一致性、安全性和可追溯性。
常见工具包括Apache Atlas等。
6. 数据资产管理与数据目录
数据资产管理组件负责对企业数据资产进行分类、标记、搜索和权限管理,帮助企业更好地理解和利用数据。元数据管理工具(如Collibra、Informatica、DataCatalog等)通常在这一环节起到重要作用。
7. 数据安全与隐私保护
数据安全组件负责确保数据的安全性、合规性和隐私保护。其任务包括数据加密、访问控制和数据脱敏,防止数据泄露和未授权访问。
常见的安全产品包括阿里云的Data Security Center等。
8. 数据共享与开放平台
数据共享层打破数据孤岛,提供数据共享和交换的机制,使得企业内部或外部各业务部门能够高效协同。API Gateway或数据交换平台通常用于实现这些功能,支持跨部门的数据共享。
02
你需要数据中台吗?
前几年,不少企业跟风采购了数据中台,吃了不小的亏,现在,市面上普遍比较谨慎了。
但是,企业数据建设和治理的需求仍在,甚至严重影响了业务发展。
数据中台依然是业内普遍公认最优解(这个可能有些绝对,但是,不管是数据飞轮还是数智基建等,均未达到普遍验证和落地的阶段,数据中台至少经过近 10 年的发展实践,各个各业的企业都有一些实践经验和积累。)
我并不是鼓动你去采购数据中台,因为并不是所有企业都适用、都需要。
企业在考虑数据中台项目时,需要考虑以下几个因素:
03
小结
90%的企业可能都没有能力搭建数据仓库,内部一个全职的数据仓库开发工程师都没有。
自然不需要采购什么数据中台,先把 BI 可视化工具使用起来,把数据支撑和业务核心指标监控做起来再说。
剩余的 10%的企业,多数可能已经搭建了自身的数据仓库,但是,依然面临严重的数据孤独、数据质量缺乏有效的监控治理、数据安全问题凸显。
其中,少数部分行业头部企业存在多条业务线,各个业务线数据无法有效联动,那么,立项数据中台则是一个不错的选择。
至于,要不要搭建团队自建,那可要慎重。
目前,市面上已经有研发多年的、成熟的数据中台产品,且在不同的行业内做了交付和经验沉淀,直接采购第三方的绝对是更高效和有保障的。
而且今年数据中台价格已经被打下来了,对于企业来说采购成本低了多少,但是,绝对不要妄想 8 万 10 万的买套数据中台服务。
祝好!
(正文完)
今天的分享就到这里,希望对你能有多帮助和启发。
我是唐晨,日更大数据+AI 领域知识和个人观点,关注 Data + AI 领域的小伙伴,可以点击关注公众号。
看看都是哪些角色在订阅唐晨说数,点击下方选项查看:
很多人问我有没有交流群
马上安排上
添加下方微信拉你入群
转载、投稿、商务、咨询合作均可添加微信沟通