不听劝,一堆人问我卖不卖数据中台源码

文摘   2024-10-15 00:04   浙江  
Hi,你好呀,见字如面,我是唐晨,日更大数据领域知识和个人观点,关注 Data + AI  领域的小伙伴,可以点击关注公众

目前,我正在体系化更新数据资源管理/数据治理/数据中台系列文章。

前两天更新了一篇关于网上有人 8 万卖数据中台源码的文章,原本是劝大家不要相信这种低价自灭式交易,结果一堆人过来问我卖不卖?
当然,不卖啊。
一个相对成熟数据中台,别说 8 万,你 800 万都买不到。
因为整个系统的研发周期保底 3 年起,投入产研 40 人,人均薪酬 40 万/年, 仅仅研发成本就达到 5000 万。
这还是 3 年不走任何弯路的情况下,也就是非常理想的情况下。
市面上,不管是大厂还是独立的第三方数据中台厂商,成本均远高于此,他们研发初期的人数规模通常在百人规模, 研发周期 5 年以上。
你就想想凭什么,8 万卖给你?

01

再谈,数据中台


数据中台虽然近些年降温了,但是,并不廉价。

数据中台应该算是近些年,数据底座中最热门的一次理念更新了,此概念也是由我国企业率先提出,并被国际引用的大数据概念之一。

数据中台是"一套可复用、可快速迭代、可支撑前台多样化业务需求的通用技术组件和能力",它旨在提供标准化的数据服务,实现数据的共享和价值最大化。

这么说可能还比较抽象,可以看看下面的框架图:

图片来源于网络

数据中台主要包含以下模块

1. 数据接入层

数据接入层负责从各种数据源采集数据,包括数据库、API、物联网设备等。该层还会对数据进行清洗和标准化,确保数据能够顺利进入数据中台。

常见工具有Flink、Kafka等。

2. 数据存储层

该层负责大规模数据的存储,支持结构化、半结构化和非结构化数据的存储与快速读写。

数据存储层的产品通常包括Hadoop、HBase、Hive、ClickHouse、Doris等。

3. 数据处理层

数据处理层主要进行ETL操作,即数据的提取、转换和加载,处理包括批处理和流处理,确保数据被有效清洗、聚合和转化为可用于分析的形式。

常见工具有Spark、Flink、Airflow等。

4. 数据服务层

数据服务层提供统一的数据查询接口,将经过处理的数据提供给业务系统或应用,支持多种查询方式。数据可以通过API或SQL接口来服务。

常用产品包括StarRocks、Presto等。

5. 数据治理与质量管理

数据治理层负责数据标准化、数据字典管理、元数据管理、数据质量监控以及数据安全,确保数据的完整性、一致性、安全性和可追溯性。

常见工具包括Apache Atlas等。

6. 数据资产管理与数据目录

数据资产管理组件负责对企业数据资产进行分类、标记、搜索和权限管理,帮助企业更好地理解和利用数据。元数据管理工具(如Collibra、Informatica、DataCatalog等)通常在这一环节起到重要作用。

7. 数据安全与隐私保护

数据安全组件负责确保数据的安全性、合规性和隐私保护。其任务包括数据加密、访问控制和数据脱敏,防止数据泄露和未授权访问。

常见的安全产品包括阿里云的Data Security Center等。

8. 数据共享与开放平台

数据共享层打破数据孤岛,提供数据共享和交换的机制,使得企业内部或外部各业务部门能够高效协同。API Gateway或数据交换平台通常用于实现这些功能,支持跨部门的数据共享。


02

你需要数据中台吗?


前几年,不少企业跟风采购了数据中台,吃了不小的亏,现在,市面上普遍比较谨慎了。

但是,企业数据建设和治理的需求仍在,甚至严重影响了业务发展。

数据中台依然是业内普遍公认最优解(这个可能有些绝对,但是,不管是数据飞轮还是数智基建等,均未达到普遍验证和落地的阶段,数据中台至少经过近 10 年的发展实践,各个各业的企业都有一些实践经验和积累。)

我并不是鼓动你去采购数据中台,因为并不是所有企业都适用、都需要。

企业在考虑数据中台项目时,需要考虑以下几个因素

01、初步完成了数字化转型,但是存在明显的数据孤岛现象,需要整合多业务的数据,进行跨业务线分析应用
如果企业还存在数字化转型初期,都没有多少数据可用,自然没必要构建数据中台项目。
只有具备一定的数据基础,但是,存在数据孤岛时才需要考虑,比如电商场景,涉及到市场营销、订单管理、仓储和供应链,这些数据往往分布在不同的系统,而业务需求往往需要横跨多个业务系统的数据进行分析使用。
02、有 3 个及以上数据应用建设场景
前面已经说了数据中台存在较大的建设成本,且构建周期长,但是,并不直接产生价值(多么痛的领悟)。
数据中台的价值是帮助企业快速构建数据应用,用数据应用的价值来间接体现的,比如供应链管理系统、数字营销系统等。
如果企业只有 1~2 个数据应用,那么,也是无需构建数据中台的,直接对接对应的业务系统去获取数据,直接构建数据应用即可,成本更低、效率更高。
但是,如果企业有 3 个及以上数据应用需要构建时,数据中台将数据只加工一次,通过数据服务的方式对外提供服务,实现一次加工重复使用的效果。
这时候企业就需要考虑构建自己的数据中台了。
03、在使用数据方面,深陷效率低、质量差和成本高的泥潭中
数据部门面对大量的开发任务,每天疲于应对业务侧的各类临时性数据需求,比如取数需求,无暇去构建企业的数据模型体系;
数据经常出现问题,错综复杂的数据关系让人无从下手,问题定位困难,修复周期长,成本高;
老板持续地追问,为什么数据成本那么高,但是,业务部门却没有给任何正向反馈,你们有没有做一些优化策略。
这个时候,数据中台同样适合帮你解决以上问题。
如果以上点,你们企业有 2 个或全部命中了,那么,恭喜你,数据中台就是你们的最优解(目前,甚至未来几年依然是)。
如果以上点,你们企业只命中了 1 个,甚至 1 个都没有命中,那么,绝对不要立项去启动数据中台的项目,否则,你就自求多福吧。
很多企业内部业务线单一,且不存在多数据应用的场景。
使用传统的数据仓库即可解决问题,如果有一个团队想要探索些新的技术方向,完全可以将底层的关系型数据库替换成逐渐成熟的 MPP 数据库,比如 Doris 。
当然,很多企业连数据仓库也搭建不起来,没关系,相信我你并不孤独。
目前,很多 BI 工具也在不断扩展自身的能力,支持轻量级的数据建模和治理工作,采购一个 BI 系统也可以先顶上,基本可以解决企业大部分数据需求问题。

03

小结


90%的企业可能都没有能力搭建数据仓库,内部一个全职的数据仓库开发工程师都没有。

自然不需要采购什么数据中台,先把 BI 可视化工具使用起来,把数据支撑和业务核心指标监控做起来再说。

剩余的 10%的企业,多数可能已经搭建了自身的数据仓库,但是,依然面临严重的数据孤独、数据质量缺乏有效的监控治理、数据安全问题凸显。

其中,少数部分行业头部企业存在多条业务线,各个业务线数据无法有效联动,那么,立项数据中台则是一个不错的选择。

至于,要不要搭建团队自建,那可要慎重。

目前,市面上已经有研发多年的、成熟的数据中台产品,且在不同的行业内做了交付和经验沉淀,直接采购第三方的绝对是更高效和有保障的。

而且今年数据中台价格已经被打下来了,对于企业来说采购成本低了多少,但是,绝对不要妄想 8 万 10 万的买套数据中台服务。

祝好!

(正文完)



今天的分享就到这里,希望对你能有多帮助和启发。

我是唐晨,日更大数据+AI 领域知识和个人观点,关注 Data + AI  领域的小伙伴,可以点击关注公众号。

看看都是哪些角色在订阅唐晨说数,点击下方选项查看:


很多人问我有没有交流群

马上安排上

添加下方微信拉你入群

转载、投稿、商务、咨询合作均可添加微信沟通

现在文字真的越来越少用户有耐心阅读完了,后期是需要经营视频号了,欢迎关注,到 500 了启动直播,线上聊一聊。


唐晨说数
大数据领域从业者,分享关于数据治理、数据中台、数据应用等领域相关的,个人实践及观点,以文会友,欢迎关注。
 最新文章