数据民主化的“神话”

科技   2024-11-19 08:31   日本  
15年前,公司IT部门数据团队的一位大神去了市场部的分析室,从那个时候开始,IT部门就没怎么接收到过这个科室的取数需求,因为市场分析室的人员会被要求掌握SQL语言,并且能够在数据集市自己取数分析,其数据分析的效率飞起,这种数据文化延续至今。
我认为这是“数据民主化”的一种表现形式。
“数据民主化”这一名词最早出现于20世纪90年代末和21世纪初,主要是伴随着商业智能(BI)工具的发展而出现的。旨在探索如何将数据的使用权限从传统的技术团队扩展到整个组织中的业务人员,打破原有的“数据精英主义”模式。
自己见证了数据民主化在公司的发展历程,虽然不能说整个公司已经实现了数据民主化,但在已经数据民主化的部门,其体现出来的数据驱动业务的水平是比较突出的,以下是一些典型表现:
  • 领导数据意识强,大小场合都会讲要用数据说话;

  • 经营分析报告质量高,更关注行为和根因分析;

  • 对IT的分析依赖少,喜欢引入有数据背景的人;

  • 市场响应速度快,擅长从数据中找到应对策略;

  • 客户标签需求很多,更强调精益运营;

  • ......

那么,他们是怎么演变到现在这个样子的呢?今天就来聊一聊。
第一阶段 数据仓库的起点
20多年前,公司的数据存储和分析主要依赖数据仓库,比如DB2,数据查询和处理还是需要一定的编程技能,虽然只是简单的SQL和存储过程,但在当年也算是硬技术了,再加上需要对公司的数据比较熟悉,因此,公司里会用SQL操作数据的人,基本就集中在数据团队。这使得数据成为了少数人的专属资源,形成了数据使用的“精英主义”现象。
同时,这一时期的业务非常简单,业务部门最本质的诉求就是看数,需求形式更多的体现为报表和取数,整个公司的报表20-30十张,1周取数个位数。
偶偶有业务部门会抱怨下报表和取数很慢,因此往往会搞个加急流程。自己当年还偶偶玩玩小的技术创新,比如把取数按照区域维度由串行变为并行,但集中化的数据支撑模式没有根本改变。
第二阶段 数据集市的启蒙
数据仓库集中数据处理能力比较强,擅长标准化的建模,但如果要快速的支撑成百上千的个性化的数据应用,却不是它擅长的,因为它的并发能力不行,而且写SQL要非常规矩,垃圾SQL搞崩DB2也是会发生的事。
公司的业务在发展,大量的报表取数需求迸发出来,单靠数据仓库显然不太能接的住。这个时候,数据集市就出来了,数据集市可以被认为是数据民主化思想的部门级解决方案。
为了满足一线单位的快速灵活的数据需求,我们开始围绕地域+业务维度建立了一个个的数据集市(ORACLE),每天大量的数据从数据仓库交换到数据集市,一线可以基于数据集市自己去开发所需的报表,数据响应速度大大提升了。可以说,这是公司数据民主化走出的重要一步。
虽然一线的数据人员仍然主要是IT人员,但公司内直接使用数据的人员规模的确提升了,其中不少人后来都转去了业务部门,成为了业务部门数据民主化的倡导者和技术带头人。
后来我发现,公司最成功的数据民主化部门,并不主要得益于什么工具,而是得益于在人力上的IT基因优势。
第三阶段 自助工具的兴起
在数据仓库如日中天的时候,有厂家就开始来推销BRIO(前端)+OLAP(后端)+元数据的产品,当时OLAP的多维分析能力被说得很厉害,我们就想,如果能为业务人员提供更为灵活的分析能力,那也是非常好的,这就是BI的开始。
但OLAP使用起来门槛较高,不仅配置比较复杂,而且BRIO前端操作界面并不友好,劝退了大多数业务人员,最后只有市场部个别专职经营分析师在用。
我想,其它公司跟我们的情况估计差不多,虽然当年的BI声音很大,但真正买单的并不多。后来虽然有BO等不同产品的推出,但BI的基本面并没有什么改变。国内的业务人员还是习惯让IT人员取数,然后自己在EXCEL中捣鼓数据。
BI的商用工具不好用,但大家都不否认BI倡导的数据民主化思想。我们当年还自己定制化开发了自主取数,自助报表等系列平台和工具,但也只是吸引到了部分对技术感兴趣的业务人员使用。
也许是国内外文化的差异、也许是国外产品的本地化不足,也许是数据基础设施的问题,也许是外包成本的差异,BI在国外的发展却比较迅速,培养了大批的忠实用户。
现在很多国外公司招聘数据分析师,需要应聘人员熟练掌握Power BI或者Tableu等工具,可见BI的流行程度。
第四阶段 大数据的助推
BI试图通过降低数据的操作门槛来推进数据民主化。但大多人并不会因为一个工具而改变自己的习惯,让业务人员自己取数更是不可能。除非还有更大的利益在里面,大到足以吸引业务人员自己动手。
在BI挣扎之时,大数据迅速崛起,其4V特征极大拓展了应用的边界,实时报表、客户画像、科学决策、实时营销、精准推荐、风险控制等各种数据应用如雨后春笋般的冒出来,这让业务人员看到了更多的数据价值,奠定了数据民主化的业务基础。
大数据平台的一些技术特点也为数据民主化的发展提供了很大的便利,其提供的动态资源管理和多租户支持能力,使得不同部门或用户组可以在同一平台上安全地访问和分析数据,这为数据的共享和协作奠定了技术基础。
与此同时,公司的业务高速推进,促使更多的业务部门思考自己取数来提升市场响应能力。在那个时候,公司的大数据平台租户一下子扩充到了上百个,更多的人开始尝试在自己独立的租户进行数据分析。
为了降低大家的使用门槛,大量可编排数据的DataOps平台被开发出来,虽然这些可视化平台还是需要业务人员掌握SQL的技能,但大数据本身的吸引力部分抵消了这些学习成本。数据民主化的成功,从来不是简单的工具的成功。
在当时我们还审时度势的启动了一个大数据的“千人之计划”,通过各种培训和竞赛,让更多的业务人员可以掌握操作数据的技能。
第五阶段 数据孤岛的打破
大数据平台虽然采集到了海量的数据,但这些数据往往由于部门的隔阂而不能充分的共享。对于很多公司来讲,大数据平台更多是一次纯粹的技术革命,因为数据的归属和生产关系并没有解决。
这个时候,数据中台来了,数据治理紧随其后,前者强调能力沉淀,后者突出顶层设计,但两者都有一个共同点,那就是打破各部门之间的数据孤岛,构建统一的数据平台,以实现跨部门的数据共享和协作。
在这个时期,公司成立了企业级数据治理委员会,建立了数据责任人制度,通过数据治理办公室常态还开展工作,大数据平台的租户篱笆墙被打破。在大数据平台上,任何一个业务人员都能够访问到相对于以往几何倍级的数据。
可以这么说,数据中台和数据治理让数据民主化的广度和深度进一步加强了,数据的使用不再仅限于单一部门,能够更广泛地服务于企业的各个业务环节,这大大拓宽了BI定义的数据民主化的内涵。
第六阶段 人工智能的曙光
数据民主化从BI开始被倡导,并没有因为BI而发扬光大,反倒是随着大数据,数据治理的崛起而让更多的从业者进入到了这个赛道,从而以另一种形式推进了数据民主化的进程。
有点遗憾的是,数据的实际操作门槛并没有大福降低,业务人员还是需要对数据有充分的理解,并且使用SQL来操作数据,这制约着数据民主化的进一步发展。人人都是数据分析师仍然是一个遥不可及的梦想。
应该来讲,近年来国内的BI有很大的起色,我想追上Power BI等这些国外的产品也是可预期的,但BI的现有体验即使达到极致,也不足以改变整个格局,除非是生产模式的重构。
BI很早就看到了这一点,提出了基于AI的增强分析理念,可惜当时的AI技术不够用,增强分析聊胜于无,直到大模型的出现。
未来BI的大致是这样的:大家可以通过自然语言向大模型提问,大模型自动生成代码并完成整个取数过程,更进一步,自动生成可视化的分析报告并提供业务建议。
这种智能化的分析过程大幅降低了数据使用的复杂性,使得即使没有数据分析背景的业务人员也能够获得有价值的数据洞察。
我想,这就是数据民主化的终极形态吧。现在ChatBI、ChatSQL很热,因为大家都认为这是数据民主化的未来。
结语
应该来讲,各个企业所处的数据民主化阶段并不相同,有些企业停留在数据仓库阶段,有些企业喜欢数据集市,有些企业则对BI工具情有独钟,而像我所在的企业,则是多种因素的叠加,大家都基于自己的需要投出了数据民主化的一票。
这其中,市场环境、企业文化、发展阶段、数字基因、人员素质等等都直接或间接的影响着企业的选择。很难说谁比谁好,但在同一个行业,企业数据民主化的水平(数据类平台的使用人员/员工数量),一定程度说明了企业数据驱动业务的能力。

一个数据人的自留地
数据人交流和学习的社区,关注我们,掌握专业数据知识、结识更多的数据小伙伴。
 最新文章