近十年,BI 市场风云变幻,新名词层出不穷,如大数据、非结构化数据体系、数据湖、湖仓一体、数据中台等;这些层出不穷的概念如潮水般涌来,很多看起来高大上的概念并没有带来新的价值,让众多投身于数字化转型的团队深感困惑与迷茫。
然而,在 AI 大模型问世前,在传统企业的数字化建设过程中,非结构化数据实际上并未得到有效利用。尽管文字、图片、视频等各种形式的数据都存储于大数据体系,但处理效率极低。这些非结构化数据大多被闲置,那些新的数据架构体系创造的价值并没有超过传统的数据仓库,白白浪费了数字化团队的时间精力和预算。
今天,我想结合自身的从业经历,讲一下我所见证的 BI 发展历程。初入 SAP 行业时,我首先接触到的便是 SAP 的 BI 和数据仓库产品。此后,行业发展风起云涌,我经历了 SAP 收购 BOBJ 的重要阶段,也见证了 SAP 的 HANA 分布式数据库时期,一直到后来的 SaaS 化数据平台出现。随着行业发展,我在工作中又接触到了大量互联网业务体系。在互联网业务运营中,指标体系至关重要。再往后,随着 AI 大模型的问世,一系列与之相关的新概念如雨后春笋般涌现出来,开启了新的发展篇章。
IT统筹下的BI体系
SAP 自身的 BI 产品是典型的以 IT 视角为主导的产品体系。在这个体系中,IT 团队承担着从各个业务系统借助 ETL(Extract, Transform, Load)流程抽取数据至数据仓库的工作,随后利用专业的报表设计工具为业务团队构建各式各样的报表。而业务团队仅需使用这些报表即可;若业务团队有不满意的地方,IT 团队会对报表进行修改并重新发布。这种 BI 的开发部署流程,跟大部分软件系统的开发流程比较类似。
IT主导的BI流程往往比较严谨,对数据的权限把控良好,所开发报表的运行性能也相对较高。这种 IT 主导的建设模式,通常适用于多业务单元的大型集团,像世界五百强企业、跨国公司等。因为在这些企业中,不同业务单元的数据需要进行适当的权限隔离,同时综合性的数据还需要在集团层面进行汇总处理,所以 IT 的管控在此情境下显得尤为关键。
然而,这种模式也存在较为显著的缺点,即效率不高且业务灵活性不足。特别是当业务团队和 IT 团队在地理或沟通层面距离较远时,一个简单的业务需求可能需要花费数天才能完成交付。这种情况在一定程度上阻碍了业务的快速响应和发展,难以适应日益增长的业务需求以及快速变化的市场环境。
业务自助的BI体系
2007 年 10 月,SAP 宣布以 68 亿美元的价格收购 Business Objects2。这是 SAP 历史上较大的一笔收购交易,引起了业界的广泛关注。SAP 获得了 BOBJ 先进的商务智能技术和产品,如水晶报表(Crystal Reports)、Web Intelligence 等,这些产品与 SAP 原有的企业资源规划(ERP)等系统相结合,为客户提供了更全面、更强大的数据分析和决策支持功能。
在 Business Objects 的产品体系架构之中,用户主体通常是源自业务团队的数据分析人员。他们常常凭借各类自助式的操作手段,仅通过简便的拖拉拽动作便能构建出报表体系,这与当下的低代码开发平台极为相似。
此类 BI 开发模式一般适用于中小型企业,或者是各业务单元相对独立的公司中,各业务公司在自身的业务范畴内他们拥有较大的权限和自由度。业务人员能够依据自身需求,灵活运用该模式快速搭建符合业务逻辑的报表,无需过多依赖专业的技术人员,从而大大提高了数据处理的效率,使数据能够更及时、准确地为业务决策提供支持,进一步提升了业务的响应速度和创新能力。
互联网化的BI指标体系
在传统企业当中,由于自身的业务周期较长,从客户获取到最后的现金流通常需要几个月甚至跨年,这样的情况下KPI 和绩效目标的指引通常是以季度和年度作为时间周期来设定的。然而在互联网行业里,无论是互联网金融,还是互联网电商,其业务的周期更短,通常以天甚至分钟就可以完成一个闭环。在这种情况下,互联网公司的运营必须要用更易于量化的指标体系来指引业务的运营。
指标作为评估业务目标表现或者效果的量化参数,其最为直观的作用便是将业务进行量化处理。各个行业都拥有自身独特的关键指标,像媒体广告领域的点击率,物流行业的准时送达率,以及电商平台的商品转化率等。大家感兴趣的话,神策数据的指标拆解工具里也可以找到不同行业的指标模板。
很多传统企业在向互联网学习的过程中,纷纷将自身业务进行在线化改造以实现数据闭环。通过数据闭环的指标体系,企业能够及时了解业务状况,公司的每个业务环节得以量化和透明化,企业可以清晰地了解目标与现状之间的差距,进而利用这些信息更精准地进行决策,调整运营策略。
传统企业在构建指标体系的进程中,切不可盲目地全盘照搬互联网巨头的体系。互联网巨头所依托的基础架构非常复杂,成本高昂,各种大数据平平台,分布式数据库体系,多云架构,一个大数据的开发人员成本可能就超过了一套BI系统的产品,这些体系并非普通企业所能轻易承受和维持的。倘若企业自身业务规模相对较小,不妨参考衡石 BI 的指标体系平台。传统企业的 BI 平台若运用得当,同样能够搭建出颇为出色且适配自身的指标体系。
BI+低代码,更深入业务的数据应用
有些公司在传统的BI指标体系上做了进一步的创新,例如平安证券的微卡片应用。每个微卡片代表一个独立的业务功能,作为前端业务呈现。既可以独立使用、分享,还能嵌入其他页面,一次创作可多次复用,大大提高了开发效率。例如平安证券的微卡片平台卡片复用率高达 191.44% 以上。
微卡片应用包括展示类,如卡片看板、数据大屏等;操作类,像操作表单、报表等;办公协同类,涵盖在线 PPT、在线 Excel 和微会议等工具。不同的卡片灵活组装到不同的应用场景,满足业务在数字化转型过程中多样化、个性化的需求,打破了传统前端应用模式。微卡片应用让不具备专业前端开发技能的人员,如业务人员、后端人员、运维人员等也能参与到前端界面的开发,提高了业务人员的参与度。
微卡片应用可以看作一种BI与低代码产品的融合和扩展。
AI辅助的BI产品 - ChatBI
人们日常生活中处理的信息多是自然随意的语言交流内容,而 BI 系统是基于结构化数据和特定分析逻辑构建的。人类并非天生就擅长应对数字世界,对大多数人来说,用数据分析师思维方式相当相当费脑。AI 大模型出现后,能否跨越人类语言与结构化数据体系的鸿沟呢?于是,各种基于 AI 大模型的 ChatBI 体系应运而生,它能让普通用户用熟悉的语言风格便捷使用 BI 系统,降低使用门槛,提升用户体验。
许多技术同学或许会期待 Text - To - SQL 的直接转化,例如将企业的数据全部存储在一个容量更大的数据库里,使得提出的任何问题都能精准地匹配到一个 SQL 的执行,并返回所需的数据。如此一来,是不是就可以不再依赖当前现有的 BI 体系了呢?我们也尝试过用Vanna这样的开源体系搭建了一些Demo,在处理简单的数据时效果还是不错的。
大家或许对 Text-To-SQL 的闭环操作寄予了很高的期望,但实践结果却显示其准确率并不理想。大部分Text-To-SQL 的系统的准确率只能达到60%左右,如果把数据库的结构信息补充给大模型,并把数据库里执行过的SQL执行做人工的文本标注,加入相关的上下文的文档后,准确率可以提升至90%左右。详细的内容可以参考这篇文章:
https://vanna.ai/blog/ai-sql-accuracy.html
在实际业务环境中,数据的来源和逻辑错综复杂,自然语言的模糊性和数据的精准性存在巨大差异,毕竟 AI 大语言模型是概率模型,而 BI 更像精准的机器。人工增加数据的上下文固然可以提高精准度,但是也提升了AI数据自动化的成本。
在 ChatBI 实际落地应用过程中,更为可行的方式或许是对已有的 BI 报表和卡片添加一定的文本标注。通过这种方式,能够让数据的使用变得更加便捷。如此一来,业务人员无需再进入专门的 BI 系统进行查看,只需在 IM 聊天系统中通过自然语言沟通就能唤起这些数据,从而极大地提高了数据使用的效率和便捷性。即便 AI 出现调用错误数据卡片的情况,业务人员也能够依据卡片上的其他标注内容迅速察觉错误,避免因错误数据而导致的决策失误。
AI自动驾驶下的BI体系
一些大型企业的ERP系统中包含几万张表,这些数据表之间也有非常复杂的关联,针对这样的场景,即便是这样的专业数据分析师要梳理其中逻辑关系也极为困难。在AI能够实现BI的自动驾驶之前,一定是建立在全面理解企业的业务基础之上。
在企业中,只有一小部分人同时具备利用数据的两项关键技能:一是对高级 SQL 有扎实理解,二是全面了解组织独特的数据结构和模式,同时满足这两个条件的人数极少。
AI 大模型的出现为突破这一瓶颈带来了曙光。通过对企业历史数据、各业务系统、业务流程文档、用户操作记录和员工组织的沟通记录等多源数据的学习,AI 可以构建起对企业业务全面且深入的理解模型。
例如,对于一家大型制造企业,AI 可以学习从原材料采购、生产排期、质量检测到产品销售整个链条的数据逻辑。它能理解不同部门在不同业务环节对数据的需求,以及这些数据是如何在各个流程中流转和变化的。在这个学习过程中,AI 不再局限于简单的数据关联分析,而是从业务的本质出发,像人类专家一样理解数据的 “生命历程”。
当 AI 实现了对企业业务的深度理解后,还需要掌握对数据工具的灵活使用,例如各类数据的抽取、清洗、分析和可视化呈现等一系列操作,要能够把人类的分析意图自动拆解成一个个 AI 可以驱动的环节,并将这些环节拼接成可执行的闭环流程。以销售数据分析为例,AI 可以根据市场动态、销售区域、产品类型等多个维度自动生成分析报告,及时为企业决策提供支持。
不仅如此,除了被动执行用户的数据请求外,AI 系统还应自动生成大量的数据看板、卡片和故事展示给用户。用户点赞、关注以及修正的数据能够反过来进一步指导 AI 的进化,形成一种良性的互动反馈机制,使 AI 在企业数据应用场景中持续优化,更好地服务于企业的数字化发展需求。
然而,要实现 AI 在 BI 体系中的自动驾驶并非一蹴而就。一方面,企业需要投入大量的资源来训练和优化 AI 模型,包括高质量的数据标注、强大的计算资源等。另一方面,企业也需要建立起完善的数据治理体系,确保数据的质量、一致性和完整性。只有在数据质量可靠的基础上,AI 才能更好地发挥其自动驾驶的优势。
大家也可以做一个预判,在BI领域,数据的自动驾驶什么时候能实现呢?