近日,Gartner高级研究总监顾星宇(Xingyu Gu)就中国数智基建发展趋势接受媒体采访,采访文章全文如下:
来源/比特网
作者/于欣靓
“未来,‘数智基建’将成为IT架构部署主流模式。数据中台被淘汰并不代表其背后的技术被淘汰,但将会以一种新的方式交付到客户手中。”顾星宇在谈到企业IT建设趋势时说道。
在数字经济迅速发展的当下,数字化转型已经成为企业应对市场变化、提升竞争力的关键策略。其中,数据中台作为转型的核心基础设施,可以帮助企业聚合内外部数据,支撑高效的数据服务,从而提升企业决策水平和业务表现。
不过,需要指出的是,数据中台本质上是一种中心化、集中式的端到端数据分析平台的部署方式,通常依赖单一厂商在开源技术的基础上进行大量的二次迭代和开发,为客户部署一个端到端、全方位、一站式的数据分析与人工智能平台。随着企业数据中台的运维成本持续攀升,该模式逐渐暴露出成本高、灵活性不足的问题。
数据中台面临挑战
近年来,企业所面临的外部环境发生了显著变化,给数据中台带来了前所未有的挑战与考验。具体来看:
第一,经济增速放缓。据Gartner对中国首席信息官(CIO)的调研结果,他们预计能实现“营收增长9%,但IT预算仅能增长2.8%”。尽管数据中台、数据分析平台及数智基础设施仍是中国企业IT预算的重要组成部分,但其增长和变革正面临着资金紧张、投资越发审慎的困境。因此,企业更加注重数据中台能够快速创造价值,期望能在搭建数据中台的过程中同步产生价值,而非先搭建后见效。这是企业面临的首要且最大的挑战,即预算削减所带来的短期价值兑现需求的旺盛。
第二,全球正处于一个充满不确定性的时期。这种不确定性给企业带来了诸多突发需求。具体到数据分析这个领域,企业希望业务部门能够更加迅速且灵活地交付数据分析结果或产品。
第三,技术快速迭代。AI相关技术发展迅速,以至于刚刚建好的数据中台可能其内部组件已经过时,需要立即进行更新换代,这给数据分析平台的可组装性提出了更高的要求。
Gartner认为,数据、分析和人工智能共同构成了一个广阔的市场,并可细分为三个主要子市场:
第一,数智基建。在数据源的基础上,需要有强大且具备鲁棒性的数智基建底座,其中具体的技术组件包含:分析型数据库、数据集成能力、数据治理能力,以及数据虚拟化管理技术。
第二,分析和AI。该领域涵盖了人工智能、数据科学、机器学习、生成式AI等技术。为了支撑这些技术,需要有大模型以及能够运维、维护这些大模型的AI平台。更底层则是传统的商业智能相关技术,如报表、仪表盘、自主分析能力等,这些分析工具对企业而言仍然是必不可少的。
第三,D&A服务。即使是有了分析与AI技术,企业也仍需有人将技术与自身业务状况相结合,以项目形式落地,并在实际应用场景中发挥可量化的作用,如降低成本、提高效率、增加营收。另外,从社会层面看,企业间的数据共享日益增多,国家数据资产入表相关举措能促进企业整合优质数据,从而实现社会效应最大化。
过去,中国企业在进行数据分析和人工智能技术平台搭建时,倾向于将其视为一次性买卖。事实上,数据分析和AI不是一次性交付的商品,而是需要有人持续帮助进行商品的迭代、交付,以及对使用方式和相关技术能力进行更新,类似于长期合作伙伴的订阅制交付方式。
在分析型数据库和“湖仓一体”相关的Hadoop技术领域,全球范围内开源社区的创新和人员变动发展迅速。以Databricks收购Apache Iceberg的创始团队Tabular为例,在底座搭建方面,Apache Iceberg或将成为主流,而以往基于开源技术的二次开发可能因无人知晓当年代码情况而难以持续进化。
顾星宇强调,企业应摒弃一次性交付大量代码构建的无人运维、不敏捷的平台。此类平台无法进行进一步的组装,也无法适应技术发展和更新换代。为此,Gartner引入了“数智基建”的概念。
根据Gartner的定义,数智基建是以数据、分析和AI生态作为部署模式,通过使用已经相互建立了密切合作的供应商组合,构建全面的数据分析和人工智能的解决方案和服务。
作为该生态系统的核心组成部分,“数智基建”提供了包括分析型数据库、数据集成、元数据管理、数据质量保障及数据虚拟化等在内的技术能力,奠定了数据分析和AI应用的可复用基础。
顾星宇表示,未来,“数智基建”厂商将聚焦于数智基建相关的技术研发,而对分析和AI及D&A服务将减少直接投入。尽管如此,他们仍愿意与专注于这些领域的厂商展开更广泛的生态合作。通过此种合作模式,各方能够最大化发挥自身优势,共同为终端客户提供一种可灵活组装、既敏捷又稳健且可持续运维的数据分析与AI平台。
三条生态发展线路解析
据Gartner预测,到2028年,50%构建于2023年之前的中国数据和分析(D&A)平台,将因为与生态系统脱钩而过时。这里的“与生态系统脱钩”,具体指的是并没有参与基于生态合作的厂商部署,而是选择传统的路线,依靠单一厂商进行大量的二次开发,一旦技术环境发生变化,这些平台无法进行相应的调整和改进。
在顾星宇看来,“数智基建”领域将迎来三条重要的生态发展线路:
第一条:“数智基建”厂商与云厂商之间的生态合作。
由于国内企业背景及价值取向的多样性,可以大致将其分为外企、国内私企以及央企国企三类。这三类企业在数据分析平台的部署需求上存在显著差异,如外企主要关注的是如何确保中国业务与海外业务的有效连接;私企则更倾向于从技术角度利用云计算来优化成本和提高效率;而央国企在选择云服务时,更倾向于选择那些获得国家信赖或与其有股权关联的云服务供应商。
在这种情况下,可以看到多样化的云服务提供商并存,包括国际巨头如亚马逊和微软,以及本土的阿里巴巴、腾讯和华为等。此外,还有一些新兴的网络供应商,他们在国有控股的支持下也提供公有云服务,从而满足了不同类型企业的多样化需求。以一家大型银行为例,其业务不仅关乎民生,还涉及大量的互联网应用,需要与终端用户交付、行业竞争乃至海外业务紧密相连,这显示了其复杂的价值驱动力。企业的IT环境需要具备“跨云、多云”的管理能力,而这恰恰是单一云厂商难以提供的,此时就需要数据分析的数智基建厂商与更多厂商展开生态合作,让其产品拥有独一无二的“跨云、多云”数据管理能力。
近来中国各行各业的领军人物 “出海”,国家层面也希望外资继续在华投资。“跨云、跨生态”乃至“跨境”的数据管理将成为常态。在这样的环境下,“数智基建”厂商能否通过和“云”厂商的生态合作来为中国的企业,以及在华有业务的外资企业提供更加统一、值得信赖的“数智基建”底座,是未来重点观察的驱动力之一。
第二条:“数智基建”厂商和数据分析服务厂商的生态合作。
“数智基建”是一个技术密集且工程化程度高的行业。甲方客户应避免要求技术供应商同时负责项目落地的职责。这种要求常导致供应商在非专业领域投入大量人力成本,而这些领域既非其专长,也可能缺乏相应的行业知识。因此,建议甲方客户将专业事务交由专业人士处理。
在中国,越来越多的服务商,甚至是一些SaaS应用厂商,与“数智基建”厂商合作日益增多,这种合作模式有助于以更敏捷的方式将硬核技术与实际业务场景相结合。值得注意的是,这些合作厂商背后的技术支持往往来源于“数智基建”供应商。通过这种合作关系,甲方客户能够充分利用“数智基建”供应商的技术能力,快速实现技术部署,并在背后获得专业的技术支持。
第三条:“数智基建”厂商与人工智能厂商的生态合作。
2023年下半年,Gartner针对中国客户开展了一项主题为“中国企业机构对GenAI应用的担忧”的问卷调查。调查结果显示,企业最担忧的前三个问题分别是:“重要/隐私数据泄露”、“知识产权侵犯”以及“幻觉”。这些问题背后,都与企业能否为AI或GenAI应用提供充足的AI就绪数据密切相关。
事实上,GenAI应用能否保护企业的隐私数据、知识产权,并避免问答中的幻觉,关键在于能否提供优质数据,并将其与企业内部数据以优质方式结合,实现部署落地。
顾星宇认为,AI就绪数据与“数智基建”方法论颇为相似。AI就绪数据并非通过大型数据治理项目或数据标准治理来实现。尽管许多国内甲方客户倾向于开展此类大型项目,但这种方法并不完全适用于AI就绪数据的准备。因为AI就绪数据是为AI场景服务的,而大型项目可能因业务和技术环境的变化而迅速变得不适用或过时,或者出现新的数据质量问题。
数据只要被不断使用,就会不断产生新的数据质量问题。由于使用背景和目的的差异,已定义好的数据需要不断进行语义上的调整和优化,以满足新的需求。如果忽视这种持续优化,就可能导致数据质量问题。因此,AI就绪数据的准备是一个持续的循环过程,涉及业务场景和数据定义之间的语义对齐。在数据使用过程中,需要持续发现语义上产生的新问题、新的不对齐等数据质量问题,并在下一步的数据治理工作中解决这些问题。解决之后,再继续进行之前的循环工作。
为了实现这种持续优化,需要“数智基建”厂商和AI厂商建立合作关系,共享元数据,并持续识别数据使用状况和定义的语义。这种合作有助于发现新的数据质量问题,并建立技术上的机制来持续调优AI就绪数据。因此,必须要实现横跨数据库、数智基建组件、AI以及人机交互组件之间的元数据共享。只有元数据被共享、利用和分析,才能持续建立这种技术上的机制,不断对AI就绪数据调优。
写在最后:
从数据中台到数智基建的转变不仅是技术上的进步,更是企业战略思维的升级。通过构建开放、灵活的生态系统,企业能够更好地应对挑战,实现可持续发展。
更 多 资 讯 敬 请 访 问 Gartner 中 文 官 网!
www.gartner.com/cn
长按识别二维码