大数据产业创新服务媒体
——聚焦数据 · 改变商业
数据产品如控制面板、报告、API、数据可视化、机器学习模型等,具有可衡量的价值并且可重用,旨在提供可信数据来解决业务问题。这种对可扩展、灵活数据访问的需求催生了数据编织和数据网格等架构方法,以解决现代数据环境的复杂性,并释放数据资产的全部潜力。
Data Fabric的核心价值在于整合数据资源,方便数据访问,自动化处理数据,保障安全合规。而Data Mesh则采用分布式数据架构方法,将数据所有权分配给跨职能的领域团队,由这些团队向最终用户提供数据产品。
因此,Data Fabric和Data Mesh正成为企业为当下和未来选择数据架构的两种主要选择,也是构建数据空间,实现数据价值的重要路径。
Gartner将“数据编织Data Fabric”列为“2021年十大数据和分析技术趋势”之一,并预测到2024年,25%的数据管理供应商将为数据编织提供完整的框架。
另一家市场研究公司Forrester估计,目前有20%的组织采用了多个云,预计这一数字将在未来三年内翻一番,也为Data Fabric解决方案提供商带来了机会。Data Fabric在当今的多云和混合云行业中发挥着重要作用。
为什么要发展Data Fabric?从应用上看,随着数字化发展,企业数据源增多,数据量持续增长,数据与应用孤岛大量涌现。
企业的业务数据格式已从以结构化为主,转变为多种类型并存,像结构化、半结构化、非结构化数据共存,对实时或事件驱动的数据共享需求也在攀升。
同时,企业上云趋势下,在混合数据环境中跨平台、跨环境进行数据的收集、访问、管理和共享变得极为困难,要从分散且高度关联的数据获取可执行洞见,挑战巨大。
这些数据管理难题亟待解决,企业急需应对数据资产多样化、分布式、规模庞大和复杂等问题。
从技术上看,多年来,为支持数据分析出现了许多种架构。最流行的是企业信息工厂(Corporate Information Factory)和数据仓库总线架构,满足企业在构建企业数据仓库(EDW)时对数据分析的需求。
但随着技术和时代的进步,数据科学界所需的分析和对实时数据进行的实时流分析仅靠企业数据仓库环境根本无法支持。
于是数据编织Data Fabric应运而生,Forrester分析师Noel Yuhanna于2013年定义Data Fabric。从概念上讲,Data Fabric大数据结构本质上是一种元数据驱动的方式,用于连接不同的数据工具集合,以有凝聚力的自助服务方式解决大数据项目中的关键痛点。
作为新兴的数据管理和处理方法,Gartner将Data Fabric定义为包含数据和连接的集成层,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付
正如Gartner所说,Data Fabric是一种跨平台的数据整合方式,能集成所有业务用户信息,具有灵活弹性优势,让人们可随时获取数据,还能大幅缩短集成设计、部署和维护的时间。Data Fabric数据编织的目标是创建一个可以涵盖所有形式的分析和数据架构,可以用于任何类型的分析,并让所有需要的人都能无缝的访问和共享。
Gartner定义的Data Fabric能力架构如下:
如何理解Data Fabric呢?Data Fabric是一种端到端的统一架构,它将组织所需的主要数据和分析工具整合在一起。利用AI和机器学习等技术,通过高级功能得到增强,以自动化和优化数据管理流程,从而在您的系统和平台上创建统一、一致和集成的数据环境。这种统一的架构通过自动化元数据管理和AI驱动的洞察动态生成数据产品,从而有效地消除孤岛并培养敏捷性。
首先,Data Fabric是一种数据架构思想,并非特定工具集,旨在以统一方法管理异构数据工具链,把可信数据从各相关数据源,以灵活且易被业务理解的方式提供给所有相关数据消费者,创造比传统数据管理更多价值。
可将Data Fabric想象成一张虚拟网,网上的节点是IT系统或数据源,就像大脑神经元连接传递信息一样,是一种虚拟连接,能让数据迅速流动并统一提供服务。
其次,Data Fabric解决方案提供数据访问、发现、转换、集成、安全、治理、沿袭和编排等领域的功能。
第三,Data Fabric和数据集成不同。数据集成侧重于融合异构存储数据,构建统一视图,包含数据合并、转换、清洗等操作,专注于数据的复制和移动,如ETL加工等。而Data Fabric是架构思想,数据虚拟化是其关键技术之一,数据虚拟化可在不移动数据情况下从源头访问数据,具备跨平台敏捷集成等功能。
另外,数据湖只是Data Fabric的异构数据源之一,数据编织通过统一框架支持分布式环境中的数据消费。
最后,全面整合后的数据分析架构有很多好处,如:让数据管理更轻松,让数据更安全、更可靠、更一致;让数据和分析资产民主;降低了复杂性,促成了协同的、记录在案的数据血缘和数据使用流程等。
数据编织Data Fabric是如何实现的?要达到数据编织的目的,需要具备以下五个能力:
其一,数据源连接能力。数据编织能够连接丰富多样的数据源,像企业内部的数据库、数据仓库、数据湖、BI、应用系统等,也包括非结构化数据源如物联网传感器等,还能从外部公共数据获取数据。
其二,灵活数据目录能力。它能自动识别获取元数据,借助ML/AI分析数据语义打标签加深业务理解,进而构建知识图谱,将碎片化元数据有序组织,便于人机理解和数据处理,为搜索、挖掘、分析助力。
其三,基于知识图谱的智能设计与推荐能力。知识图谱可加速数据集成设计,实现快速检索自动填充,还能进行智能推荐,把合适的数据在合适时间发送到合适的人。
其四,动态集成与自动编排能力。基于前面的基础可实现动态集成,采用本体和网格技术,同时数据自动化编排可简化优化集成流程。
其五,面向消费者的自助能力。能为各类数据用户提供服务,满足专业IT用户复杂需求和业务人员自助式数据处理需求。
Data Fabric的重点供应商。市场研究公司对Data Fabric企业有详细的分析。
Forrester将Denodo、Informatica、Oracle等评为Enterprise Data Fabric领域的领导者。在报告中,Denodo在“数据访问、交付和数据产品”标准中获得高分,在“部署和管理”以及“数据处理和事务”标准中获得高分之一。Denodo还在Roadmap和Partner Ecosystem标准中获得了高分。
根据该报告,Denodo非常适合专注于企业范围数据结构战略的客户,以支持实时分析、客户360度、数据工程、数据科学、物联网分析、运营洞察和预测分析用例等。
目前,一些工具供应商(包括Informatica和Talend)提供包含上述许多功能的Data Fabric,而其他工具供应商(如Ataccama)则提供Data Fabric的特定部分。
Google Cloud通过其新的Dataplex产品支持Data Fabric方法。Data Fabric中各个组件之间的集成通常通过API和通用JSON数据格式进行处理。
在拥有了Data Fabric之后,为什么还要推出Data Mesh?
数据仓库旨在存储数据分析师用于回溯SQL分析的大部分结构化数据,由分析师用于回答有关结构化数据的业务问题;数据湖主要存储数据科学家用于构建预测性机器学习模型的大部分非结构化数据。
而以实时数据流和对云服务的接受为标志的新一代系统,并没有解决数据仓库和数据湖之间潜在的可用性差距。
许多组织构建和维护精心设计的ETL数据管道,以试图保持数据同步,也推动了对“高度专业化数据工程师”的需求。但是数据转换不能由工程师硬连线到数据中,而应该是一种过滤器,应用于所有用户都可以使用的一组通用数据。
因此,数据大致以原始形式保留,并且一系列特定于领域的团队在将数据塑造成产品时接管这些数据,而不是构建一组复杂的ETL管道,将数据移动和转换到专门的存储库中,以便各个领域对其进行分析。
分布式数据网格Data Mesh就是通过一种新架构来解决这一问题。
Data Mesh让数据使用者可以不再是数据的旁观者,而是在数据功能的设计、开发和管理中发挥作用。
分布式数据网格Data Mesh是Zhamak Dehghani于2019年在咨询公司Thoughtworks工作时创造的,旨在帮助解决传统集中式架构(如数据仓库和数据湖)中的一些基本缺陷。
Data Mesh是一种用于分析和数据科学的去中心化数据管理架构。传统的数据架构通常集中数据,导致可扩展性、灵活性和治理方面的挑战。Data Mesh 提出了一种去中心化的方法,将数据视为产品,并由组织内的去中心化团队或领域(如营销、销售和客户服务)进行管理。
以前,集中式基础设施团队将管理跨域的数据所有权。但是,Data Mesh模型将这种所有权转移给生产者,可以在设计API时考虑到主要数据使用者的利益。
除了负责对数据进行编目、建立使用和权限策略以及定义语义之外,这种域驱动的方法还维护一个集中式数据治理团队,以实施围绕数据的标准和实践。
Forrester认为,Data Mesh让数据使用者可以不再是数据的旁观者,而是在数据功能的设计、开发和管理中发挥积极作用。
为此,提出了Data Mesh框架的四个原则,即用于上下文、理解和责任的域所有权,用于环境信任和控制的联合计算数据治理(FCDG),通过自助服务扩展数据使用和业务价值,数据即产品,用于分配和管理数据功能的商业价值。
Forrester也提出,有五个因素会影响Data Mesh在现代数据基础设施中的应用,即语义学、定义和开发数据产品、投资组合管理即数据产品管理、DataOps的作用,以及与强大的主题专家联合。
Data Mesh是数据架构中的一个新兴概念,它为企业提供了多项好处。
去中心化的数据所有权。通过在特定领域的团队之间分配数据所有权,Data Mesh有助于民主化、消除瓶颈并使团队能够做出有关其数据的决策,加快创新速度,更好地与业务目标保持一致。
改进了数据访问和可扩展性。Data Mesh通过增强数据访问、安全性和可扩展性来改善使用数据的团队的体验和效率。其目标是通过在数据所有者、生产者和使用者之间建立直接连接,提高业务用户对数据的可访问性和可用性。
有利于提高数据质量和推进数据治理。集中式架构可能难以维护数据质量和实施治理标准,因为这些职责通常集中在数据团队中。Data Mesh 鼓励特定领域的团队拥有其数据的所有权,从而提高数据质量并符合治理标准。
有利于消除数据孤岛和灾难恢复。Data Mesh的一个显著优势在于它能够减少数据孤岛。通过部署自助式数据基础架构,可以轻松地跨域访问数据,从而促进协作并加快数据发现的步伐。
便于进行人工智能和机器学习。Data Mesh架构中的数据分散化有利于部署AI 和ML选项,依赖于广泛而多样的数据集来高效运行。通过更轻松地访问数据和资源,团队可以更快地迭代AI和ML实验和原型,有助于优化模型并随着时间的推移提高其性能。
众多企业推出了Data Mesh商业化解决方案。
2024年第3季度的Forrester Wave评估了12家企业“企业数据目录”的方案,Atlan被评为领导者。企业数据目录已经成为Data Mesh结构落地的一种商业化产品。
随着组织寻求能够弥合复杂数据集、治理、业务洞察和AI支持之间差距的解决方案,数据目录、数据质量工具和数据治理解决方案正在融合。在一个拥挤、广阔的市场中,Atlan通过为所有业务和技术角色提供“自动化AI/ML元数据、GenAI 辅助发现、端到端沿袭、实时处理和类似 Netflix 的个性化体验”而被评为领导者。它提供上下文感知的关系映射、复杂的工作流程、第三方应用程序小部件、动态访问控制和每日摘要,使用户能够了解和控制数据生态系统。
Snowflake Data Mesh使组织能够从整体式架构过渡到分散、可扩展的数据生态系统。它利用Snowflake的云原生平台来实现域驱动的所有权、无缝数据集成和联合治理。
Snowflake Data Cloud就是这样一个平台。Snowflake的多集群共享数据架构整合了数据仓库、数据集市和数据湖,使其成为设置自助式数据网格平台的一个不错的选择。
2023年,Ascend.io在公司的Data Pipeline自动化平台中集成新的Data Mesh功能,使企业首次能够从单个控制台跨多个数据云共享和链接数据。
Ascend平台中整合的全新Data Mesh功能是通过结合Ascend独有的两项技术而开发的:可扩展架构可在统一架构上支持多个云数据平台即Snowflake、Databricks、BigQuery和开源Spark);Ascend的指纹识别技术内置于DataAware Control Plane中,使公司能够将代码和数据链接在一起,跟踪沿袭并确保数据完整性。通过将这两项功能相结合,公司可以在整个数据生命周期中跨数据平台传输时全面跟踪、自动化和优化数据。
Starburs公司开发了名为Trino的分布式SQL查询引擎Presto版本。Starburst将 Trino(以前称为PrestoSQL)定位为“Data Mesh的分析引擎”,可以对存储在一系列数据库和文件系统中的数据执行SQL查询。它最初设计为在Facebook修改后的Hadoop集群中运行,但如今最大的用例是查询存储在S3或S3兼容对象存储系统中的数据,以及Databricks的Delta Lake等湖仓一体。
Apiphani推出了一套新的服务Apiphani Data Pipeline,专注于帮助客户构建一个推动高效率、可靠性和价值的Data Mesh解决方案,为客户最重要的商业智能、机器学习、人工智能和数字产品奠定了基础。
Apiphani Data Pipeline包含现代数据和分析平台所需的所有组件,包括云原生工具和数据目录解决方案。除了核心技术平台之外,Apiphani Data Pipeline 还围绕托管服务构建,允许客户规划、实施和维护生成的数据管道,产生可靠、简化的自助式数据,为最终用户、数据专业人员、工程师、业务经理和高管带来价值。
正如我们所看到的,Data Fabric与Data Mesh之间存在相似之处,但也有一些差异。
Data Mesh是一种高度分散的数据架构,旨在应对包括缺乏数据所有权、缺乏高质量数据和扩展瓶颈在内的挑战。Data Mesh的目标是将数据视为一种产品,每个来源都有一个数据产品所有者,可以成为跨职能数据工程师团队的一部分,克服了传统数据湖和数据仓库的问题。
Data Fabric是一个连接数据和分析流程的一体化集成的架构层。它利用现有的元数据资产来支持跨所有环境和平台的设计、部署和正确使用数据。Data Fabric旨在通过自动化流程加速数据推理并提供实时见解。它将数据、分析和仪表板集成,并用作管理解决方案,允许在分布式环境中进行访问。
方法差异:自动化与人工包容。Data Mesh从以人员和流程为中心的角度处理数据,并将数据视为产品。
Data Fabric利用人工和机器功能就地访问数据或在适当时支持其整合。它将连接数据源、类型和位置的技术与访问数据的不同方法相结合。Data Fabric持续识别、连接和丰富来自不同应用的实时数据,以发现数据点之间的关系,通过构建一个图表来存储算法可用于业务分析的互连数据描述来实现这一点。
数据存储差异:集中式与分散式。在Data Mesh中,数据分散存储在公司内部的域中。每个节点都有本地存储和计算能力,并且不需要单点控制即可运行。从本质上讲,原始数据保留在域中,并为特定使用案例生成数据集副本。
在Data Fabric中,数据访问通过高速服务器集群进行集中,以实现Data Fabric中的网络和高性能资源共享。
构建方式的差异。Data Mesh旨在取代数据湖成为数据和分析领域主导架构,引入了独立于特定技术的组织视角。其架构遵循领域驱动的设计和产品思维,以克服与数据相关的挑战。Data Mesh数据网格文化是关于连接人们并创建联合职责结构。
Data Fabric利用元数据来推动推荐,而Data Mesh则与主题专家合作来监督域。这些域是可独立部署的微服务集群,用于与用户通信。它由代码、工作流、团队和技术环境组成。
Data Fabric与技术、业务和运营数据配合使用,并且主要与技术、业务和运营数据兼容。可视化工具使技术基础设施易于解释,并帮助组织管理其存储成本、性能、安全性和效率。此外,公司可以在各种数据存储库上虚拟部署单一Data Fabric,以管理不同的数据源和下游使用者。
数据访问差异:API与受控数据集。在Data Mesh中,数据通过受控数据集提供。首先,将信息从部门数据存储复制到共享位置。在Data Fabric中,数据通过基于目标的API提供。数据被复制到特定使用案例的特定数据集中,并且拥有数据的业务单位处于控制之中。
使用案例差异。Data Mesh是混合云网络的理想选择。Data Fabric支持单点数据访问,解决数据质量和存储问题,并处理安全威胁。
Data Mesh和 Data Fabric是现代数据架构范式,旨在解决在复杂的分布式环境中管理数据的挑战。虽然它们有一些相似之处,也具有独特的特征,使它们适用于不同的用例,甚至可以组合使用。
Data Fabric 和Data Mesh两个数据架构概念都是互补的,可以并存。组织可以在不同的用例中利用这两种方法。
根据微软的数据和AI解决方案架构师James Serra的说法,这两个概念的区别在于用户如何访问数据。Data Fabric 和 Data Mesh提供了跨多种技术和平台访问数据的架构。但Data Fabric以技术为中心,而Data Mesh则侧重于组织变革。Data Mesh更多地与人员和流程有关,而不是架构;而Data Fabric是一种架构方法,它以一种智能的方式处理数据和元数据的复杂性,并且可以很好地协同工作。
IBM网站文章显示,Data Fabric和数据网格Data Mesh可以共存。事实上,Data Fabric可以通过三种方式实现Data Mesh:
□ 为数据所有者提供数据产品创建功能,如对数据资产进行编目、将资产转换为产品以及遵循联合治理策略;
□ 使数据所有者和数据使用者能够以各种方式使用数据产品,如将数据产品发布到目录、搜索和查找数据产品,以及利用数据虚拟化或使用API查询或可视化数据产品;
□ 利用来自Data Fabric元数据的洞察,通过在数据产品创建过程或监控数据产品过程中从模式中学习来自动执行任务。
组织的数据成熟度在很大程度上影响着哪个框架更合适。对于数据成熟度相对较高且具有数据驱动型文化的组织,Data Mesh可能是一个可行的选择。这些组织通常拥有完善的数据治理模型、成熟的数据管道以及随时准备对自己的数据资产负责的团队。
对于数据治理仍在发展的组织,特别是不同团队之间可能没有紧密协调的组织,Data Fabric可能是最佳选择。它允许集中治理,同时使组织能够在分布式环境中逐步扩展其数据架构。Data Fabric也更适合元数据成熟度较高的组织,因为它专注于从元数据中推动智能。
无论选择哪种架构,元数据管理都是Data Mesh和Data Fabric的关键要素。元数据(如技术、运营或业务元数据)对于实现有效的数据发现、治理和影响分析至关重要。
Data Mesh和Data Fabric两个架构都有其优点,但如果没有强大的数据完整性基础和明确的元数据管理策略,都可能无法成功。在采用这两种方法之前,组织必须确保拥有必要的基础设施、数据文化和治理,以最大限度地发挥其数据的价值。最终目标是提供可信、可扩展的数据产品,从而提供商业价值,而拥有准确、一致和情境化的数据对于实现信任至关重要。
文:放飞 / 数据猿
责编:凝视深空 / 数据猿