从 ETL 到 NoETL 的数据架构演进——Denodo 的创新解决方案

文摘   2024-11-28 13:00   北京  
导读 在当今数字化时代,数据管理与架构的演变对企业发展至关重要。本文将深入探讨数据架构从传统 ETL 到新兴概念的转变历程,剖析 ETL 与 NoETL 技术的差异及应用场景,通过实际案例展现其在不同企业中的实践成果,并对未来发展趋势进行展望,为读者呈现数据领域的前沿动态与发展方向。

主要内容包括六大部分:

1. 数据架构的演变背景介绍

2. NoETL 的概念与架构

3. 数据虚拟化

4. 数据虚拟化的实际应用案例

5. 未来发展与展望

6. Q&A

分享嘉宾|尹寒柏 Denodo Senior Sales Engineer

编辑整理|陈玮

内容校对|李瑶

出品社区|DataFun


01

数据架构的演变背景介绍

在探讨数据架构演变之前,先来看一下当前数据使用的趋势。

从多个数据研究机构(如 IDC、IDG、Gartner 等)的统计数据来看,数据量的膨胀是不可避免的趋势。与此同时,数据种类也日益增多。在传统的 ETL 时代,企业可能仅依赖少数几种数据库类型,但如今,分布式数据架构、云上数据等多种形式,使得大企业面临着平均多达四百多种不同类型的数据源,以满足企业分析需求。

另一个显著趋势是数据的民主化,也称为自主服务,越来越多的客户期望将数据交给业务单位(BU)进行自主分析。过去,数据仓库(数仓)或商业智能(BI)项目大多由 IT 部门主导,但这种方式已逐渐难以满足用户需求,因为用户期望能够自主获取和分析数据,而不仅仅依赖于预设的报表或有限的维度数据。

回顾数据架构的演变历程,早期数据缺乏集中管理,直至 20 世纪 90 年代,进入数仓时代,ETL 开始在企业中发挥重要作用。进入 2000 年后,随着数仓的建设成本及企业数据量、种类的不断增加,如物联网(IoT)数据的出现,数据湖等概念应运而生。尽管数据湖允许企业将数据以原始格式存储在数据库中,但这也导致了数据分散的问题,即使有数据仓库、数据湖的存在,企业仍面临跨系统数据整合的挑战。到了 2010 年代,Gartner 提出了逻辑数据仓库的概念,即未来的数据仓库可以是逻辑上的概念,而不一定需要将所有数据实际存储在一个物理存储体中,这是数据管理模式的重大转变。

当提及这一概念时,Denodo 提出一个简洁的口号:“停止收集,开始连接”。以往企业致力于收集数据,将不同平台、系统的数据汇聚至一个物理仓储,用于分析,而无论采用数仓还是数据湖等方式,基本都需开展ETL工作。然而当逻辑数仓概念出现后,我们开始思考是否能够转变思路,不再执着于将所有数据收集整合,而是优先尝试建立连接,至于为何如此,后续将进一步探讨。

传统 ETL 旨在解决数据孤岛问题,即将不同系统的数据整合到一个统一的分析平台。然而,ETL 在实际应用中存在一些问题。例如,在企业合并时,原有的 ETL 系统往往难以复用,需要重新构建。

无论是 ETL 还是 ELT,都有众多工具可以实现高效的批量数据转移,大多数企业都有能力在内部实施。但其也存在流程复杂,时间和人力成本较高等问题。

02

NoETL 的概念与架构

NoETL 概念的产生源于实际需求。

从数据使用困境来看,传统的数仓和数据复制搬移集成方式在面对企业数字化转型过程中的新需求时显得力不从心。例如,业务部门提出的一次性问题或基于外部趋势的临时性分析需求,通过传统 IT 方式响应时间过长且实际效用不大。此外,大量未知数据(如第三方或政府发布的一次性数据)难以通过传统 ETL 方式整合,以及数据科学家在探索创新过程中所需的外部数据也难以融入传统 ETL 架构。

在实际工作中,许多数据具有临时性,有时并不需要持久存储。面对临时性需求以及探索性需求,采用 ETL 方式将数据加载到一个地方后用户才能使用,这种做法极为繁琐。此外,为满足简单或短暂需求而进行数据搬移时,所需的能力成本和维护成本相当高昂。例如,一个数仓可能包含数千甚至上万张表,但实际上并不知道哪些数据正在被使用,可能为了每月仅查看一次的内容而每天搬运数据,合理性存疑。

“NoETL” 概念正是针对这一问题,通过数据虚拟化和实时处理等技术,避免传统的加载流程,无需把大量数据复制到数仓或数湖。

从架构角度来看,以往要做一个分析系统,需要执行的ETL 操作可能涉及更多环节,如 Stage、Data Warehouse、Data Mart 等等,一直到前端呈现,整个流程颇为冗长。而虚拟化技术(它可视为 NoETL 的一种实现方式),其特点在于不再进行层层的数据搬移,前端使用者能够实时查看数据并且进行整合操作。如前所述,“NoETL”的关键差异在于数据是否需要加载到存储中,它也需要进行数据转换(transformation),并且特别注重即时服务,这是该架构的核心需求。

接下来,将进一步介绍 Denodo 对数据虚拟化的实现,随后也会探讨不同厂商在“NoETL”技术应用方面存在的差异。

03

数据虚拟化

Denodo 是一个逻辑上的软件平台,其面向的数据消费者可通过各种 BI 工具或 API 进行操作,背后涉及庞杂的数据类型。Denodo 能够连接 200 多种不同的数据源,这些数据源种类繁杂,随地区、国家及产品而异。

在逻辑架构方面,所有实体可对应到逻辑上的一张视图(view),其可能对应的是 Oracle表、SAP 的 API、Kafka 的主题或云上 API 等等。接着,类似于 ETL 中的抽取(extraction)环节,Denodo 会读取这些数据,之后进行转换(transform),多数 NoETL 工具厂商采用 SQL 进行开发,Denodo 本身也基于 SQL。相比传统 ETL,NoETL 工具对技术能力的要求大大降低,因为熟悉 SQL 语法的人员较多。

Denodo 存在业务层与逻辑层,类似于数据仓库中的各环节,如清洗层、转换层、星型模式(star schema)直至报告层等等,在逻辑概念中同样存在,只是表现为衍生的派生图(derived view),通过建立视图来满足不同需求。

数据消费者下达 SQL 或 API 查询后,Denodo 会解析 API 或 SQL,依据业务语义层确定所需数据源,解析逻辑语法后从不同数据库抓取必要的数据并整合,消费者无需依赖 IT 整理业务需求。例如上图案例中,涉及到营销平台上的营销活动数据、数据仓库中的消费数据,通过 Denodo 可以实现整合分析。

不过,在实际运营中,由于需从不同数据源获取数据,可能面临性能问题。为此,可根据业务需求设置缓存(cache),如日常报表可使用缓存提升性能,临时紧急需求可通过指定参数直接获取原始数据。在 AI 使用场景下,如数据科学家进行全量模式分析且数据量巨大时,可调用外部 MPP 引擎协助运算。

当前市场上虚拟化工具众多,事实上,虚拟化技术并非近年才出现,就 Denodo 而言,公司自 1999 年起的 25 年来一直从事相关业务。只是近年来,传统 ETL 相关需求发生了变化,使得虚拟化技术受到更多关注。

Gartner 指出,虚拟化主要由以下几类厂商提供:其一为独立厂商,专门打造相关机制;其二是传统 ETL 即数据集成厂商,他们也具备提供部分此类能力;其三则是数据库厂商,凭借数据库连接能力扩展虚拟化功能;此外,部分报表工具和 API 工具也具备部分数据虚拟化能力。不同厂家产品各具优劣,具体取决于应用场景。例如,若企业已有 ETL,可根据自身需求选择是否采用独立的专门工具来实现虚拟化功能。

一般而言,提供部分虚拟化能力或扩展虚拟化能力的厂商,在安全、建模、数据目录、自助服务等方面缺乏能力,或者缺乏基于 Presto 的 MPP 引擎,相对来说耗费资源、成本高昂、数据交付速度缓慢,无法在复杂的数据生态中高效运作。Denodo 是数据虚拟化当之无愧的全球领导者,多年蝉联 Gartner 数据集成工具魔力象限领导者位置、Forrester 企业数据编织领导者位置。

ETL 与虚拟化在数据领域存在紧密关联,二者均属于数据集成范畴,在 Gartner 的分类中也有所体现。倘若当前需求侧重于大量数据复制以及历史数据累积,比如某些系统即便能连接原始数据,但交易数据存储时长有限(如仅一两年),仍需进行累积,并且涉及复杂的清洗转换工作,例如执行数据质量检查或复杂运算时,建议采用 ETL 架构来实施。

而数据虚拟化则可以简化数据访问。以往获取数据可能需要访问诸多数据源,且在 Hadoop 上的认证等设定极为复杂。而通过 Denodo,可以提供统一视图,这类似于构建了企业整体的概念性业务模型,其背后可融合结构化与非结构化数据库。如果企业中有实时性报表及分析需求,那么数据虚拟化技术将更具应用价值。

传统 ETL 项目与数据虚拟化项目相比有诸多差异值得关注。

首先,传统 ETL 所实施的项目稳定性相对较高,而虚拟化的优势则体现在执行速度较快。从成本角度来看,无论是专业工程师人力成本还是应急投资成本等均是需要考量的因素。Forrester 曾进行分析,结果显示采用数据虚拟化技术后,项目交付时间大幅缩短,约减少了 65%。同时,我们面临着模型频繁变动的情况。例如一个数据仓库模型可能经过一两年构建完成,但不久后便需再次调整,这凸显了灵活性的重要性。而虚拟化项目在灵活性上更具优势。另外,在跨国客户场景中,还会遇到数据复制受限的问题,比如一些跨国企业就面临此类情况。在可靠性方面,由于网络因素影响,原始数据可能受到冲击,若要确保虚拟化项目中数据可靠,存在一定难度。并且对于复杂的清洗工作,可能仍需借助 ETL 来完成。最后,数据的新鲜度也是一个要点,虚拟化项目中的数据更接近实时。

04

数据虚拟化的实际应用案例

接下来将简要介绍一些案例,旨在让大家了解如何运用 NoSQL 来解决问题。Denodo 本身具备诸多关键技术,有着广泛的应用场景。这些案例展示了使用 Denodo 产品所达成的成果。在许多情况下,Denodo 所扮演的角色类似于商业智能工具,能够为数据科学家和业务用户等提供支持。

第一个案例是国内一家新能源车制造厂商,其业务涉及工厂的一次性扣料相关工作,由于拥有多个不同的工厂和库房,在生产线上处理此类事务时面临挑战。过去,他们采用传统的 ETL 方法,后续虽然使用了低代码平台,但仍需编写代码。而使用 Denodo 处理相同业务、整合不同数据时,完全采用无代码的拖拉方式,就能实现跨数据源及不同数据种类的转换。

这个案例是一家台湾的工业电脑厂商。该厂商希望构建一个企业级数据库,因为他们认为数据库可集中存储所有所需数据。他们的平台连接了三十多种数据源,涵盖 DB、MES 等生产线工厂数据以及外部 API 数据,并且还和台湾、内地及国外的一些工厂相连。起初,这个厂商曾期望构建一个数据湖,但最终采用了通过 Denodo 进行连接的逻辑架构,这种架构如同中央厨房一般,可将各类数据源视作产地直售的产品,数据进入后进行业务名词定义、产品分类(domain)以及其他业务分类,最终由数据消费者自主使用数据。

从全球领先的车辆租赁和车队管理企业案例中可以看到其具备传统 ETL 迁移数仓的特点,并且在整个企业与消费者之间,通过一种逻辑架构来实现数据编织。

数据编织对于集团型企业具有显著优势。如前文所述,对于大型企业,鉴于其在全球范围内设有多个数据中心的情况,借助 Denodo 平台能够实现各数据中心的串联。如此一来,企业内的任何业务单位,无论身处何地,均可访问全球范围内的数据。

某些政府单位会做得更复杂一些。如新加坡政府各个部门通过 Denodo 平台将不同的数据进行串联,实现了数据的即时整合与访问,这种方式被称为数据合并(Data Merge)。在这一过程中,并不需要将所有部门的数据物理地迁移至 Denodo 中存储,而是在需要使用数据时,才从各自部门中调取所需信息。

05

未来发展与展望

在最后一个章节中,将探讨对未来发展的展望。

目前,通过使用 Denodo 平台,我们能够实现实时数据访问,减少数据复制,并扩大数据覆盖范围。同时,还可以建立一套完整且严格的数据安全治理体系。这是当前数据虚拟化的现状,那么未来的发展趋势是怎样的呢?

首先,我们必须继续强化实时数据处理的能力。随着数据种类和类型的日益增多,我们面临的需求也更加复杂,因此需要实施更长期的数据生命周期管理和推进数据自主化。当然,也会有更多的人工智能技术被引入,以支持非技术用户也能轻松访问和理解数据。特别是检索增强生成技术(RAG)的应用将成为重要趋势。在台湾,一些企业客户已经开始探索这一领域,例如,用户可以通过以自然语言与聊天机器人对话的方式来获取所需数据。

综上所述,ETL 与 NoETL 的主要区别在于数据的实时性和灵活性。展望未来,Denodo 的发展方向将逐步转向利用 AI 技术提供辅助。值得注意的是,NoETL 并非旨在完全取代传统的 ETL 方法,而是提倡企业在数据管理实践中结合两者的优点,灵活运用实时数据处理与批处理技术,以实现更加高效的数据管理策略。我个人认为,NoETL 的概念并不是否定 ETL 的重要性,而是强调在数据整合领域,除了 ETL 之外,还有其他方法和技术可以利用,以适应不断变化的数据环境和业务需求。

感谢各位的聆听,谢谢!

06

Q&A

Q1:请问在 Denodo 中跨多种数据源的复杂关联查询是如何实现并保证查询性能的?

A1:在 Denodo 长达 25 年的技术积累中,有一个在本次分享中未详细讨论的重要技术点,即查询优化。在之前的介绍中,我们提到了一张说明图,该图展示了如何将业务语义层的请求优化至不同的数据源中提取数据。这是 Denodo 的一大核心优势所在。面对海量数据,如果没有高效的优化机制,在数据源层面进行必要的整理和转换后再在平台上进行整合,往往会成为性能的瓶颈,导致大量不必要的数据迁移。

得益于在该领域多年的深耕细作,Denodo 的独特之处在于其强大的查询优化器,能够确保在分布式数据架构中快速获得所需结果,而无需大规模移动数据。

Q2:展望未来,您更看好传统的 ETL 还是更加灵活的 NoETL 方向的发展?在整体主流趋势上,您认为将更偏向于哪一方?

A2:我强调选择 ETL 或 NoETL 应基于具体的业务需求场景。正如之前提到的,包括 Denodo 在内的许多现有客户都在使用 ETL。我认为 ETL 是企业基础架构的一部分,是不可或缺的。然而,随着业务需求的多样化和创新,NoETL 的应用场景将会逐渐增加。但是,对于那些不需要通过数据创造更多价值和收入的机构来说,它们可能不会强烈感受到采用 NoETL 的必要性,比如一些政府部门只需要制作日报、月报。

Q3:请问在语义管理过程中需要大量的人工进行配置吗?

A3:以台湾某客户的项目为例,该项目并未扩大团队规模,而是完全依靠现有的IT 人员完成。Denodo 凭借其在该领域近二十年的经验,不仅提供了强大的工具支持,还带来了一系列成熟的产品方法论。例如,在构建不同的域和应用层时,Denodo 提供了一套实施架构指导,帮助用户高效完成项目。在这个过程中,确实需要进行一些业务定义工作,这部分工作通常需要人工完成,因为在早期阶段,系统中往往未保存这些信息,且相关信息可能分散在多个业务系统中,需要手动收集。值得一提的是,Denodo 现已通过 AI 技术的整合,能够对表结构或 SQL 查询提供初步建议。这意味着,用户不必从零开始构建语义层,而是可以通过 AI 快速获得基础建议,之后再根据具体情况进一步讨论和调整。这种方式大大减少了初期的工作量,尤其是在数据治理方面,尽管最终仍需人工审核和确认,但 AI 的介入显著提升了效率和准确性。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


尹寒柏

Denodo

Senior Sales Engineer

拥有超过 20 年的数据管理经验,曾在 Denodo 和 Informatica 担任重要职务,并拥有多年政府 IT 部门的管理背景。

专注于信息生命周期管理、数据质量、数据治理及大数据解决方案,擅长构建稳固的合作伙伴技术生态系统。作为高级产品专家,主导过多个重大项目,推动了行业内的技术创新和最佳实践

互动有礼

按以下方式参与互动,即有机会获赠礼品

数据智能知识地图是由17位高级别专家历时两个月精心打造的专业工具,覆盖数据采集与治理、数据架构、数据能力、数据应用四大领域,包含15个数据模块。是数据智能领域的宝贵资源。

活动方式:

在评论区留言参与与文章相关的话题互动。留言点赞最高1位用户赠送一套《数据智能知识地图》

说明:

1. 留言需要与本文相关,点赞数需真实有效如发现刷赞行为,将取消参与资格。
2. 中奖者请在收到通知的24小时内将您的“姓名+电话+快递地址”留言至原评论下方处即可,隐私信息不会被放出,未在规定时间内回复视作自动放弃兑奖资格。

活动时间:截至12月5日开奖。 快快拉上你的小伙伴参与进来吧~~

往期推荐


B站大数据任务基于Volcano的云原生调度实践

Flink 2.0:史上最大更新解读

斯坦福大学教授李飞飞团队:关于 2024 年人工智能发展报告总结

滴滴ChatBI技术实践:智能数据分析的前沿探索与应用

谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍

火山引擎基于大模型 ChatBI 的演进与实践

多智能体系统(OpenAI Swarm)的可观测性研究实践

吴恩达最新观点:LLM的下一个新兴方向是Agentic AI

蚂蚁集团、网商银行统一动态纠偏框架,非随机缺失问题优化新视角

大模型时代下的私有数据安全与利用

点个在看你最好看

SPRING HAS ARRIVED

DataFunTalk
专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP 自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
 最新文章