大数据产业创新服务媒体
——聚焦数据 · 改变商业
此次论坛由金猿组委会、数据猿、上海市数商协会及上海大数据联盟联合主办,新华社中国经济信息社作为支持单位,汇聚了来自政府、企业、学术界以及媒体界的数百位精英人士齐聚一堂,共同探讨大数据及数据要素产业充满无限可能的未来发展之路。
会上,Denodo大中华区总裁、全球副总裁何巍在现场带来了一场为“数据虚拟化引领下一代数据管理技术”的主题演讲。他深入剖析了当前数据管理所面临的全新挑战,强调了数据编织作为全球最新的数据架构设计趋势的重要性,以及数据虚拟化技术在其中所展现出的巨大价值。这一技术不仅能够大幅缩短数据链路,让数据以更快的速度产生价值,还能极大地提升整合未知数据源的能力。
Denodo大中华区总裁、全球副总裁何巍
Denodo(丹诺德软件,下称“Denodo”)成立于1999年,至今已有25年发展历程,它是一家来自西班牙的科技公司,于2019年12月进入中国,大中华区总部位于北京市朝阳区。
自成立以来,Denodo长期专注于数据集成、管理和交付,能够帮助企业整合来自不同系统和设备的数据,打破数据孤岛,为企业提供统一的数据视图,从而实现更高效的数据利用和决策支持。
公司的核心产品Denodo平台,通过创建逻辑抽象层,对数据进行封装、打包,屏蔽了分布式数据环境的底层复杂性,为企业提供可信、可用、易于理解的数据服务,提升了企业的数据管理和分析效率。Denodo凭借其专业的数据集成、管理和交付能力,服务于全球众多大型企业,目前已覆盖了上千家客户,其中包括各大主要行业的众多财富500强和全球2000强企业,其客户群体遍布全球,在20个国家设有25个办事处,连续5年被评为Gartner®魔力象限™数据集成工具领导者。
会上,Denodo大中华区总裁、全球副总裁何巍在现场带来了一场为“数据虚拟化引领下一代数据管理技术”的主题演讲。
已成为全球最新的数据架构设计趋势
当今的数据管理领域,面临着诸多新的挑战。
何巍提到,相较于过去,今天的数据管理更难了。“以前数据管理相对简单,基本上是一个应用对应一个数据源编写,即针对一个数据库来开发应用。然而,如今的数据管理则复杂得多,企业在编写应用时,往往需要面对多元的数据源,这些数据源有的属于企业自身,有的则来自外部;有的位于中国,有的则在海外。很多的数据源,是在企业漫长的发展过程中逐步建立起来的,其技术路线各不一样,目前我们是面向批处理的管理模式。”
正因如此,数据集成成为企业当下耗费大量时间和人力的工作,也就是所谓的“人找数”,即先找到所需的数据,再将其集成起来提供给应用开发商。
何巍提到,目前他们提出了新的解决方案,与过去30年技术路线有所不同。过去30年的技术路线,无论是称为数据仓库,还是如今的数据湖,不管其是建在本地还是云端,其核心观点都是先进行数据的集中集成。而数据编织作为未来5-10年数据管理领域的重点趋势之一,已连续四年被Gartner列为重点趋势,且成为了全球最新的数据架构设计趋势。他谈到,Denodo所提倡的数据虚拟化技术,正是实现数据编织的重要手段。
实际上,数据虚拟化技术是一种数据管理的方法,旨在通过创建一个抽象层,使得不同来源和格式的数据能够被统一访问和管理而无需实际迁移或复制数据。这种技术使得用户可以在不考虑数据存储位置的情况下,直接查询和使用数据,从而提高了数据访问的灵活性和效率。
何巍以房屋比喻阐释技术原理。他举例说,比如我们面对一个大客户,这个客户家里拥有很多房子,数据存放在不同地方、以不同技术路线构建的房子里。过去30年的方式是,为了管理这10个房子里的数据,会要求客户再建第11个房子来集中管理数据,这个房子最初建在客户的机房,后来建到了云上,从最初只能存放某些结构化数据,到后来各种数据都可存放,但总体而言,这仍是一种数据提前复制的集中管理方式。
“而我们出的更高效的方法,是什么呢?我们不移动这10个房子里的数据,换而言之,我通过一个软件,能够告知用户所需数据存于哪个房子的具体位置,在真正使用时,让软件帮助找到该位置。这样一来,便取代了数据提前全量复制的方式,这是一个根本性的改变。”
何巍表示,他们现在所采用的方法,是希望通过他们的平台,将应用使用者和数据库两边解耦,当不同的人都需要开发应用时,希望能够减少重复的数据集成工作,避免同一份数据被多次复制,因为这些复制工作大概率是可以避免的。
有些朋友可能会问,为什么不早做出这个产品,何巍指出,这其中的难度主要在于两点:
第一个是连接,英文叫Connect,也就是说,这个产品必须得能连接世界上所有的数据源。换句话说,如果现在需要一款软件,帮忙找这房子里的东西,它必须得能真正连上你所有的房子,不管房子在哪儿,不管房子是怎么盖起来的,不管房子在云上,还是在本地,连接是核心,这件事说得很轻松,两个字——连接,但实际上最耗时的工程化要求最高的就是连接。
第二点是交付,何巍提到,公司的产品是一个低代码的数据集成工具。Denodo搭建了业务和数据源之间的桥梁。使用数据的人,分为数据使用者、数据库研发人员等不同层次,公司的产品实际上要避免的是,在不同的使用者之间,大家不停复制数据,不停通过人工去做数据集成,造成数据集成工作越来越庞大,越来越混乱。
那么如何实现这件事呢?就是通过数据编织(如上图中的右边图显示)。
我们都知道,每个人手头的书都会配有一个目录。传统的做法是,当需要管理10本书的内容时,得把这10本书完整地复制给第三方,在第三方(也就是我们常说的 ETL 环节)进行后续操作。但我们现在采用了一种新办法,只提取书的目录页,大家可以想象,这样获取的信息量相比之前要少得多。
不过,即便只是目录页,对于很多我们所面向的企业而言,也依然存在问题。它们的目录往往很繁杂、体量庞大,在查询时非常有必要进行优化。这就涉及到了橙色和红色标记,它们有什么作用呢?其实是借助以往的查询轨迹、个人历史查阅习惯,再结合缓存技术,来优化目录的查询流程。这里要特别强调的是,整个过程中数据本身并没有发生移动,书原本在哪里,现在还在哪里,我们仅仅是撷取了书的目录页。当需要查找某本书里的具体内容时,依然是回到那本书原本的物理存放位置去获取信息。所以,我们这项技术,有时候大家简单将其概括为一种无需移动数据,就能实现数据管理或者数据集成的方法。
具体而言,目前公司主要做三件事,即连接、优化和交付。这么多年,公司一直在做这个产品,不断打磨。
就公司产品如何进行落地运用,何巍讲了几个实际的案例。
● 案例一:国内某大型车企数字化管理
公司与一家国内大型车企合作,在这家整车厂,为了避免工人在装卸货物时出现不及时或遗漏的情况,车间采用了Denodo的数字化管理软件,对工人的操作进行全面监控和管理。关键绩效指标(KPI)之一是一次性扣料成功率,即在装卸过程中工人能够一次性准确完成所有指定任务的比例。这个项目旨在提升其业务敏捷性,实现数据自治与数据民主。
通过实施Denodo的解决方案,该企业在装卸流程中显著提高了一次性扣料成功率,减少了因操作错误导致的材料和时间浪费,从而降低了生产成本。据统计,过去因错误操作造成的直接和间接经济损失接近千万元。Denodo的软件不仅确保了每个生产环节的准确性,还提升了最终产品的质量,增强了客户满意度。此外,快速完成异构数据的分析处理,使得业务智能(BI)的敏捷交付时间整体减少了30%到50%。
● 案例二:国内某大型车企客户之声(VOC)项目案例
在与国内某大型车企合作的客户之声(VOC)项目中,Denodo产品展示了如何通过快速响应的敏捷数据平台,提升客户满意度和忠诚度。该车企每天需要处理约2000个客户投诉,尤其在网络化环境下,舆情管理的实时性显得尤为重要。
何巍指出,在这个项目中,团队及时捕获了用户对雨刮器逻辑的抱怨(“先刮,后喷水”)。次日,工程师确认并修复了相关bug。2月6日,车企向客户反馈问题并承诺在3月份的OTA更新中予以修正。到了3月份,客户发布视频确认bug已被修复,成功实现了“路转粉”。
何巍提到,传统的ETL方法因其数据搬运的耗时,难以满足24小时内反馈投诉的要求。而目前采用的虚拟化方法,能够快速捕捉和处理数据,确保企业在短时间内做出反应。
● 案例三:国内某大型高科技企业数据2.0平台建设案例
其次的案例是,助力国内某大型高科技企业建设面向未来5-8年的数据2.0平台。
“这个是一个超大型企业,中间它有一个公司级的数据库,因为它太大了,它需要说如果我往下一步发展,我不想建立建设一个继续增大的数据湖,就这个数据湖已经成为我最大的成本中心,而且它会变得越来越慢。随着我业务的增长它会越来越慢。那还有什么办法?”
为了打破这一困境,公司决定采用一种新的方法:在开展新业务时,不再建立集中式数据库,而是允许每个业务单元独立发展,拥有自己的数据能力。在这一过程中,企业意识到新业务往往面临不确定的数据需求,传统的数据湖复制方式既繁琐又不切实际。因此,转向数据虚拟化解决方案。
Denodo作为实现数据网格架构的核心工具,提供了高效的数据连接能力,使得各个业务单元可以灵活访问所需数据,而无需复制庞大的数据集。这样的架构不仅稳定可管理,还具备足够的灵活性,以快速响应市场变化。
通过以上案例,何巍提到,在过去18个月里,自己和团队走访了中国大陆、香港、台湾地区大概200家不同的公司,其中包括潜在客户。在他看来,如今客户在使用通用数据虚拟化技术时,通常有以下几点考虑:
第一点是最为常见的,大家希望加速数据产生价值的时间。不希望数据从产生到使用、直至检测到产生价值的过程过于漫长,而当前存在的问题是,数据的复制、抽取、加工等过程耗时较长,人们期望能够缩短这些过程。
第二点,正如前文所提到的整合未知数据源的能力。实际上,如今每个企业都面临着这样的问题:当开展一项新业务时,往往没有与之相配套的数据能力,也不清楚新业务究竟需要哪些数据支持。在这种情况下,要求老板将所有数据拷贝给自己,大概率是无法实现的。而数据虚拟化技术提供了一种相对灵活的方法,让企业在业务尚不明确时,通过虚拟化先将数据连接起来。
第三点,对于一些企业而言,无论是企业内部的不同部门之间,还是国内与国外的部门之间,都不希望反复拷贝同一份数据,因为这在当前很难符合合规性要求。同一份数据在企业内部被反复拷贝,并且在不同的应用中也被反复拷贝,这显然不是一件好事。
最后一点是关于低频使用数据的情况。“上周,我们在一家国内大型物流企业发现,其数据湖的数据拷贝耗费了不少时间,但最终该数据服务每月的访问量仅为个位数。对于这种低频使用的数据,是否应采用集中管理的方式,这是一个值得探讨的问题。”
所以,基于实践所观察到的情况,他总结出了以下内容:
数据虚拟化技术在大型企业数据架构建设实践中的几点价值:
1. 缩短数据链路,加速数据产生价值的过程;
2. 提升整合未知数据源的能力;
3. 避免在企业内部,不同应用间反复拷贝数据;
4. 对于一些相对低频使用的数据,提供除数据湖之外的另一个方案。
本质是数据民主化进程
在何巍看来,数据虚拟化技术,本质上是数据民主化进程的重要推动力量。他提到,随着技术的持续发展,各类技能的门槛会逐渐降低,相应的使用人群也会逐步扩大。而当到达一定的交叉点后,这种技能便会成为一种基本的素养要求。
那么数据虚拟化技术究竟是什么呢?何巍认为,它是一款低代码化的数据集成工具。就像大家都知道的,工具的出现极大地降低了技术普及的成本。回忆过去没有个人电脑和手机的时代,计算和通信都非常不便,常常需要专业人员的协助,例如在大学时,人们需要通过传达室老大爷开门才能打电话,这无疑体现了当时的高成本。然而现在,有了工具,只需拿起手机就能轻易解决通信问题。数据集成也是如此,倘若没有低代码化的工具,数据集成将会成本高昂,且对专业性的要求也会极高。
因此,从严格意义上讲,他们公司的软件旨在以分布式的方式,推动数据能够被更多使用者快速使用,在他看来,这便是对其产品定位较为准确的描述。
扫描下方二维码了解更多!
文:梦芸 / 数据猿
责编:凝视深空 / 数据猿