声明:此文章PPT来源于某圈内好友业内培训交流材料,版权归原作者星环科技所有。珂珂进行深度解读,欢迎大家转载分享。
加入我们:独享3.6万+全行业数字化转型智库材料, 加珂珂(weix:18702859872)或扫码加知识星球下载原版高清PPT。
近几年来,数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数据湖,有如下定义。数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值。
随着企业的现代化,各式各样的数据结构、越来越高的实时性、快速变化的数据模型等现实情况导致数据仓库已经不能满足日益增长的企业需求,以Iceberg、Hudi为代表的数据湖便应运而生。开放的文件存储、开放的文件格式、开放的元数据服务以及实时读取与写入等特点使它们受到大家的热烈追捧,各大云厂商也随之纷纷提出自己的数据湖解决方案,因此有人说,数据湖是下一代大数据平台。然而新的事物总有两面性,一方面数据仓库无法容纳不同格式的数据,另一方面,数据湖缺乏结构和治理,会迅速沦为“数据沼泽”,两种技术均面临严重的局限性。在此背景下,融合了数据仓库与数据湖优点的新的架构模式"湖仓一体"被提了出来。
“湖仓一体”是一种新的架构模式,它将数据仓库与数据湖的优势充分结合,其数据存储在数据湖低成本的存储架构之上,拥有数据湖数据格式的灵活性,又继承了数据仓库数据的治理能力。给大家分享一份高质量的数据湖相关方案(星环科技官方培训-某大型国企集团大数据平台建设解决方案蓝水版.PPT)~仅供学习参考~
。。。未完待续。。。
学习数据资产入表珂珂深度剖析解读。关注微信公众号:让大数据飞起来,获取更多干货知识。搜索加珂珂微信:18702859872,获取最新行业干货材料。
本周2024-11-10 20:00 直播扫码预约《深度解读数据资产盘点与数据资产入表的落地方案与途径》。