数据仓库→湖仓一体，实时大数据平台这样建

科技 2024-08-15 11:15 上海

在数据驱动业务的时代，企业的数据应用需求发生巨大转变，开始从传统的离线分析转向实时数据分析，同时随着数据规模的极速增长，企业对于实时数据治理提出更高要求。

传统的数据仓库如Doris、ClickHouse、Hive在处理大规模、多源异构数据时显得力不从心，难以满足企业对高效、实时、灵活数据处理与分析的迫切需求。

在此背景下，本文将为您提供如何将传统数据仓库升级为湖仓一体（Lakehouse）架构的方案，重塑企业对于海量数据的统一管理与实时分析能力。湖仓一体架构完美融合了数据湖的灵活性和数据仓库在数据管理方面的成熟特性，为企业构建了一个统一的数据平台，帮助企业轻松应对数据增长的挑战。

升级数据湖方案的关键步骤

关键阶段1

扩展数据湖核心组件

1. 选择与部署分布式存储

分布式存储系统是支撑湖仓一体架构的基石，提供了灵活扩展、高可用、高性能、数据本地化等特性，为企业巨量数据存储提供保障。以下是数据湖分布式存储常见的两种选择方案：

基于HDFS分布式文件系统：适用于大规模数据存储与处理，具有高吞吐量和容错性。在部署时，支持按需构建集群规模、节点配置和网络拓扑、灵活扩展。
基于S3分布式对象存储：以对象的形式提供巨量数据存储服务，提供可扩展、冗余持久、高可用性的数据存储和检索解决方案。UCloudStor 统一分布式存储平台提供标准 S3 对象存储服务和数据统一生命周期管理，是构建企业级数据湖存储的绝佳选择。

2. 集成数据湖表管理工具

数据湖表管理工具是湖仓一体架构的核心，常见的工具有Paimon、Iceberg、Hudi等，均提供ACID事务保持数据一致、增量数据处理、时间旅行、优化数据查询性能、优化的数据组织和管理方式等能力，并且兼容多种大数据计算引擎，如 Spark、Flink、Presto/Trino 等。

它们还有一些差异能力，供选择参考：

Paimon：侧重于流处理场景，支持动态表和 changelog 表等流式数据模型，为流处理提供事务性和高可用性及故障恢复机制，它由 Flink 社区推动，与Flink集成更加紧密，适用于高可用性流处理和事务性保证的场景。
Iceberg：提供一种通用的表格式，支持复杂表结构的数据模型，其使用乐观锁实现事务，对并发控制和快照隔离提供支撑，性能和可扩展性优异，社区活跃，适用于高性能查询和跨多种计算引擎工作的场景。
Hudi：提供类似于关系数据库的更新和删除操作，以及增量数据管道，提供COW、MOR 等存储类型，支持文件和记录级锁，和快速 Upsert 操作，社区活跃，适用于频繁进行数据更新和删除操作的场景。

集成这些工具前，需要充分考虑与现有数据仓库的兼容性情况，数据湖管理工具特性，以及工具的社区活跃度和支持情况等因素。优刻得智能大数据平台USDP，提供基于Hadoop大数据生态支持，涵盖数据采集、巨量数据湖存储、缓存加速、流批处理平台、OLAP数据库、可视化调度等数据全生命周期的大数据一站式生态技术支持。

关键阶段2

元数据统一管理

为实现数据仓库元数据与数据湖元数据的统一管理，可考虑复用MPP数据库的元数据管理服务，通过其接入数据湖元数据，完成数据仓库与数据湖的元数据统一管理。

通过MPP数据库的元数据管理服务，采集数据湖的元数据，包括表结构、分区信息、数据格式等，使MPP数据库元数据管理服务形成中央元数据服务形态。必要的情况下，需要扩展相应的连接器来解决元数据服务与部分数据湖管理工具间不兼容的对接工作。

数据仓库和数据湖的元数据服务整合，将采集到的数据湖元数据变化及时存储在中央元数据服务中，确保数据仓库和数据湖的元数据能够实时同步，便于原有基于数据仓库的工作流等分析任务能够通过元数据服务访问数据湖中的数据。同时，建立并维护长效稳定的元数据同步机制，结合业务数据状况，定期检查元数据的完整性和准确性，及时处理元数据冲突和异常，维护元数据服务的高时效同步效率及稳定性。

关键阶段3

打通数仓与数据湖的互访

完成前面两个关键阶段工作后，即可进一步对MPP数据库与数据湖表管理工具进行兼容性测试，从而构建相互兼容的湖仓统一平台，确保平台技术面的无缝兼容。

数据湖操作性测试聚焦于两大核心：一是数仓与数据湖间数据调用的兼容性测试，二是新数据向数据湖平台的存储验证。同时，可考虑利用兼容数据湖的大数据分析引擎如 Spark、Flink、Hive 等，构建基于数据湖的数据分析业务。

重点测试元数据互访、数据湖一致性（ACID事务）、增量处理、时间旅行及查询性能优化等。根据测试结果，优化兼容性接口、连接器等，基于兼容性测试及功能完备性验证，真正实现数据在数仓与数据湖间的无缝流动。至此，我们已成功实施了从数据仓库架构向湖仓一体融合形态的大数据平台升级方案。

若用户着眼于业务的长期发展和优化，期望将数据湖的优势特性全面融入整个大数据平台，盖新旧数据及数据处理业务员的全流程，则可进一步考虑将现有数据仓库中的数据存储及工作流迁移至数据湖架构，并逐步淘汰旧架构及平台。不过，鉴于此过程的复杂性与较长时间周期，需要做好完善的迁移规划。

方案延伸

全面转向数据湖

由湖仓一体平台架构，全面转向数据湖架构，可在上述方案基础上，开展数据从数仓至数据湖的跨存储平台数据迁移，重点保障相关数据的元数据一致性及数据自身的一致性。

同时，对原有基于数据仓库的数据分析工作流，逐一向数据迁移后的数据湖平台进行割接，采用边迁移边验证、边验证边割接测试的策略，并根据业务查询特点和数据特性，实施索引优化、查询重写等操作，充分优化查询性能；完成对整个数据仓库从数据到分析业务逻辑的过渡和迁移，直至充分运用数据湖架构完全承载全量数据存储与分析业务。

优刻得USDP智能大数据产品除提供完善的大数据生态支持，以及对新型数据分析框架及服务支持的同时，还可根据用户现有大数据平台架构及数据、工作流等梳理分析，为用户制定全面完备的迁移方案、迁移实施及过程保障工作。

截至目前，USDP 已经成功服务了四川国税局、晖致医药、达美乐等各领域企业用户，积累了丰富的大数据平台实践和服务经验，能够为用户提供持续性技术保障，助力他们实现数据仓库架构向数据湖架构的平滑过度。

本文简要阐述了企业大数据平台从数据仓库架构升级至数据湖架构的思路和方法。更多方案详情，欢迎扫码咨询。

热文回顾

1、你的第一张社交名片，我们用AI帮你生成

2、存储成本降低40%，优刻得高性能块存储新升级

3、优刻得专属云合作伙伴招募启动

4、优刻得智能大数据平台V3.1上线

http://mp.weixin.qq.com/s?__biz=MjM5NDE0MjI4MA==&mid=2656321139&idx=1&sn=f4ea827a215d4f17eebf30018cf74fb4

优刻得云计算

UCloud优刻得，中国第一家云计算科创板上市公司，服务近5万家消费用户，提供包含公有云、私有云、混合云的全局解决方案。应需而为、快速响应，产品免费试用。立即注册：https://passport.ucloud.cn/#register

最新文章

出海这条路，有优刻得全球云服务

连续两年！CSA云安全联盟优秀会员单位

弹性算力与高性能存储，助力芯片国产化加速破局

这次角逐人工智能先锋！

“芯时代”的高效能存储方案

大模型技术实践（六）｜优刻得AI推理平台升级高性能推理服务框架

优刻得算力服务，让你的AI业务部署灵活又安全

进博会｜优刻得与世界共享数字新机遇

以科技创新助力人民城市建设

优刻得与数新智能达成多云数智生态合作

@所有人你有一份超低价上云攻略请查收！

AI智能体都进化到这样了？！！

优刻得2024三季报：综合毛利率持续稳步提升！

国家数据局成立一周年在即，数据要素正发挥生产力价值

优刻得模型微调服务，加速AIGC行业场景应用

优刻得金融数字底座亮相2024双态IT大会

替代VMware的靠谱方法，终于找到了！

兰州城市学院上云记

和中国移动一起拥抱“AI+”

优刻得安全屋保障公共数据资源开发利用

向“新”布局，用AIGC引领新质生产力

携手共鉴河南百亿基金启航，打造国家级算力产业高地

坚定信心，乘势而上！

云计算出海，越来越国际范儿

一期一会，移动全球合作伙伴大会见！

优刻得：加速人工智能与云产业生态融合

优刻得2024国庆假期服务安排

“京津冀蒙”算力供给走廊，首批接入！

优刻得与宾果智能达成战略合作

医药行业的垂直大模型来了

当建筑数据「上云」之后…

AI手机时代，我们准备好了！

时空数据上云，这很City

数据入表+安全流通=更有价值的商业数据

加速布局智算产业链生态，助推大模型应用落地

绿电比例80%，乌兰察布智算中心逐“绿”而行

和大湾区的朋友聊聊一体化算力服务平台

开机即玩！优刻得《黑神话：悟空》专属套餐，助你直面天命！

《黑神话：悟空》免费送！

数据仓库→湖仓一体，实时大数据平台这样建

存储成本降低40%，优刻得高性能块存储新升级

你的第一张社交名片，我们用AI帮你生成

奥运季，从智慧体育开始！

优刻得专属云合作伙伴招募启动！

容器镜像加速，让你的AI应用尽享丝滑！

优刻得与蔚星科技达成战略合作，打造航天产业“天基大脑”

国产AI PC崛起，"此芯P1"来了！

优刻得赴马来西亚参加“数字扬帆”出海交流活动

优刻得参加工信部中非数字合作论坛

Llama 3.1模型来袭，火速get“开源巨无霸”！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉