首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
揭秘数据湖治理:资源管理与血缘关系清晰化的双重策略
文摘
2024-11-08 18:02
北京
本文节选自数据湖技术成熟度曲线发布会圆桌整理文档,本圆桌由快手、前腾讯、平安产险等公司的专家参与讨论。
数据湖技术成熟度曲线下载
靳国卫(主持人):
无论是湖仓还是湖,还是仓,最终目标都是解决业务问题。在这个过程中,我们会建设大量的数据资产。当数据资产达到一定规模后,就需要进行治理。
关于治理,我的理解是:数据湖主要为数据仓库提供了基于列的更新能力,在日常工作中,运维和治理的关注点也从表的粒度转变为列的粒度。以前我们写一张Hive表只需执行一个insert overwrite任务就可以完成。现在,通过协作模式和宽表模式的演进,数据模型中可能会有多个任务同时写入。如唐老师提到的,删除列和增加列会对数据产生影响。那么,大家如何看待这种基于血缘的数据治理,从表级到列级的转变对业务的影响,以及需要注意哪些点?请唐老师先来分享一下。
唐浪飞:
好的。从数据治理的角度出发,首先关注的一个方向是资源管理。在治理过程中,我们需要特别重视非结构化或半结构化数据,这类数据在现代项目中占据了很大的比重,尤其是在AI快速发展的今天,非结构化数据的比例显著增加。
在我们的项目中,很多图片、文本或视频数据其实是可以丢弃或过期的,因此我们需要有相应的治理机制。通过湖仓的模式,我们将非结构化数据和结构化数据统一管理,这在传统数据仓库中是很难做到的。正如张静老师之前提到的,统一管理table schema,能够帮助我们更好地处理这部分数据。
其次,张静老师也提到,传统数据库主要处理关系型结构化数据,而在离线数据仓库中,链路往往较长且冗余。通过数据湖,我们能更清晰地看到每个字段的血缘关系,并为其建立索引。这将有助于数据口径的治理和数据内容的修复。
综上所述,我认为数据治理中,资源管理和血缘关系的清晰化是两个重要方向。这不仅有助于提高数据质量,也为后续的业务决策提供了可靠依据。
靳国卫(主持人):
感谢唐老师的分享。接下来,邵老师请您谈谈对数据湖治理的一些想法。
邵赛赛:
治理主要分为两个方面。首先,就像刚才提到的,我们需要对数据资产进行管理,也就是从人的角度出发,治理过程应当包括对列级或表级数据资产生命周期变化的跟踪,这种管理有助于确保数据的质量和一致性。
其次,我认为数据湖的治理还有一个特殊之处,就是系统级或技术级的数据治理。这一点在传统的数据仓库或Hive表中并不明显,数据湖需要处理更多的优化任务。
腾讯内部构建了一套强大的自动优化系统,可以对Iceberg表进行智能优化,例如小文件合并,系统可以根据数据的增量变化进行自动优化,而不是依赖于固定的时间周期。这种方式可以更加高效地利用数据资源,实现更好的合并效果。此外,我们会统计一些指标,进行查询优化。例如,如果发现某些字段的查询频率较高,就会考虑为这些字段建立索引或进行预排序。对于某些具有特征的数据文件,我们会优化统计值。整套体系不仅能够收集查询模式,还能与Iceberg表联动,让查询过程更加流畅。对于用户而言,他们无需关心表中有多少个文件或其布局如何,只需通过普通SQL查询便能获得更好的性能。
总之,这套自动化体系对数据湖治理至关重要。许多公司都在构建类似的系统。如果缺乏这样的体系,数据湖(如Iceberg、Hudi)将面临许多小文件问题,这会影响写入频率并进而影响读取性能。因此,我们的治理工作更多在于系统优化方面。
由上面讨论得知,数据湖的数据治理,有非常多先进的思想和技术点。DataFun重磅推出
数据湖实战工作坊
,对于数据湖如何进行数据治理,有详细的讲解,
欢迎大家扫码咨询
:
http://mp.weixin.qq.com/s?__biz=MzkxMjM2MDIyNQ==&mid=2247635709&idx=3&sn=5e1aa2c8f5933f514fd54fc4b53a8453
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
最新文章
参与Flink社区活动,免费赢取FFA大会两日通票~
货拉拉利用大模型打造多场景个人、办公助理实践
CUTLASS跨平台编译及优化技术实践
电子书上新 |《AI for Data:智能数据处理与分析实战》
B站数据安全合规经验总结
DataOps for LLM 的数据工程技术架构实践
揭秘华为数据安全体系建设方法论
人工智能在汽车智能化领域的创新应用实践
电子书上新 |《AI for Data:智能数据处理与分析实战》
AI Agent 在快消行业的最佳实践
腾讯云助力出海企业高效构建全球大数据基础设施
前腾讯数据湖负责人谈如何选择湖上建仓/仓上建湖
电子书上新 |《AI for Data:智能数据处理与分析实战》
ChatBI在车企如何高效落地
数据性能突破:Spark SQL解析层优化技巧与实践
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
蔚来基于RAG的智能问答最佳实践
电子书上新 |《AI for Data:智能数据处理与分析实战》
MatrixOne 2.0.0 向量检索&多模态解析
腾讯分析型 BI+AI 产品 OlaChat 创新探索
AIGA决策大模型在金融风险管理中的实践
从存储到计算:B站AI训练的全链条优化
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
NebulaGraph 的 GraphRAG 进展、实践
数据治理大爆发!这些核心问题你真的了解吗?
深入探讨分布式缓存技术在AI模型开发中的应用
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
智能驾驶时代的汽车数智化转型!
ChatDBA: 数据库根因分析智能助手的实践与应用
数据分析和 AI 能力在汽车制造领域的创新和应用
揭秘数据湖治理:资源管理与血缘关系清晰化的双重策略
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
活动火热报名中|阿里云&Elastic:AI Search Tech Day
【留言赠书】一篇讲明白LLVM指令调度算法
从0到1,B站AI训练全方位解析
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
新一代AI框架的设计和实现
AIGC 在蚂蚁保保险领域的应用探索
大模型推理的加速技术和硬件适配
小红书云端平台的深度优化策略
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
Pick 最爱的游戏 AI 智能体,抽取大礼!
Agent+RAG:基于大模型的生成式AI落地探索
腾讯大数据实时湖仓智能优化实践
如何提升AI框架数据处理能力的策略
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
异构计算资源下的AI框架优化
百川智能:深度学习大模型推理性能优化策略
Flink CDC 核心源码解析与应用实践
电子书上新 |《Data for AI 实践之路:从数据治理到智能应用》
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉