首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Flink 1.20 版本发布，一些值得注意的特性！

科技 2024-08-05 09:00 浙江

8月2日，Flink1.20版本发布，一边听歌一边看我分析。（戳上面👆听歌）

本文基于官方网站的Release Note做一个简单的分析，看看哪些内容是更加值得我们关注的。

在定位上，这个版本是一个2.0版本之前的过渡版本，也是1.x时代最后一个版本。

这个版本中有很多细小的变动，和一些MVP版本的开发，那站在用户的角度，比较值得注意的几个特性有哪些：

物化表

1.20版本引入了一个 物化表(Materialized Table) 的概念，官方给的解释是：

通过定义查询语句和数据新鲜度，引擎会自动推导出表结构并创建对应的数据加工链路，以保证查询结果满足所要求的数据新鲜度。

什么意思呢？

我们直接看一段代码：

-- 1. 创建物化表并定义新鲜度
CREATE MATERIALIZED TABLE dwd_orders
(
 PRIMARY KEY(ds, id) NOT ENFORCED
)
PARTITIONED BY (ds)
FRESHNESS = INTERVAL '3' MINUTE
AS SELECT 
 o.ds
 o.id,
 o.order_number,
 o.user_id,
...
FROM 
 orders as o
 LEFT JOIN products FOR SYSTEM_TIME AS OF proctime() AS prod
 ON o.product_id = prod.id
 LEFT JOIN order_pay AS pay
 ON o.id = pay.order_id and o.ds = pay.ds;

-- 2. 暂停数据刷新
ALTER MATERIALIZED TABLE dwd_orders SUSPEND;

-- 3. 恢复数据刷新
ALTER MATERIALIZED TABLE dwd_orders RESUME
-- Set table option via WITH clause
WITH(
 'sink.parallesim' = '10'
);

-- 手动刷写历史数据
ALTER MATERIALIZED TABLE dwd_orders REFRESH PARTITION(ds='20231023');

也就是说，现在我们定义了一个dwd_orders的sink算子，下游数据刷新频率等于3分钟。你的sink可以是Kafka、Paimon、Hudi等等。

我把FLIP设计文档中的motivation部分贴在下面，大家可以自己看：

从感官上来讲，根据FLIP设计文档中的描述，我一时分不清这个Feature要解决的真正问题在哪里？

但是不急，我们等2.x版本有了更多的场景再回过头来看看，暂时保持关注。

支持DISTRIBUTED BY

1.20版本中，Flink社区引入了分桶的概念。这个概念在很多计算引擎中都有，例如Hive、Doris等等。

目的是通过将数据拆分为不相交的子集来实现数据在外部存储系统中的负载均衡。

关于这个Feature的出现，主要是2个目的。

第一，在SINK端实现数据的负载均衡

目前Flink Sink算子进行数据均衡存储是在sink connector中实现的。例如官方社区的 kafka sink connetor是支持sink.partitioner这样的配置的，结合Flink的分区算子进行sink端的负载均衡。

此外，很多公司基于此还开发了很多额外的参数让kafka sink connector变得更易用。

第二，Flink作为计算引擎必须要考到Join操作的性能优化

在简化用户的建表操作的同时，让Flink引擎感知到外部数据的物理分布，为未来支持类似bucket join这样的优化打好基础。

State和Checkpoint上的一些优化

Flink 1.20 引入了统一的检查点文件合并机制，它将多个小的检查点文件合并为数量较少的大文件，从而减少了文件创建和文件删除操作的次数，并减轻了检查点期间文件系统元数据管理的压力。

此外，1.20版开始，Flink可以使用RocksDB API在后台合并RocksDB 状态后端生成的小文件。

还有一些其他的优化，大家根据需要去关注官方的文档：

官宣｜Apache Flink 1.20 发布公告

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247522309&idx=1&sn=5da35e9b4f5417051fd3bc7e22df69ae

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉