Doris性能优化不要慌，再看看这里！

科技 2024-09-12 09:31 浙江

我们在之前的《Doris性能优化不要慌，看看这里！》详细介绍了Doris Join的优化策略。

今天的文章是第二部分，关于Doris导入优化。

为提供快速的数据写入支持，Apache Doris 存储引擎采用了类似 LSM Tree 结构。在进行数据导入时，数据会先写入 Tablet 对应的 MemTable 中，MemTable 采用 SkipList 的数据结构。当 MemTable 写满之后，会将其中的数据刷写（Flush）到磁盘。数据从 MemTable 刷写到磁盘的过程分为两个阶段，第一阶段是将 MemTable 中的行存结构在内存中转换为列存结构，并为每一列生成对应的索引结构；第二阶段是将转换后的列存结构写入磁盘，生成 Segment 文件。

具体而言，Apache Doris 在导入流程中会把 BE 模块分为上游和下游，其中上游 BE 对数据的处理分为 Scan 和 Sink 两个步骤：首先 Scan 过程对原始数据进行解析，然后 Sink 过程将数据组织并通过 RPC 分发给下游 BE。当下游 BE 接收数据后，首先在内存结构 MemTable 中进行数据攒批，对数据排序、聚合，并最终下刷成数据文件（也称 Segment 文件）到硬盘上来进行持久化存储。

而我们在实际的数据导入过程中，可能会出现以下问题：

因上游 BE 跟下游 BE 之间的 RPC 采用 Ping-Pong 的模式，即下游 BE 一个请求处理完成并回复到上游 BE 后，上游 BE 才会发送下一个请求。如果下游 BE 在 MemTable 的处理过程中消耗了较长的时间，那么上游 BE 将会等待 RPC 返回的时间也会变长，这就会影响到数据传输的效率。
当对多副本的表导入数据时，需要在每个副本上重复执行 MemTable 的处理过程。然而，这种方式使每个副本所在节点都会消耗一定的内存和 CPU 资源，不仅如此，冗长的处理流程也会影响执行效率。

Apache Doris 2.0 版本中，对导入过程中 MemTable 的攒批、排序和落盘等流程进行优化，提高了上下游之间数据传输的效率。此外我们在新版本中还提供“单副本导入”的数据分发模式，当面对多副本数据导入时，无需在多个 BE 上重复进行 MemTable 工作，有效提升集群计算和内存资源的利用率，进而提升导入的总吞吐量。

MemTable 优化

01 写入优化

在 Apache Doris 过去版本中，下游 BE 在写入 MemTable 时，为了维护 Key 的顺序，会实时对 SkipList 进行更新。对于 Unique Key 表或者 Aggregate Key 表来说，遇到已经存在的 Key 时，将会调用聚合函数并进行合并。然而这两个步骤可能会消耗较多的处理时间，从而延迟 RPC 响应时间，影响数据写入的效率。

因此我们在 2.0 版本中对这一过程进行了优化。当下游 BE 在写入 MemTable 时，不再实时维护 MemTable 中 Key 的顺序，而是将顺序的保证推迟到 MemTable 即将被下刷成 Segment 之前。此外，我们采用更高效的 pdqsort 来替代 std::sort ，实现了缓存友好的列优先排序方式，并取得了更好的排序性能。通过上述两种手段来保证 RPC 能够被及时响应。

02 并行下刷

在导入过程中，当下游 BE 将一个 MemTable 写入一定大小之后，会把 MemTable 下刷为 Segment 数据文件来持久化存储数据并释放内存。为了保证前文提到的 Ping-Pong RPC 性能不受影响，MemTable 的下刷操作会被提交到一个线程池中进行异步执行。

在 Apache Doris 过去版本中，对于 Unique Key 的表来说，MemTable 下刷任务是串行执行的，原因是不同 Segment 文件之间可能存在重复 Key，串行执行可以保持它们的先后顺序，而 Segment 序号是在下刷任务被调度执行时分配的。同时，在 Tablet 数量较少无法提供足够的并发时，串行下刷可能会导致系统的 IO 资源无法重复被利用。而在 Apache Doris 2.0 版本中，由于我们将 Key 的排序和聚合操作进行了后置，除了原有的 IO 负载以外，下刷任务中还增加了 CPU 负载（即后置的排序和聚合操作）。此时若仍使用串行下刷的方式，当没有足够多 Tablet 来保证并发数时，CPU 和 IO 会交替成为瓶颈，从而导致下刷任务的吞吐量大幅降低。

为解决这个问题，我们在下刷任务提交时就为其分配 Segment 序号，确保并行下刷后生成的 Segment 文件顺序是正确的。同时，我们还对后续 Rowset 构建流程进行了优化，使其可以处理不连续的 Segment 序号。通过以上改进，使得所有类型的表都可以并行下刷 MemTable，从而提高整体资源利用率和导入吞吐量。

03 优化效果

通过对 MemTable 的优化，面对不同的导入场景，Stream Load 的吞吐量均有不同幅度的提升（详细对比数据可见下文）。这项优化不仅适用于Stream Load ，还对 Apache Doris 支持的其他导入方式同样有效，例如 Insert Into、Broker Load、S3 Load 等，均在不同程度提升了导入的效率及性能。

单副本导入‍‍‍‍

01 原理和实现

在过去版本中，当面对多副本数据写入时，Apache Doris 的每个数据副本均需要在各自节点上进行排序和压缩，这样会造成较大的资源占用。为了节约 CPU 和内存资源，我们在 Apache Doris 在 2.0 版本中提供了单副本导入的能力，该能力会从多个副本中选择一个副本作为主副本（其他副本为从副本），且只对主副本进行计算，当主副本的数据文件都写入成功后，通知从副本所在节点直接接拉取主副本的数据文件，实现副本间的数据同步，当所有从副本节点拉取完后进行返回或超时返回（大多数副本成功即返回成功）。该能力无需一一在节点上进行处理，减少了节点的压力，而节约的算力和内存将会用于其它任务的处理，从而提升整体系统的并发吞吐能力。

02 如何开启

FE 配置：

enable_single_replica_load = true

BE 配置：

enable_single_replica_load = true

环境变量（insert into）

SET  experimental_enable_single_replica_insert=true;

03 优化效果

对于单并发导入来说，单副本数据导入可以有效降低资源消耗。单副本导入所占的内存仅为三副本导入的 1/3（单副本导入时只需要写一份内存，三副本导入时需要写三份内存）。同时从实际测试可知，单副本导入的 CPU 消耗约为三副本导入的 1/2，可有效节约 CPU 资源。
对于多并发导入来说，在相同的资源消耗下，单副本导入可以显著增加任务吞吐。同时在实际测试中，同样的并发导入任务，三副本导入方式耗时 67 分钟，而单副本导入方式仅耗时 27 分钟，导入效率提升约 2.5 倍。具体数据请参考后文。

性能对比

测试环境及配置：

3 个 BE (16C 64G)，每个 BE 配置 3 块盘（单盘读写约 150 MB/s）
1 个 FE，共享其中一个 BE 的机器‍

原始数据使用 TPC-H SF100 生成的 Lineitem 表，存储在 FE 所在机器的一个独立的盘上（读约 150 MB/s）。

01 Stream Load（单并发）

以上述列举的单并发场景来说，Apache Doris 2.0 版本整体的导入性能比 1.2.6 版本提升了 2-7 倍；在多副本前提下，开启新特性单副本导入，导入性能提升了 2-8 倍。

02 INSERT INTO （多并发）

以上述列举的多并发场景来说，Apache Doris 2.0 版本整体比 1.2.6 版本有小幅提升；开启新特性单副本导入后，对在多副本提导入性能提升效果明显，导入速度较 1.2.6 版提升约 50%。

300万字！全网最全大数据学习面试社区等你来！

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

http://mp.weixin.qq.com/s?__biz=MzU3MzgwNTU2Mg==&mid=2247522750&idx=1&sn=d83fec2179d4921541a9dcf73a206585

大数据技术与架构

王知无，大数据卷王，专注大数据技术分享。

最新文章

数据开发SQL写得好有没有用？

Spark 4.0｜自适应查询(AQE)优化革命！

【收藏版】抖音集团指标管理与消费体系建设实践

10万字、近20家企业BI智能分析决策合集

【排查问题/面试必备】Doris SQL执行流程全解析

强烈建议尽快搞个软考证！（重大利好）

Paimon x StarRocks 实时湖仓落地实战

Paimon的Changelog Producer到底有什么用？

Apache Paimon主键表的一些最佳实践

大数据湖仓一体架构未来思考

Apache Doris 3.0核心特性和生产实践解读

从Clickhouse到Doris，湖仓一体架构升级实践

<From官网>Paimon你必须要知道的核心概念

Apache Paimon 0.9版本的一些特性解读！

自助者天助之｜记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历！

【查询优化】Doris性能优化不要慌，再看看这里！

Doris性能优化不要慌，再看看这里！

抱歉，年前我劝各位真的别轻易离职......

Doris性能优化不要慌，看看这里！

面试界经典的「如果xx怎么办？」问题回答思路

技术类面试，面试官的决策标准

关于Flink内存分配核心知识点

Apache Paimon走在正确的道路上｜一些使用体验和未来判断

Doris Compaction生产环境最佳实践这个问题该怎么回答？

零售消费数据分析案例｜七秒易购供应链管理全流程解析（附下载）

Flink 1.20 版本发布，一些值得注意的特性！

简简单单一份大数据面经

Apache Doris 入门 10 问

关于Apache Paimon你需要知道的基本知识

数据开发方向选择问题一次性说完

互联网末法时代的一些思考

最近换工作的一些启示，清华学姐篇

Doris 2.0 ｜高并发点查询性能提升！

收藏版｜数据湖在快手的应用实践

除了写代码，有哪些技能可以让你突破瓶颈期？

有人给我提了一个「差不多就行」的需求？

好多朋友离开大数据开发这个行业了吗？

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

为了摸鱼，我用AI自动清洗数据

收藏级｜蚂蚁金服EB级大数据治理最佳实践

（待会删）yyds，大数据开发请低调使用！

从 0 到 1 构建一站式数据开发治理平台

裁员了，很严重，大家做好准备吧！

面试中的数据模型设计问题该怎么回答？

Apache Paimon毕业，湖仓架构的未来发展趋势！

第一批用AI工作的大数据开发，已经碾压同事了！

Apache Paimon毕业，湖仓架构的未来发展趋势！

B站数据治理平台建设

数据治理要不要在简历中体现？

金三银四还有没有？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉