Doris MPP架构和 Hadoop 分布式架构到底有什么区别？

文摘 2024-11-05 00:00 重庆

MPP（Massively Parallel Processing）架构和Hadoop架构在大数据处理领域都有广泛应用，但它们的设计理念和应用场景有所不同。以下是MPP架构和Hadoop架构的主要异同点：

相同点

分布式处理：

两者都采用分布式处理的方式，将数据和计算任务分布在多个节点上，以提高处理能力和扩展性。

水平扩展：

两者都支持通过增加节点来水平扩展系统，以应对更大的数据量和更高的处理需求。

容错性：

两者都具备一定的容错机制，能够在某个节点故障时继续运行，保证系统的稳定性和可靠性。

这或许是一个对你有用的开源项目，data-warehouse-learning 项目是一套基于 MySQL + Kafka + Hadoop + Hive + Dolphinscheduler + Doris + Seatunnel + Paimon + Hudi + Iceberg + Flink + Dinky + DataRT + SuperSet 实现的实时离线数仓（数据湖）系统，以大家最熟悉的电商业务为切入点，详细讲述并实现了数据产生、同步、数据建模、数仓（数据湖）建设、数据服务、BI报表展示等数据全链路处理流程。
https://gitee.com/wzylzjtn/data-warehouse-learning
https://github.com/Mrkuhuo/data-warehouse-learning
https://bigdatacircle.top/
项目演示：

不同点

设计目标：

MPP架构：主要设计用于大规模并行处理，特别适合OLAP（在线分析处理）场景，强调高性能和低延迟。MPP架构通常用于实时或近实时的复杂查询和数据分析。

Hadoop架构：主要设计用于批处理和大规模数据存储，特别适合OLTP（在线事务处理）后的数据处理和离线分析。Hadoop架构通常用于处理大规模数据集，强调数据的可靠性和处理能力。

数据存储：

MPP架构：通常使用列式存储，如Parquet、ORC等，以优化查询性能。数据在节点之间分布均匀，每个节点负责一部分数据的存储和计算。

Hadoop架构：使用HDFS（Hadoop Distributed File System）进行数据存储，数据以块的形式分布到各个节点，支持大规模数据的存储和冗余备份。

计算模型：

MPP架构：采用SQL或其他声明式语言进行查询，查询执行计划由协调节点生成，然后分发到各个计算节点并行执行。MPP架构中的计算节点可以直接通信，减少中间结果的传输开销。

Hadoop架构：采用MapReduce模型进行计算，数据处理分为Map和Reduce两个阶段。Map阶段将数据切分成小块并行处理，Reduce阶段对Map阶段的输出进行汇总和合并。Hadoop架构中的节点间通信通过中间结果文件进行。

查询性能：

MPP架构：由于列式存储和高度并行的查询执行，MPP架构在处理复杂查询和大规模数据集时具有更高的性能和更低的延迟。

Hadoop架构：由于MapReduce模型的特性，Hadoop架构在处理大规模数据集时具有较强的吞吐能力，但查询延迟相对较高，更适合批处理和离线分析。

适用场景：

MPP架构：适用于需要高性能和低延迟的实时或近实时分析场景，如金融分析、实时报表、复杂查询等。

Hadoop架构：适用于需要处理大规模数据集的批处理和离线分析场景，如日志分析、数据仓库、机器学习等。

进交流群群添加作者

推荐阅读系列文章

如果喜欢请点个在看分享给身边的朋友

http://mp.weixin.qq.com/s?__biz=Mzg5Mzg3MzkwNA==&mid=2247490225&idx=2&sn=75a9b503edaa5c599e31e2dae8204796

大数据技能圈

分享大数据前沿技术，实战代码，详细文档

最新文章

从0到1建设电商项目数据湖实战教程

Seatunnel 如何设置资源隔离 ↗

需要知道的 Seatunnel 8个命令行写法

性能超越Spark 13.3 倍,比某MPP整体快数十秒 | 多项性能指标数倍于主流开源引擎 | 云器科技发布性能测试报告

Seatunnel 检查点用法看这篇文章就够了

Seatunnel 如何生成保存点及通过保存点恢复任务 ↗

官方推荐 | 企业级 SeaTunnel 集群部署详细教程

SeaTunnel 默认引擎Zeta ，用起来真香！

Hi 介绍一下，这是腾讯ima

自己手搓一个 Seatunnel Access Connector

手把手教你贡献一个Seatunnel Connector PR | 新增jtds方式链接sqlserver

Seatunnel 快速安装详细步骤↗

爆肝三天，我整理了500+ Seatunnel Connector 模板！

全网最全Doris实战文章合集↗

Doris 数据库链接参数调优（经验篇）

从小时级到毫秒：Doris Light Schema Change技术详解

Doris 查询缓存优化机制详解

万字长文讲解什么是 Doris 物化视图